当前位置：首页 > 资讯 > 正文

NLTK自然语言处理（2）NLTK常用命令

yu
资讯
2024-12-09
72

similar() 用来查看与目标词出现在相似上下文中的词。第一个参数是目标词，第二个参数是相似词的个数，默认num=20

common_contexts() 可以查看一个列表中的词的共同上下文

dispersion_plot() 可以用离散图表示词的位置信息，横轴表示从文本开头算起前方有多少词。

len() 文本长度计算的是单词与标点或者叫做“标识符”的数量的总和

set() 可以生成文本的词汇表，即将重复的标识符合并后生成的列表

count() 可以直接返回某单词在文本中的个数

频率分布类中定义的函数

当语料文本被分为几类，如文体、主题、作者等时，可以计算每个类别独立的频率分布，这将允许我们研究类别之间的系统性差异。
条件频率分布是频率分布的集合，每个频率分布有一个不同的“条件”。这个条件通常是文本的类别。
ConditionalFreqDist()
条件频率分布需要给每个事件关联一个条件。
所以不是处理一个单词词序列，我们必须处理的是一个配对序列
每个配对的形式是：(条件, 事件)

按字符长度选择单词

多重条件选择单词

自然语言常用命令处理

本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕，E-mail：xinmeigg88@163.com
本文链接：http://www.bhha.com.cn/news/1993.html

上一篇
如何创建百度词条手机操作方法移动端创建词条的详细步骤

下一篇
全球十大互联网流量网站，你用过几个？