当前位置:首页 > 资讯 > 正文

NLTK自然语言处理(2)NLTK常用命令

NLTK自然语言处理(2)NLTK常用命令

similar() 用来查看与目标词出现在相似上下文中的词。第一个参数是目标词,第二个参数是相似词的个数,默认num=20

common_contexts() 可以查看一个列表中的词的共同上下文

dispersion_plot() 可以用离散图表示词的位置信息,横轴表示从文本开头算起前方有多少词。

len() 文本长度计算的是单词与标点或者叫做“标识符”的数量的总和

set() 可以生成文本的词汇表,即将重复的标识符合并后生成的列表

count() 可以直接返回某单词在文本中的个数

 
 
 
 
 

频率分布类中定义的函数

 
 

当语料文本被分为几类,如文体、主题、作者等时,可以计算每个类别独立的频率分布,这将允许我们研究类别之间的系统性差异。
条件频率分布是频率分布的集合,每个频率分布有一个不同的“条件”。这个条件通常是文本的类别。
ConditionalFreqDist()
条件频率分布需要给每个事件关联一个条件。
所以不是处理一个单词词序列,我们必须处理的是一个配对序列
每个配对的形式是:(条件, 事件)

按字符长度选择单词

多重条件选择单词

最新文章