unigram:在语言学与自然语言处理中,指由一个词(或一个符号)构成的基本单位;也指只考虑单个词独立出现频率的统计/语言模型(与 bigram、trigram 等相对)。在不同语境下还可泛指“单字/单词项”(另有较少见的其他用法)。
/ˈjuːnɪɡræm/
A unigram is a single word in a text.
一元语法项(unigram)就是文本中的一个单词。
In information retrieval, unigram language models estimate document relevance using individual word probabilities.
在信息检索中,一元语言模型会用单个词的概率来估计文档相关性。
由 **uni-**(拉丁语 unus “一”)+ -gram(来自希腊语 gramma “字母、书写的东西”)构成,字面意思是“一个(词/符号)的单位”。该词常见于计算语言学与统计建模语境,用来与 bigram(二元)等术语成对出现。