TF-IDF 是一种用于衡量“某个词对某篇文档有多重要”的统计方法,常见于信息检索与文本挖掘。它结合了:
常用于关键词提取、搜索排序、文本特征表示等。(在不同实现中会有不同的归一化与平滑方式。)
/ˌtiː ˌɛf aɪˌdiːˈɛf/
TF-IDF helps identify keywords by downweighting very common words like “the” and “is.”
TF‑IDF 通过降低像 “the”“is” 这类高频常见词的权重,帮助识别关键词。
In a search engine, documents with higher TF-IDF scores for a query term are often ranked closer to the top.
在搜索引擎中,对查询词具有更高 TF‑IDF 得分的文档通常会被排在更靠前的位置。
TF-IDF 是由两个缩写组成的技术术语:TF(Term Frequency) 与 IDF(Inverse Document Frequency)。该思路源于信息检索领域对“词的重要性”进行加权的需求:一个词在某篇文章里出现得越多,可能越能代表主题;但如果它在所有文章里都很常见(如功能词),就不应被判定为关键词,因此引入 IDF 来进行“稀有度”修正。