TF-IDF

Definition｜释义

TF-IDF 是一种用于衡量“某个词对某篇文档有多重要”的统计方法，常见于信息检索与文本挖掘。它结合了：

TF（term frequency，词频）：这个词在该文档里出现得有多频繁
IDF（inverse document frequency，逆文档频率）：这个词在整个语料库中有多“稀有”（越常见的词权重越低）

常用于关键词提取、搜索排序、文本特征表示等。（在不同实现中会有不同的归一化与平滑方式。）

Pronunciation｜发音（IPA）

/ˌtiː ˌɛf aɪˌdiːˈɛf/

Examples｜例句

TF-IDF helps identify keywords by downweighting very common words like “the” and “is.”
TF‑IDF 通过降低像 “the”“is” 这类高频常见词的权重，帮助识别关键词。

In a search engine, documents with higher TF-IDF scores for a query term are often ranked closer to the top.
在搜索引擎中，对查询词具有更高 TF‑IDF 得分的文档通常会被排在更靠前的位置。

Etymology｜词源

TF-IDF 是由两个缩写组成的技术术语：TF（Term Frequency） 与 IDF（Inverse Document Frequency）。该思路源于信息检索领域对“词的重要性”进行加权的需求：一个词在某篇文章里出现得越多，可能越能代表主题；但如果它在所有文章里都很常见（如功能词），就不应被判定为关键词，因此引入 IDF 来进行“稀有度”修正。

Related Words｜相关词汇

Literary Works｜文学与典籍中的用例

Introduction to Information Retrieval（Manning, Raghavan & Schütze, 2008）
Modern Information Retrieval（Ricardo Baeza-Yates & Berthier Ribeiro-Neto, 1999）
Information Retrieval（Salton & McGill, 1983）