V2EX  ›  英汉词典

TF-IDF

Definition|释义

TF-IDF 是一种用于衡量“某个词对某篇文档有多重要”的统计方法,常见于信息检索与文本挖掘。它结合了:

  • TF(term frequency,词频):这个词在该文档里出现得有多频繁
  • IDF(inverse document frequency,逆文档频率):这个词在整个语料库中有多“稀有”(越常见的词权重越低)

常用于关键词提取、搜索排序、文本特征表示等。(在不同实现中会有不同的归一化与平滑方式。)

Pronunciation|发音(IPA)

/ˌtiː ˌɛf aɪˌdiːˈɛf/

Examples|例句

TF-IDF helps identify keywords by downweighting very common words like “the” and “is.”
TF‑IDF 通过降低像 “the”“is” 这类高频常见词的权重,帮助识别关键词。

In a search engine, documents with higher TF-IDF scores for a query term are often ranked closer to the top.
在搜索引擎中,对查询词具有更高 TF‑IDF 得分的文档通常会被排在更靠前的位置。

Etymology|词源

TF-IDF 是由两个缩写组成的技术术语:TF(Term Frequency)IDF(Inverse Document Frequency)。该思路源于信息检索领域对“词的重要性”进行加权的需求:一个词在某篇文章里出现得越多,可能越能代表主题;但如果它在所有文章里都很常见(如功能词),就不应被判定为关键词,因此引入 IDF 来进行“稀有度”修正。

Related Words|相关词汇

Literary Works|文学与典籍中的用例

  • Introduction to Information Retrieval(Manning, Raghavan & Schütze, 2008)
  • Modern Information Retrieval(Ricardo Baeza-Yates & Berthier Ribeiro-Neto, 1999)
  • Information Retrieval(Salton & McGill, 1983)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1079 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 17:31 · PVG 01:31 · LAX 09:31 · JFK 12:31
♥ Do have faith in what you're doing.