Tf-idf
为什么这是热门
Interest in “Tf-idf” spiked on Wikipedia on 2026-02-28.
When a Wikipedia article trends this sharply, it usually reflects a noteworthy real-world event—whether breaking news, a cultural milestone, or a viral discussion driving collective curiosity.
GlyphSignal tracks these patterns daily, turning raw Wikipedia traffic data into a curated feed of what the world is curious about. Every spike tells a story.
要点总结
- tf-idf (英語: t erm f requency– i nverse d ocument f requency )是一種用於資訊檢索與文本挖掘的常用加權技術。
- 字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。
- 除了tf-idf以外,互聯網上的搜尋引擎還會使用基於連結分析的評級方法,以確定文件在搜尋結果中出現的順序。
- 這個數字是对 词数 (term count)的標準化,以防止它偏向長的文件。
tf-idf(英語:term frequency–inverse document frequency)是一種用於資訊檢索與文本挖掘的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。tf-idf加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。除了tf-idf以外,互聯網上的搜尋引擎還會使用基於連結分析的評級方法,以確定文件在搜尋結果中出現的順序。
原理
在一份給定的文件裡,詞頻(term frequency,tf)指的是某一個給定的詞語在該文件中出現的频率。這個數字是对词数(term count)的標準化,以防止它偏向長的文件。(同一個詞語在長文件裡可能會比短文件有更高的詞数,而不管該詞語重要與否。)對於在某一特定文件裡的詞語來說,它的重要性可表示為:
Content sourced from Wikipedia under CC BY-SA 4.0