Tf–idf
コーパス内の文書においてある単語がどれだけ重要かを示す統計量
なぜトレンドなのか
Interest in “Tf–idf” spiked on Wikipedia on 2026-02-28.
When a Wikipedia article trends this sharply, it usually reflects a noteworthy real-world event—whether breaking news, a cultural milestone, or a viral discussion driving collective curiosity.
GlyphSignal tracks these patterns daily, turning raw Wikipedia traffic data into a curated feed of what the world is curious about. Every spike tells a story.
要点まとめ
- 情報検索の分野において、 tf–idf は、 term frequency–inverse document frequency の略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量(数値)である。
- ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。
- 今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。
情報検索の分野において、tf–idf は、term frequency–inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量(数値)である。また、tf-idfは情報検索や、テキストマイニング、ユーザーモデリングにおける重み係数にもよく用いられる。ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。この性質は、一般にいくつかの単語はより出現しやすいという事実をうまく調整することに役立っている。今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。2015年に行われた研究では、電子図書館におけるテキストベースのレコメンダシステムのうち83%がtf-idfを利用していたことがわかった。
WikipediaコンテンツはCC BY-SA 4.0の下で提供