TF-IDF
-
基于聚类分析的文本主题挖掘:从TF-IDF到词向量
你对着一堆评论数据,准备做主题挖掘。同事说“用 TF-IDF 加 K-Means 跑一下就好了”,你在网上搜了一圈,又看到有人说“TF-IDF 太老了,语义都抓不住,用词向量才靠谱”。两边听起来都有道理,但你拿自己的短评数据一试,词向量那组聚类结果像一锅粥,TF-IDF 那组勉强能看但又总觉得缺了点什么。 这类场景我经历过不下七八次,踩过的坑能填满一个 Git 提交记录。这篇文章要解决的正是这个问…