TF-IDF 模型
什么是 TF-IDF 模型
在之前的文章中谈到了词袋模型,也讲到了它的许多不足,在今天的这篇文章中,我们要尝试解决词袋模型的缺点之一:每个词的重要性是一样的
💡 那么,核心问题就是————如何定义「单词的重要性」这个概念?
一个想法是:一个单词在一个文档里面出现得越频繁,则这个单词对于这个文档来说越重要。比如一篇讨论狗的文章,大概率文章里面会出现很多「狗」,即词频高的单词反映了文档的主题
在之前的文章中谈到了词袋模型,也讲到了它的许多不足,在今天的这篇文章中,我们要尝试解决词袋模型的缺点之一:每个词的重要性是一样的
💡 那么,核心问题就是————如何定义「单词的重要性」这个概念?
一个想法是:一个单词在一个文档里面出现得越频繁,则这个单词对于这个文档来说越重要。比如一篇讨论狗的文章,大概率文章里面会出现很多「狗」,即词频高的单词反映了文档的主题
尽管我已经使用 Numpy 和 Pytorch 好长一段时间了,但我一直不知道他们是如何实现底层的张量(tensor),而且这么高效。最近在看 Deep Learning Systems 这门课,终于有机会尝试自己实现张量,实现一遍之后对张量的理解更深刻了🧐