AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

《从Lucene到Elasticsearch：全文检索实战》学习笔记五

时间：2022-11-21分类：Elasticsearch作者：编程之家

今天我给大家讲讲tf-idf权重计算

tf-idf权重计算：

tf-idf(中文词频-逆文档概率)是表示计算词项对于一个文档集或语料库中的一份文件的重要程度。词项的重要性随着它在文档中出现的次数成正比，会随着它在文档集中出现的频率成反比。如果一个词项在一遍文档中出现的频率非常高，说明其比较重要，如果这个词项在其他文档中出现的频率也高，那么说明这个词有可能是比较通用的。

tf代表词项频率，如果要计算指定词项的词频，统计该词在整篇文档中出现的次数就可以了。如果一篇3000字的文档中词语“足球”出现了3次，我很难判定这片文章和足球相关，但是一篇100字但微博中通用出现三次“足球”。基本可以断定微博内容和足球有关，为了削弱文档长度但影响，需要将词频标准化，计算公式如下

另外，词频标准化的方法不止一种，Lucene中采用了另外一种词频标准化方法：

文档频率df表示包含指定词的所有文档数目。df通常比较大，把它映射到一个较小的取值范围，用逆文档频率（idf）来表示‘：

从上面公式中可以看出分母越大，说明该词越常见，逆文档频率越小。分母中文档数加1是进行平滑处理，防止所有文档都不包括某个词时分母为0的情况发生。词项的权重用TF-IDF来表示，计算公式如下：

通过tf－idf可以把文档表示成n维的词项权重向量

作者：柯之梦
来源：CSDN
原文：https://blog.csdn.net/yin4302008/article/details/86104662
版权声明：本文为博主原创文章，转载请附上博文链接！

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

完美掌握MySQL登录方法]MySQL登录教程

TCP/IP套接字登录方法是MySQL在一切服务平台都提供的一种登录方法，也是互联网中应用数最多的一种方法。这种方法在TCP/IP登录上创建一个根据互联网的登录申请，一般手机客户端在一台服务器上，而MySQL实例在另外一台...

作者：普通网友时间：2022-12-20

easy-rules规则引擎最佳落地实践

easy-rule规则引擎最佳落地

作者：CBeann 时间：2022-12-19

windows 安装 Elasticsearch

Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎, 本文主要介绍了在 windows 10上安装 Elasticsearch,Elasticsearch-head,kibana等软件, 方便自己学习使用,

作者：纯洁的小魔鬼时间：2022-12-19

关于ElasticSearch日期格式不一致的异常，可以这么解决

最近壹哥的一个学生，在利用spring-data-elasticsearch访问ElasticSearch(ES)时，遇到了一个关于日期类型的BUG，困扰了很久。然后他就找壹哥给他解决，接下来壹哥就把解决的过程给大家复现一下，希望本文可以给遇到同...

作者：一一哥Sun 时间：2022-12-19

java 操作elasticsearch详细总结

java 操作elasticsearch详细总结

作者：逆风飞翔的小叔时间：2022-12-19

全文搜索引擎 Elasticsearch 入门教程

原文链接：http://www.ruanyifeng.com/blog/2017/08/elasticsearch.html全文搜索属于最常见的需求，开源的 Elasticsearch （以下简称 Elastic）是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。...

作者：thlzjfefe 时间：2022-12-16

elasticsearch启动常见错误

原文链接：https://www.cnblogs.com/zhi-leaf/p/8484337.html 问题出现环境，OS版本：CentOS-7-x86_64-Minimal-1708；ES版本：elasticsearch-6.2.2。1、max file descriptors [4096] for elasticsearch process is ...

作者：thlzjfefe 时间：2022-12-16

【ES】Elasticsearch分词器使用和简单查询

文章目录Elasticsearch一. analysis与analyzer1.1 内置的分词器1.2 内置分词器示例1.3 中文分词1.3.1 IK分词器1.3.2 HanLP1.3.3 pinyin分词器1.4 中文分词演示1.5 分词的实际应用1.5.1 设置mapping1.5.2 插入数据1.5...

作者：thlzjfefe 时间：2022-12-16

Elasticsearch06：Elasticsearch分词详解：ES分词介绍、倒排索引介绍、分词器的作用、停用词

一、ES分词介绍ES中在添加数据，也就是创建索引的时候，会先对数据进行分词。在查询索引数据的时候，也会先根据查询的关键字进行分词。所以在ES中分词这个过程是非常重要的，涉及到查询的效率和准确度。假设有一条数...

作者：thlzjfefe 时间：2022-12-16

ES和Kibana设置账号密码

命令执行后，会出现几句英文，大概的意思是：你如果确定开启密码的话，需要设置以下六种账户的密码elastic、apm_system、kibana、logstash_system、beats_system、remote_monitoring_user。第四步：重启后，输入kiba...

作者：日日行不惧千万里时间：2022-12-06