使用余弦定理来实现对两个文本相似性的比较:
python代码位置:http://www.oschina.net/code/snippet_1180874_22866
此算法非常简单,但精确度不够高。但也可以通过简单的优化得到更好的结果,如以上代码就简单的加入了过渡功能。若再加入一个分词库,通过分词来比较中文的相似性,那就更好了。下面代码就用到了分词库实现文本的比较,效果提升明显。
使用分词以及余弦定理来比较两份文档的相似性的代码:
http://www.oschina.net/code/snippet_1180874_22869
原理解释参考此文章:http://my.oschina.net/BreathL/blog/42477
其它:https://pypi.python.org/pypi/NearDuplicatesDetection/0.2.0
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。