博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
TF-IDF与余弦相似性的应用
阅读量:6328 次
发布时间:2019-06-22

本文共 248 字,大约阅读时间需要 1 分钟。

阮一峰老师的博客写的相当详细了,非常佩服,在这里记录一下链接

一):自动提取关键词

url:

笔记:

分母+1目的是防止所有文档都不包含该词(未登录词)

利用tf-idf方法:

优点 是简单快速,结果比较符合实际情况。

缺点 是这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。

 

二):找出相似文章

url:

更详细的参看 吴军 《数学之美》 P127

 

三):自动摘要

url:

转载地址:http://jygaa.baihongyu.com/

你可能感兴趣的文章
初识Ajax---简单的Ajax应用实例
查看>>
js 去除字符串空白符
查看>>
201521123026《JAVA程序设计》第13周学习总结
查看>>
【SICP练习】82 练习2.54
查看>>
[APUE]标准IO库(下)
查看>>
saltstack自动化运维系列③之saltstack的常用模块使用
查看>>
shell编程系列18--文本处理三剑客之awk动作中的条件及if/while/do while/for循环语句...
查看>>
工控安全资料
查看>>
修改linux最大文件句柄数
查看>>
网络编程---tcp/udp协议
查看>>
jmeter3.2 版本完美实现Load Test报表
查看>>
再看python多线程------threading模块
查看>>
R 从零开始,简单API集合
查看>>
学习react系列(八)—— mixins迁移
查看>>
《工作DNA》摘录三
查看>>
5.7-多源复制搭建
查看>>
HSPA+技术及系统分析
查看>>
Python 多线程及进程
查看>>
迁移应用数据库到MySQL Database on Azure
查看>>
各种类型的背包问题
查看>>