[00301875]基于元搜索引擎搜索结果的去重方法
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201610136918.8
交易方式:
技术转让
技术转让
技术入股
联系人:
哈尔滨工程大学
进入空间
所在地:黑龙江哈尔滨市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
摘要:基于元搜索引擎搜索结果的去重方法,本发明涉及元搜索引擎搜索结果的去重方法。本发明是要解决现有技术不能对格式不同的URL的相同网页和重定向的网页进行去重、根据标点符号周边的信息、标点符号的位置以及词频的模糊匹配不能全面地代表句子与文章问题,而提出的基于元搜索引擎搜索结果的去重方法。该方法是通过一、根据URL地址判断是否是重复网页;二、分别计算两个网页的标题相似度和两个网页摘要的相似度;三、根据标题相似度和摘要的相似度计算网页的相似度:步骤四、如果相似度值Sim(A,B)大于阈值,则就认为两个网页是重复的等步骤实现的。本发明应用于元搜索引擎搜索结果的去重领域。
摘要:基于元搜索引擎搜索结果的去重方法,本发明涉及元搜索引擎搜索结果的去重方法。本发明是要解决现有技术不能对格式不同的URL的相同网页和重定向的网页进行去重、根据标点符号周边的信息、标点符号的位置以及词频的模糊匹配不能全面地代表句子与文章问题,而提出的基于元搜索引擎搜索结果的去重方法。该方法是通过一、根据URL地址判断是否是重复网页;二、分别计算两个网页的标题相似度和两个网页摘要的相似度;三、根据标题相似度和摘要的相似度计算网页的相似度:步骤四、如果相似度值Sim(A,B)大于阈值,则就认为两个网页是重复的等步骤实现的。本发明应用于元搜索引擎搜索结果的去重领域。