当前位置：首页 > 科技成果 > 详细页

[00303086]一种基于关键词匹配的正文抽取方法

交易价格： 面议

所属行业： 分析仪器

类型： 发明专利

技术成熟度： 正在研发

专利所属地：中国

专利号：CN201710131780.7

交易方式： 技术转让技术转让技术入股

联系人：桂林电子科技大学

进入空间

所在地：广西壮族自治区桂林市

服务承诺: 产权明晰; 资料保密
对所交付的所有资料进行保密; 如实描述

登录后向技术服务商咨询

发布技术需求服务免费，交易还可领红包哦

技术详细介绍

本发明公开了一种基于关键词匹配的正文抽取方法，通过统计网页源代码Keywords标签中的关键词并以该关键词建立标准库，再构建相应的DOM树；层次遍历DOM树，统计DOM树中所有节点包含关键词的数量，以节点与其父节点所含关键词数量的比率关系来计算节点的关键词权重，并通过对节点子女最大关键词权重的判断，有效甄别并定位包含正文文本的正文节点，完成正文抽取；

针对关键词匹配方法不能有效抽取的短文本问题，提出相似度匹配方法，其将段落文本和页面标题转换成8位二进制数据，通过海明距离判断相似性实现短文本的正文抽取。

本发明以网页自设置的关键词进行匹配，不需要训练数据，也不需要进行样本学习，脱离了网站结构的限制，具有较好的通用性。

[00303086]一种基于关键词匹配的正文抽取方法

技术详细介绍

推荐服务：