本发明公开了一种基于关键词匹配的正文抽取方法,通过统计网页源代码Keywords标签中的关键词并以该关键词建立标准库,再构建相应的DOM树;层次遍历DOM树,统计DOM树中所有节点包含关键词的数量,以节点与其父节点所含关键词数量的比率关系来计算节点的关键词权重,并通过对节点子女最大关键词权重的判断,有效甄别并定位包含正文文本的正文节点,完成正文抽取;
针对关键词匹配方法不能有效抽取的短文本问题,提出相似度匹配方法,其将段落文本和页面标题转换成8位二进制数据,通过海明距离判断相似性实现短文本的正文抽取。
本发明以网页自设置的关键词进行匹配,不需要训练数据,也不需要进行样本学习,脱离了网站结构的限制,具有较好的通用性。