X为了获得更好的用户体验,请使用火狐、谷歌、360浏览器极速模式或IE8及以上版本的浏览器
平台简介 | 帮助中心
欢迎来到科易厦门城市创新综合服务平台,请 登录 | 注册
尊敬的 , 欢迎光临!  [会员中心]  [退出登录]
当前位置: 首页 >  科技成果  > 详细页

[00220042]Web挖掘中若干理论与算法的研究

交易价格: 面议

所属行业: 网络

类型: 非专利

技术成熟度: 正在研发

交易方式: 技术转让 技术转让 技术入股

联系人: 江西师范大学

进入空间

所在地:江西南昌市

服务承诺
产权明晰
资料保密
对所交付的所有资料进行保密
如实描述
|
收藏
|

技术详细介绍

  Web挖掘中若干理论与算法的研究

  Web挖掘技术属于信息科学领域,涉及自然语言处理、模式识别、知识工程、机器学习和随机过程等多个研究领域,并需要使用概率统计、矩阵理论以及其他软计算方法作为研究工具和手段。本项目主要针对Web挖掘中的Web数据模型、文本分类和信息检索等基本问题进行理论和算法上的研究,并就这些问题提出了潜在语义结构模型、基于投影寻踪的中文网页分类算法和基于Markov网络的信息检索等模型。同时,在理论上对这些方法进行了深入的研究和探讨,从理论上证明了其正确性。在实验方面,我们将分类模型应用于大规模的标准测试文档集(REUTER-21578语料库、复旦大学中文文本分类语料库),进行了大量的实验,结果表明这些方法均表现出了较好的性能,接近甚至优于SVM和KNN的分类效果,并应用检索模型在标准测试文档集(CACM、CISI、CRAN、MED)上进行了多次对比实验,其性能与BM25相当在某些指标上甚至更优。另外,课题组在北大天网测试文档集上应用上述模型,在近几年的全国搜索引擎和网上信息挖掘学术研讨会(SEWM)的中文WEB信息检索评测中均取得了优异的成绩。

  Web挖掘中若干理论与算法的研究

  Web挖掘技术属于信息科学领域,涉及自然语言处理、模式识别、知识工程、机器学习和随机过程等多个研究领域,并需要使用概率统计、矩阵理论以及其他软计算方法作为研究工具和手段。本项目主要针对Web挖掘中的Web数据模型、文本分类和信息检索等基本问题进行理论和算法上的研究,并就这些问题提出了潜在语义结构模型、基于投影寻踪的中文网页分类算法和基于Markov网络的信息检索等模型。同时,在理论上对这些方法进行了深入的研究和探讨,从理论上证明了其正确性。在实验方面,我们将分类模型应用于大规模的标准测试文档集(REUTER-21578语料库、复旦大学中文文本分类语料库),进行了大量的实验,结果表明这些方法均表现出了较好的性能,接近甚至优于SVM和KNN的分类效果,并应用检索模型在标准测试文档集(CACM、CISI、CRAN、MED)上进行了多次对比实验,其性能与BM25相当在某些指标上甚至更优。另外,课题组在北大天网测试文档集上应用上述模型,在近几年的全国搜索引擎和网上信息挖掘学术研讨会(SEWM)的中文WEB信息检索评测中均取得了优异的成绩。

推荐服务:

智能制造服务热线:0592-5380947

运营商:厦门科易帮信息技术有限公司     

增值电信业务许可证:闽B2-20100023      闽ICP备07063032号-5