[00761934]基于文本结构权重的主题区域识别技术
交易价格:
面议
所属行业:
软件
类型:
非专利
交易方式:
资料待完善
联系人:
所在地:
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
互联网的蓬勃发展,使其成为当今最大的信息来源。通过浏览网页和搜索引擎,人们可以获得部分所需信息,为了更加方便快捷的获取信息,出现了Web信息抽取技术,它通过对Web网页的包装分析,将半结构化的网页转化为结构化的数据,并抽取出目标信息。该项目提出了基于文本结构权重的主题区域识别算法。该算法基于树结构,将Web网页解析为标签树,在树匹配算法的基础上,改进了数据区域挖掘算法和语义链接块识别算法,实现了去链接的预处理;提出了文本结构权重的概念,并采用文本结构权重的计算结果识别主题区域的发现算法;最后采用归一化的方法计算主题区域内的文本结点相对长度值,利用归一化相对长度值,有效的去除和主题内容无关的文本节点,实现了主题区域去噪,得到了准确的主题内容。该研究结果能准确快速的挖掘出Web上有价值的信息,有着广阔的应用前景。该研究的目标即是在互联网上抽取有用的文本主题信息,并将抽取到的文档主题内容转换为声音。这一应用可以帮助眼障人士使用互联网,从而获取实用信息,为用户节约宝贵的时间和精力。在现实中该研究结果有着许多具体的应用,比如:该产品可以用于语音新闻浏览,这对视障者(包括盲人和低视力者)来说,可以容易获取互联网的信息。另外,普通的浏览器只提供视觉上的体验,大多数网站只针对视力正常人制作,一般都没有考虑到为视障者提供服务,因此该功能可满足视障者浏览WEB页面的需求。该产品可以用于手机或能无限上网的便携设备上,使用户在路上或车上不用查看屏幕即可听到网络抽取的信息;该产品还可以做成盲人上网本。基于HTML的WEB页面的一大特点是页面上充满着超级链接,这些链接指向另外一个页面,视障者无法正确定位这些链接,也就无法有效的实现网页跳转。为了能让视障者更好的利用互联网资源,可以利用自动化抽取主题的方法并通过TTS技术实现朗读,这样就可以有效的帮助他们从互联网中获取知识。盲人具有超乎常人的听力和音感,只要经过适当训练盲人即可操作上网本。介于上述两点,该产品具有较好的产业化前景。技术合作方式:合作开发、技术转让
互联网的蓬勃发展,使其成为当今最大的信息来源。通过浏览网页和搜索引擎,人们可以获得部分所需信息,为了更加方便快捷的获取信息,出现了Web信息抽取技术,它通过对Web网页的包装分析,将半结构化的网页转化为结构化的数据,并抽取出目标信息。该项目提出了基于文本结构权重的主题区域识别算法。该算法基于树结构,将Web网页解析为标签树,在树匹配算法的基础上,改进了数据区域挖掘算法和语义链接块识别算法,实现了去链接的预处理;提出了文本结构权重的概念,并采用文本结构权重的计算结果识别主题区域的发现算法;最后采用归一化的方法计算主题区域内的文本结点相对长度值,利用归一化相对长度值,有效的去除和主题内容无关的文本节点,实现了主题区域去噪,得到了准确的主题内容。该研究结果能准确快速的挖掘出Web上有价值的信息,有着广阔的应用前景。该研究的目标即是在互联网上抽取有用的文本主题信息,并将抽取到的文档主题内容转换为声音。这一应用可以帮助眼障人士使用互联网,从而获取实用信息,为用户节约宝贵的时间和精力。在现实中该研究结果有着许多具体的应用,比如:该产品可以用于语音新闻浏览,这对视障者(包括盲人和低视力者)来说,可以容易获取互联网的信息。另外,普通的浏览器只提供视觉上的体验,大多数网站只针对视力正常人制作,一般都没有考虑到为视障者提供服务,因此该功能可满足视障者浏览WEB页面的需求。该产品可以用于手机或能无限上网的便携设备上,使用户在路上或车上不用查看屏幕即可听到网络抽取的信息;该产品还可以做成盲人上网本。基于HTML的WEB页面的一大特点是页面上充满着超级链接,这些链接指向另外一个页面,视障者无法正确定位这些链接,也就无法有效的实现网页跳转。为了能让视障者更好的利用互联网资源,可以利用自动化抽取主题的方法并通过TTS技术实现朗读,这样就可以有效的帮助他们从互联网中获取知识。盲人具有超乎常人的听力和音感,只要经过适当训练盲人即可操作上网本。介于上述两点,该产品具有较好的产业化前景。技术合作方式:合作开发、技术转让