【成果简介】 印刷体、手写体文档图像的识别与检索技术能够极大的提高文档处理的自动化程度。对于印刷体文档,可以实现大类别集汉字、英文及符号的混合识别,识别率可达99。5%以上。对于手写体文档,可实现GB2312-80一级和二级国标字库,共6000多个汉字类别的识别及100多个英文和符号的手写识别,在部分公开数据集上,单字识别率可达98%以上。基于文档识别结果,可以构建高效的容忍识别错误的文档检索系统。对于退化严重的文档图像,也可不进行识别,直接基于图像特征建立标引与检索机制。该成果已经获得了两项国家发明专利授权,分别为:
1、一种基于内容的图像格式中文文档检索方法,ZL201010226787.5
2、一种印刷体字符图像样本的自动生成方法,Zl201110096820.1
市场预测
该项研究可直接应用于图书馆、博物馆、政府部门、银行、大型企业等的文档管理,可以极大的提高文档管理的自动化水平。