[00364499]复杂场景下的低资源语音识别技术
交易价格:
面议
所属行业:
广播电视
类型:
非专利
交易方式:
资料待完善
联系人:
所在地:
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
利用语音识别技术促进不同语言的人相互沟通具有重要的理论意义与应用价值,特别是在国家加快推进“一带一路”战略,积极构建“人类命运共同体”的背景下,加强世界各国人民相互了解、共同发展变得越来越重要。主流的语音识别技术都是基于数据驱动的方法,这类技术在模型训练过程中需要大量精确标注的语音数据,并且难以自动适应不同的使用场景。这些问题极大的限制了语音识别技术的实用性。为了促进语音识别技术的实际应用落地,该项目主要研究内容包括:(1)复杂场景下语音识别的前端处理技术;(2)低资源语音识别的声学建模技术;(3)快速变化环境中语音识别声学模型的自适应技术。
该项目研究得到国家自然科学基金面上项目、青年基金项目、中国博士后科学基金面上项目以及河南省自然科学基金项目的支持。项目组在中文核心期刊上发表论文9篇,SCI源刊发表论文6篇,其中包括JCR2区论文1篇,JCR3区论文5篇。项目研究成果获得河南省优秀博士学位论文奖1项,《西安交通大学学报》2019年度优秀论文1篇。项目部分研究成果已在实际系统中得到应用,发挥了重要的社会效益,在多项国际评测大赛,与众多国际一流团队的角逐中也获得良好成绩:2016年参加国际阿拉伯语连续语音识别评测(MGB2016)比赛,国际排名位列第4;2017年参加国际阿拉伯语连续语音识别埃及方言评测(MGB2017)比赛,国际排名位列第2。项目主要创新点包括:
(1)针对复杂的应用背景条件,在语音识别系统前端,采用基于半监督音频特征选择的音频分割技术,将背景音乐、背景噪声、人声等音频段自动切分开;采用基于听觉滤波器组长时信息的话音激活检测技术,进一步准确检测人声,提高后端语音识别系统的针对性、减少噪声及非语音数据干扰。
(2)针对小语种、方言等标注数据不足的问题,从声学特征空间的低维非线性流形结构特征出发,研究适合于低资源语音识别的深层神经网络特征提取方法、基于混合因子分析的语音识别声学模型以及基于深度神经网络的声学建模方法,由于模型的参数量大大减少、可利用多语言数据进行辅助训练,因此对标注数据量的要求大大减少,训练出的模型也更为稳健。
(3)针对多变的实际应用环境,通过对语音识别模型参数空间的说话人、音素等维度的概率子空间分析,建立层次化的参数空间概率模型,进而利用贝叶斯原理得到层次化的在线自适应方法。该方法可使得语音识别系统可快速适应变化的说话人、噪声、方言等应用环境,且随着实际使用中自适应数据量的不断增多,系统性能会越来越好,具有快速、增量学习的特点。
利用语音识别技术促进不同语言的人相互沟通具有重要的理论意义与应用价值,特别是在国家加快推进“一带一路”战略,积极构建“人类命运共同体”的背景下,加强世界各国人民相互了解、共同发展变得越来越重要。主流的语音识别技术都是基于数据驱动的方法,这类技术在模型训练过程中需要大量精确标注的语音数据,并且难以自动适应不同的使用场景。这些问题极大的限制了语音识别技术的实用性。为了促进语音识别技术的实际应用落地,该项目主要研究内容包括:(1)复杂场景下语音识别的前端处理技术;(2)低资源语音识别的声学建模技术;(3)快速变化环境中语音识别声学模型的自适应技术。
该项目研究得到国家自然科学基金面上项目、青年基金项目、中国博士后科学基金面上项目以及河南省自然科学基金项目的支持。项目组在中文核心期刊上发表论文9篇,SCI源刊发表论文6篇,其中包括JCR2区论文1篇,JCR3区论文5篇。项目研究成果获得河南省优秀博士学位论文奖1项,《西安交通大学学报》2019年度优秀论文1篇。项目部分研究成果已在实际系统中得到应用,发挥了重要的社会效益,在多项国际评测大赛,与众多国际一流团队的角逐中也获得良好成绩:2016年参加国际阿拉伯语连续语音识别评测(MGB2016)比赛,国际排名位列第4;2017年参加国际阿拉伯语连续语音识别埃及方言评测(MGB2017)比赛,国际排名位列第2。项目主要创新点包括:
(1)针对复杂的应用背景条件,在语音识别系统前端,采用基于半监督音频特征选择的音频分割技术,将背景音乐、背景噪声、人声等音频段自动切分开;采用基于听觉滤波器组长时信息的话音激活检测技术,进一步准确检测人声,提高后端语音识别系统的针对性、减少噪声及非语音数据干扰。
(2)针对小语种、方言等标注数据不足的问题,从声学特征空间的低维非线性流形结构特征出发,研究适合于低资源语音识别的深层神经网络特征提取方法、基于混合因子分析的语音识别声学模型以及基于深度神经网络的声学建模方法,由于模型的参数量大大减少、可利用多语言数据进行辅助训练,因此对标注数据量的要求大大减少,训练出的模型也更为稳健。
(3)针对多变的实际应用环境,通过对语音识别模型参数空间的说话人、音素等维度的概率子空间分析,建立层次化的参数空间概率模型,进而利用贝叶斯原理得到层次化的在线自适应方法。该方法可使得语音识别系统可快速适应变化的说话人、噪声、方言等应用环境,且随着实际使用中自适应数据量的不断增多,系统性能会越来越好,具有快速、增量学习的特点。