X为了获得更好的用户体验,请使用火狐、谷歌、360浏览器极速模式或IE8及以上版本的浏览器
平台简介 | 帮助中心
欢迎来到科易厦门城市创新综合服务平台,请 登录 | 注册
尊敬的 , 欢迎光临!  [会员中心]  [退出登录]
当前位置: 首页 >  科技成果  > 详细页

[01354053]双语表现力语音合成与应用

交易价格: 面议

所属行业: 乐器

类型: 非专利

交易方式: 资料待完善

联系人:

所在地:

服务承诺
产权明晰
资料保密
对所交付的所有资料进行保密
如实描述
|
收藏
|

技术详细介绍

该课题旨在进行汉语双语表现力合成语音的相关研究,并将其研究成果嵌入到多模态的口语对话系统中,从而进一步增进人机交互过程的和谐性,推动有表现力的可视语音合成技术的发展,为建立未来和谐人机语音交互环境提供理论基础和技术支持。其研究内容涉及以下理论技术:多语种语音合成、虚拟说话人合成、表现力语音特征提取分析、表现力语音合成、可视韵律分析合成、说话人表情合成、音视频双模态联合建模。研究成果可以直接应用在人机对话、信息服务、游戏娱乐、语言教育等多种领域,具有重大的理论价值和广泛的应用领域,具有可观的经济社会效益。目前可视语音合成已经得到了广泛的重视和应用,然而如何提高合成语音自然度,使其具有丰富表现力,同时使虚拟说话人能够更具亲和力,具有与人类相似的的情感表现,还是一个开放的问题,也是该课题重点研究的关键问题。具体来说,该课题的研究内容包括:对普通话和广东话的双语语音合成进行研究,搭建多语言环境的语音合成平台;建立具有表现力的音视频双模态数据库,提取音视频中的表现力特征,对表现力特征进行分析建模;对虚拟说话人的可视表现力进行分类合成,建立包括高层情感语义,中层表情特征,底层动画驱动的参数化合成框架;对说话人的可视韵律和面部表情进行分析合成;对音视频双模态表现力进行联合建模,完成双语表现力可视语音合成系统。该课题的主要研究成果如下:(1)创建具有丰富表现力(多种风格、情感、个性化)的汉语双语(普通话与广东话)可视语音合成系统(包括表现力语音、虚拟说话人脸像动作)。(2)提出了一种基于语义概念和三维情感空间PAD的语料库表现力标注方法,建立了多种风格、语气、情绪和语义焦点与表现力特征的映射,并建立了面向对话活动的语音和视频双模态的数据库。(3)提取了情感语音的67维的特征参数,进行了回归分析、聚类,明确了情感语音的关键性特征,建立了语音情绪转换模型。(4)分析了表现力语音的PAD描述、局部和全局的声学表现,提出了一种表现力语音的层级化建模方法,建立了表现力语音合成的非线性模型。(5)分析了虚拟说话人头部的运动规律,建立了文本中语义焦点、韵律结构与头部运动参数的映射模型,实现了文本驱动的头部韵律动作生成。(6)提出了脸像局部表情参数(PEP),首创了高层的情感空间(PAD)与脸像动画参数(FAP)、局部表情参数(PEP)之间的定量映射模型。(7)分析了说话过程中语音和视频的交互作用,提出了一种基于动态贝叶斯网络(DBN)的音视频关联模型(AVCM),提高了表现力语音、表情脸像的同步与表现效果。该项目的研究成果使人机语音交互从以往呆板的“人—机,”对话向自然的“人—人”对话转变,大大提高了人机语音交互的自然度和表现力。相关技术成果可以嵌入在人机对话,信息服务,游戏娱乐,语言教育等多种实际应用领域中,从而满足网络多媒体计算时代下,人们日益增长的数字学习娱乐等应用需求,具有重大的理论价值和广泛的应用领域,具有可观的经济社会效益。
该课题旨在进行汉语双语表现力合成语音的相关研究,并将其研究成果嵌入到多模态的口语对话系统中,从而进一步增进人机交互过程的和谐性,推动有表现力的可视语音合成技术的发展,为建立未来和谐人机语音交互环境提供理论基础和技术支持。其研究内容涉及以下理论技术:多语种语音合成、虚拟说话人合成、表现力语音特征提取分析、表现力语音合成、可视韵律分析合成、说话人表情合成、音视频双模态联合建模。研究成果可以直接应用在人机对话、信息服务、游戏娱乐、语言教育等多种领域,具有重大的理论价值和广泛的应用领域,具有可观的经济社会效益。目前可视语音合成已经得到了广泛的重视和应用,然而如何提高合成语音自然度,使其具有丰富表现力,同时使虚拟说话人能够更具亲和力,具有与人类相似的的情感表现,还是一个开放的问题,也是该课题重点研究的关键问题。具体来说,该课题的研究内容包括:对普通话和广东话的双语语音合成进行研究,搭建多语言环境的语音合成平台;建立具有表现力的音视频双模态数据库,提取音视频中的表现力特征,对表现力特征进行分析建模;对虚拟说话人的可视表现力进行分类合成,建立包括高层情感语义,中层表情特征,底层动画驱动的参数化合成框架;对说话人的可视韵律和面部表情进行分析合成;对音视频双模态表现力进行联合建模,完成双语表现力可视语音合成系统。该课题的主要研究成果如下:(1)创建具有丰富表现力(多种风格、情感、个性化)的汉语双语(普通话与广东话)可视语音合成系统(包括表现力语音、虚拟说话人脸像动作)。(2)提出了一种基于语义概念和三维情感空间PAD的语料库表现力标注方法,建立了多种风格、语气、情绪和语义焦点与表现力特征的映射,并建立了面向对话活动的语音和视频双模态的数据库。(3)提取了情感语音的67维的特征参数,进行了回归分析、聚类,明确了情感语音的关键性特征,建立了语音情绪转换模型。(4)分析了表现力语音的PAD描述、局部和全局的声学表现,提出了一种表现力语音的层级化建模方法,建立了表现力语音合成的非线性模型。(5)分析了虚拟说话人头部的运动规律,建立了文本中语义焦点、韵律结构与头部运动参数的映射模型,实现了文本驱动的头部韵律动作生成。(6)提出了脸像局部表情参数(PEP),首创了高层的情感空间(PAD)与脸像动画参数(FAP)、局部表情参数(PEP)之间的定量映射模型。(7)分析了说话过程中语音和视频的交互作用,提出了一种基于动态贝叶斯网络(DBN)的音视频关联模型(AVCM),提高了表现力语音、表情脸像的同步与表现效果。该项目的研究成果使人机语音交互从以往呆板的“人—机,”对话向自然的“人—人”对话转变,大大提高了人机语音交互的自然度和表现力。相关技术成果可以嵌入在人机对话,信息服务,游戏娱乐,语言教育等多种实际应用领域中,从而满足网络多媒体计算时代下,人们日益增长的数字学习娱乐等应用需求,具有重大的理论价值和广泛的应用领域,具有可观的经济社会效益。

推荐服务:

智能制造服务热线:0592-5380947

运营商:厦门科易帮信息技术有限公司     

增值电信业务许可证:闽B2-20100023      闽ICP备07063032号-5