当前位置：首页 > 技术需求 > 详细页

声源定位的抗干扰性、人脸检测的算法延时

截止时间： 2020-12-31 行业分类：电子信息发布时间：2020-08-03 投入预算：面议联系人：成经理福建厦门市

登陆后向需求方咨询

需求简介

技术需求说明：
研究目标：研发视频发言人检测算法，精度、延时满足实际要求，依据发言人定位，设计状态机逻辑，使全景画面聚焦于发言人，平滑切换镜头画面。
主要研究内容：(a)麦克风阵列声源定位，根据语音信号频谱的特点，采用近场二维宽带MUSIC声源定位算法，对阵列信号频谱划分的若干个子频带进行一定取舍,能量较高的子频带,得到的声源位置估计结果误差在会议室场景允许范围之内；(b)人脸检测，基于人工神经网络算法，设计针对边缘计算设备或低算力设备的轻量级人脸检测网络，收集和标定实际会议场景训练数据，验证算法性能，降低算法资源消耗；(c)运动目标预测，结合深度图和视频特征，判别运动目标，当人脸检测失败时，可增强发言人定位的精准性。基于视频活动检测和音频声源检测以及两者的比较结果，能够相对可靠的确定视频会议中当前的发言人。
可以对接各大高校院所