技术需求说明:研究目标:研发视频发言人检测算法,精度、延时满足实际要求,依据发言人定位,设计状态机逻辑,使全景画面聚焦于发言人,平滑切换镜头画面。主要研究内容:(a)麦克风阵列声源定位,根据语音信号频谱的特点,采用近场二维宽带MUSIC声源定位算法,对阵列信号频谱划分的若干个子频带进行一定取舍,能量较高的子频带,得到的声源位置估计结果误差在会议室场景允许范围之内;(b)人脸检测,基于人工神经网络算法,设计针对边缘计算设备或低算力设备的轻量级人脸检测网络,收集和标定实际会议场景训练数据,验证算法性能,降低算法资源消耗;(c)运动目标预测,结合深度图和视频特征,判别运动目标,当人脸检测失败时,可增强发言人定位的精准性。基于视频活动检测和音频声源检测以及两者的比较结果,能够相对可靠的确定视频会议中当前的发言人。可以对接各大高校院所
相关需求信息