来源:
发布时间:2023-06-06?点击:
5月31号上午,应信息学院邀请,上海交通大学陈谐副教授在百全楼作“多语言同声传译和语音驱动的数字人”专题学术讲座。讲座由信息学院院长刘浩主持,计算机科学与技术、网络工程和软件工程等专业部分师生聆听。
讲座中,陈谐首先通过场景演示方式介绍了跨媒体语言智能实验室的在对话式人工智能、视听文感知及语言认知方面的主要研究情况,重点分享了在多语言同声传译和语音驱动的数字人方面做的一些探索和尝试。陈教授介绍了团队最新的流式语音识别和机器翻译前沿研究,并直接演示了多语言同声传译系统,通过团队搭建的语音识别系统直接识别同声传译原文,同时通过同传系统转换成越南语。在语音驱动的数字人方面,提出一种两阶段模型将输入音频信号同步到数字人的口型上,首先通过语音鲁棒特征提取形成一种音频特征映射到面部运动和姿势表示,其次通过动态时间规整DWT等对其技术将面部运动和姿势表示渲染到视频,从而基于少量的精标数据就可以搭建一个性能不错的语音驱动的数字人原型系统。陈教授的报告通俗易懂、深入浅出,将复杂的模型演变成清晰有趣的应用展现在师生的面前。
陈谐,上海交通大学计算机科学与工程系长聘教轨副教授,博士生导师,获国家海外高层次人才(青年)项目资助。2009年本科毕业于厦门大学电子工程系,2012年硕士毕业于清华大学电子系,2016年博士毕业于剑桥大学信息工程系,博士毕业后先后在剑桥大学从事博士后研究,美国微软研究院任高级研究员,资深研究员,2021年9月加入上海交通大学。主要研究方向为深度学习和智能语音信号处理,在本领域的国际权威会议和期刊发表论文60余篇。(图/文:彭智朝;一审:彭智朝;二审:王爱军;三审:刘浩)