语音识别大突破!Google深度学习仿造鸡尾酒效应在吵杂环境

语音识别大突破!Google深度学习仿造鸡尾酒效应在吵杂环境

近年来语音辨识技术準确度已大幅提高,但机器的「听力」往往在环境中出现不同声音时準确度大幅降低。

至于人类为什幺能够在吵杂环境中仍然可以听到正确的音讯去忽略其他干扰呢?这个现象称之为鸡尾酒会效应,人的听力选择能力,在音讯複杂环境中,可将注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音。人类此听觉系统惊奇的能力,使我们可以在杂讯中谈话。

为了提升机器判读音讯的能力,Google 提出了一项深度学习视听模型,仿造人类的鸡尾酒会效应将单一音讯与混合音讯进行分离,背后的概念其实容易理解,就是让模型同时判读影音内容上视觉与听觉讯号来获悉主要音讯为何,增强主要人声抑制环境杂音,人的嘴巴的运动应该与该人说话时产生的声音连动,藉此辨识哪个部分的音讯与人相对应。

透过视觉讯号分离音讯大大提高纯以语音判读所分离的準确度,这是 Google 在此项研究中最大的突破,分离音讯除了能提高语音辨识能力,最重要的事还能将影音内容中的杂音去除,留下更清晰的音轨进行播放。

为了训练模型,·Google 首先搜集 100000 部 YouTube 上某些演讲影音内容,撷取这些影片中没有受到观众声音、背景音乐干扰只有主讲主人声,且镜头画面为主讲者的片段,按照上述选取方法剪辑,保留大约 2000 小时的影音内容来训练模型。

Google 透过这些数据产生资料库「合成鸡尾酒派对」,再将 Google 语音资料库 AudioSet 和多个人脸影片混合到资料集,用来训练卷积神经网路模型,把合成鸡尾酒派对的资料库分解成独立音讯,训练模型分离不同的音源辨识单一人声。

语音识别大突破!Google深度学习仿造鸡尾酒效应在吵杂环境

目前 Google 在网站 已公布 用此方法进行语音分离和增强人声的结果,首先播放吵杂语音输入影片,接着播放 Google 模型产生的结果。非主讲人发出的声音可被完全抑製或抑製到标準範围。将此用来帮助 YouTube 自动生成字幕,当你在观看影片时,按下右下方 CC 钮呈现更準确和易于阅读的字幕!

更多对赵结果可查看 Google 官方部落格

上一篇:
下一篇: