偏听则明:解析earSmart仿听觉神经降噪技术

2013年06月03日 15:06    eechina
关键词: 语音识别 , 降噪 , earSmart , Audience

常言道:兼听则明,偏信则暗。对于决策依据的选择来说此言不假,但对于语音技术来说则刚好相反。我们所处的环境中常常伴有大量背景噪音,如果一个电子系统把所有的音频信号统统接受,那么我们期望得到的音频信号就会被噪音淹没,系统的性能表现就会大打折扣。


实际上,人耳是一种有选择的接收系统。当我们在嘈杂的餐厅交谈时,我们也能尽力从背景噪音中捡拾对面那个人发出的语音信号。另一些动物具有更强的听觉天赋。猫头鹰可以在丛林中精确侦测出啮齿类动物发出的细微声响。


如果人类或猫头鹰只有一只耳朵,那么我们拾取有用音频信息的能力就会大打折扣。没有了声音定位的能力,我们就会把噪音和信号全部纳入,然后让大脑去分析哪些是噪音,哪些是信号。其结果就是,不但我们的分辨能力大幅降低,而且这样做还大大增加了我们大脑的负担。


大多数电子系统的降噪原理属于后者,也就是从包含噪音的音频中通过DSP算法提取语音信号。这样提取出的语音信号即使可用也会产生不同程度的失真。


Audience公司的降噪技术属于前者。这是一家总部位于美国加州山景城的公司,成立于2000年。该总司号称是全球唯一一家将听觉神经学产品化的公司。在公司成立后的前8年,Audience致力于完善产品技术,所以它真正进入市场的时间并不算长。


Audience公司的earSmart技术是一种仿生学。在声音到达麦克风的那一刻,它就能根据算法判定哪些声音是噪音而加以摒除,从而保证了进入系统的音频信号的纯净度。Audience公司的工程师向我们演示了earSmart的降噪效果。用一台扬声器模拟餐厅背景噪音,然后用装备earSmart技术的Nexus平板电脑进行录音和回放。在关闭该公司ASR Assist专利技术的情形下,所录的语言几乎被背景噪音淹没而无法分辨。开启ASR Assist技术后重新录音,我们听到播放出的语言清晰悦耳,而且几乎没有任何失真。


earSmart技术针对三种情形下的应用:实时通讯(在嘈杂环境下可实现清晰的手机通话)、语音识别(在嘈杂环境下实现对录入语音的文本转换)和媒体捕捉(在嘈杂环境下实现与视频同样清晰的语音录制)。


Audience公司最新产品有两款:eS325高级语音处理器和eS515智能声音处理器。eS325采用真正的三路麦克风、移动去回声和超级宽带噪音抑制语音技术,专利的ASR Assist技术实现优化的自动语音识别,用于多媒体则可实现移动音频变焦和增强型高清立体式录音。两种处理器的框图如下所示。欲了解详情请点击http://audience.com/products/our-processors/


es325.jpg

eS325高级语音处理器


es515.jpg

eS515智能声音处理器


目前,Audience公司的earSmart技术主要用于高端应用。据介绍,市场价格高于2000元的多款最新智能手机采用了Audience公司的的产品,如三星Galaxy S4和华为Ascend D2Mate。另外,Audience与产业生态系统的各方展开积极合作,尤其是与科大讯飞的配合最醒目。在现场演示中,科大讯飞的语音识别软件与Audience公司的earSmart技术相结合,移动产品在嘈杂环境下的语音识别速度与精度的确令人赞叹。


欢迎分享本文,转载请保留出处:http://www.eechina.com/thread-115922-1-1.html     【打印本页】
您需要登录后才可以发表评论 登录 | 立即注册

相关文章

厂商推荐

关于我们  -  服务条款  -  使用指南  -  站点地图  -  友情链接  -  联系我们
电子工程网 © 版权所有   京ICP备16069177号 | 京公网安备11010502021702
回顶部