偏听则明：解析earSmart仿听觉神经降噪技术

发布时间：2013-6-3 15:57 发布者：eechina

常言道：兼听则明，偏信则暗。对于决策依据的选择来说此言不假，但对于语音技术来说则刚好相反。我们所处的环境中常常伴有大量背景噪音，如果一个电子系统把所有的音频信号统统接受，那么我们期望得到的音频信号就会被噪音淹没，系统的性能表现就会大打折扣。

实际上，人耳是一种有选择的接收系统。当我们在嘈杂的餐厅交谈时，我们也能尽力从背景噪音中捡拾对面那个人发出的语音信号。另一些动物具有更强的听觉天赋。猫头鹰可以在丛林中精确侦测出啮齿类动物发出的细微声响。

如果人类或猫头鹰只有一只耳朵，那么我们拾取有用音频信息的能力就会大打折扣。没有了声音定位的能力，我们就会把噪音和信号全部纳入，然后让大脑去分析哪些是噪音，哪些是信号。其结果就是，不但我们的分辨能力大幅降低，而且这样做还大大增加了我们大脑的负担。

大多数电子系统的降噪原理属于后者，也就是从包含噪音的音频中通过DSP算法提取语音信号。这样提取出的语音信号即使可用也会产生不同程度的失真。

Audience公司的降噪技术属于前者。这是一家总部位于美国加州山景城的公司，成立于2000年。该总司号称是全球唯一一家将听觉神经学产品化的公司。在公司成立后的前8年，Audience致力于完善产品技术，所以它真正进入市场的时间并不算长。

Audience公司的earSmart技术是一种仿生学。在声音到达麦克风的那一刻，它就能根据算法判定哪些声音是噪音而加以摒除，从而保证了进入系统的音频信号的纯净度。Audience公司的工程师向我们演示了earSmart的降噪效果。用一台扬声器模拟餐厅背景噪音，然后用装备earSmart技术的Nexus平板电脑进行录音和回放。在关闭该公司ASR Assist专利技术的情形下，所录的语言几乎被背景噪音淹没而无法分辨。开启ASR Assist技术后重新录音，我们听到播放出的语言清晰悦耳，而且几乎没有任何失真。

earSmart技术针对三种情形下的应用：实时通讯（在嘈杂环境下可实现清晰的手机通话）、语音识别（在嘈杂环境下实现对录入语音的文本转换）和媒体捕捉（在嘈杂环境下实现与视频同样清晰的语音录制）。

Audience公司最新产品有两款：eS325高级语音处理器和eS515智能声音处理器。eS325采用真正的三路麦克风、移动去回声和超级宽带噪音抑制语音技术，专利的ASR Assist技术实现优化的自动语音识别，用于多媒体则可实现移动音频变焦和增强型高清立体式录音。两种处理器的框图如下所示。欲了解详情请点击http://audience.com/products/our-processors/。

eS325高级语音处理器

eS515智能声音处理器

目前，Audience公司的earSmart技术主要用于高端应用。据介绍，市场价格高于2000元的多款最新智能手机采用了Audience公司的的产品，如三星Galaxy S4和华为Ascend D2、Mate。另外，Audience与产业生态系统的各方展开积极合作，尤其是与科大讯飞的配合最醒目。在现场演示中，科大讯飞的语音识别软件与Audience公司的earSmart技术相结合，移动产品在嘈杂环境下的语音识别速度与精度的确令人赞叹。

偏听则明：解析earSmart仿听觉神经降噪技术

相关文章

网友评论

厂商推荐

相关视频