随着以深度 神经网络为代表的人工智能技术的发展,新一轮的人机交互技术热潮正在兴起。在 机器视觉领域,由于海量图像和视觉场景数据库的诞生,催生了人脸识别、姿态识别、自动驾驶、无人机等领域的技术革新。目前世界上已有的典型的大规模海量图像和视觉场景数据库包括,ImageNet、MSCOCO等业界知名的数据库。 在声音场景和声音事件的识别领域,技术的发展已经成熟,然而商业应用滞后于机器视觉领域的应用。在声音领域,目前世界上最著名的音频数据库包括:欧洲的DCASE(声音场景和事件数据库)和谷歌的Audio Set(包括各类层次结构化的音频分类数据)等。 在家庭环境领域,能够用来服务于AI应用的声音数据极为缺乏,本产品旨在填补这一空白,为全球的智能家庭环境的AI应用落地做出贡献。 声音场景(Acoustic Scene)指的是室内、室外、火车站、餐厅、看电影、听音乐等实际生活中人们的有声的生活场景,通过声音信号的识别来辨识这类场景,就是声音场景识别;声音事件(Acoustic Event)指的是根据短时声学特征,利用统计学习的建模方法,对不同的声源所关联的事件,进行类别的分类。例如,对哭声、咳嗽声、脚步声,能够通过声音频率特征的分布规律,进行实时的检测,发现家居环境中的突发性事件、婴幼儿的行为事件、家庭成员的异常活动等。 |