凭声音即可认证身份,语音识别存在哪些发展瓶颈?

郝若桃 原创 | 2018-03-23 16:49 | 收藏 | 投票

 文/东方亦落

近日、贵州省政府、清华大学和相关企业联合宣布,正在合作开展一项试点项目。该项目将人们独有的语音特征与身份证信息关联,以此创建并维护声纹数据库。

如今,在商场、银行、酒店、安检处最常见的识别方法是人脸识别技术。中国对人脸识别技术的部署力度在其他国家并不常见,而声纹数据库的创建,意味着中国市场在生物技术方面正向语音识别发展。

经历了几十年的发展,目前语音识别技术已经发展到一个相对成熟的阶段,在各个领域都逐渐起到作用。在中国,语音识别技术很可能继人脸识别技术之后成为下一个普及的识别方式。在语音识别逐渐得到发展的同时,也存在着一些不可避免的问题,而要解决这些问题还有待于语音识别技术在各方面的进一步发展。

一、语音识别发展渐趋成熟,未来或成生物识别主流方式

语音识别技术,也被称为自动语音识别(ASR)。其目标是将人类语音中的词汇内容转换为计算机可读的数据,如字符序列或二进制编码等。

不过,早在计算机发明之前,人类就已经开始了对语音识别技术的研究,早期的声码器即可看作是语音识别及合成的雏形。1920年代生产的“Radio Rex”玩具狗可能是最早的语音识别器。只要呼唤这只狗的名字,他就会从底座上弹出来。

1952年,贝尔研究所的Davis等人开发了Audrey语音识别系统,成为世界上首个能够识别10个英文数字发音的实验系统。其识别方法主要是追踪语音中的共振峰,该系统的准确率为98%。到1950年代末,College of London(伦敦学院)将语法概率加入语音识别中。

1960年,英国的Denes等人研究成功了第一个计算机语音识别系统,同时人工神经网络被引入语音识别。70年代后,语音识别在孤立词及小词汇量的识别方面取得了实质性进展。

到了80年代,研究重点转向大词汇量、非特定人连续语音识别。与此同时,语音识别的研究思路由传统的基于标准模板匹配的技术转为基于HMM(统计模型)的技术,并再次提出将神经网络技术引入语音识别领域的技术思路。

1981年,日本在第五代计算机计划中提出了关于语音识别输入-输出自然语言的目标。尽管没有按照预期实现,但关于语音识别技术的研究有了大幅度的提升和进展。1987年开始,日本又出台了高级人机口语接口和自动电话翻译系统的项目。

进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。

中国的语音识别发展研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。1973年,中国科学院声学所开始了对计算机语音识别的研究。由于当时被条件所限,中国语音识别研究工作一直处于缓慢发展的状态。

进入80年代,计算机应用技术在中国逐渐普及,数字信号技术进一步发展,国内许多单位具备了研究语音技术的基本条件。同时,语音识别技术成为国际上的研究热点并且迅速发展。在这种情势之下,中国有更多的机构投入此项研究。

1986年3月,中国高科技发展计划(863计划)启动,因为语音识别是智能计算机系统研究的一个重要组成部分,故而被专门列为研究课题。在863计划的支撑下,中国开始了有组织的语音识别技术的研究。由此,中国语音识别技术进入了一个前所未有的发展阶段。

2006年深度学习兴起,2009年深度学习首次在语音识别任务中取得成功,基于深度学习的语音识别取得了很大的突破。在技术方面,语音识别从最初的前馈全连接神经网络,到之后的递归神经网络,到长短时记忆模型,再到当前包含数十层结构的深层全卷积神经网络。网络结构愈加复杂,但也越来越能够契合语音的特性从而实现建模,相应的效果也愈发显著。

当下,基于深度学习的语音识别系统已经通过海量的用户大数据训练得到了一个通用的识别系统,在日常场合已经能够实现应用。技术的成熟以及广阔的前景使得许多互联网公司也纷纷入局语音识别领域。

去年12月,阿里巴巴宣布为上海全部地铁站的售票机安装语音识别技术,用以验证上班族的身份。科大讯飞也在安徽为医疗信息提供语音签名服务,同时为警方提供语音识别服务。此外,百度、腾讯也分别在语音识别领域有所动作。

由此可见,语音识别技术很可能成为继人脸识别技术后的下一个生物识别的主流方式,并逐渐受到广泛的关注和消费级的应用。但在发展过程中,仍然不可避免地会遭遇一些瓶颈。

二、语音识别技术基本成型,但发展过程中仍遭遇瓶颈

目前,语音识别技术基本成型,处于较为成熟的状态。例如在语音识别的Switchboard任务方面,最新的IBM已经能将错误率控制在5.5%之下,有经验的转写人员在这个任务中可以达到4%之下。因此,这类安静环境下的语音识别系统已经近似于人类水平。

目前的进展多处于应用层面。语音合成技术被应用在更多领域,而且从原始的机器声音已经进化到能够发出自然人的声音的程度,甚至现在出现各种明星声音的语音助手。在语音识别方面,市面上已经出现了针对方言口音的语音软件。在语义理解方面,聊天机器人正处在迅速进化的过程中,甚至能够讲笑话。在语音唤醒方面,智能音箱等产品大量出现。虽然在这些应用中,许多产品并没有达到高层智能的水平,但也给语音识别技术指明了方向。

实际上,语音识别技术在发音规范且背景噪音可控的环境下,在很多年前就能够进入应用阶段。不少尖端系统在工程水平很高的情况下还可以做的更好,如早期的Siri及DARPA项目语音识别评测中的各种参赛系统。

但在飞速进步的过程中,语音识别仍无法避免遇到某些瓶颈。

在强噪声干扰的情况下,目前的语音识别系统还很难达到实用化要求。在自然发音、噪声、口音等复杂条件下,语音识别的准确率明显下降。此外,语音的训练和测试用数据的匹配也并不十分契合。

想要解决环境复杂的问题,除了高超的技术之外,声学模型自适应等也是不错的方式。对于匹配问题则可以更加偏向研究方向,对语音本质进行更为深入的理解。

例如在人类的听觉系统中,存在一种“鸡尾酒会效应”:人类在具有背景噪声干扰的情况下,依然能够将注意力集中在某一个人的谈话上。可以将人类听觉系统的这种功能赋予语音识别系统,但就目前的技术而言依然很难实现。

同时,远场识别也依然是个充满挑战性的问题。当前,语音识别的远场错误率是近场的两倍左右。因此,解决远场及强噪声干扰情况下的语音识别是当前的一个有待进一步研究的问题。

对于这个问题,目前的主要解决方法是语音识别和麦克风阵列相结合。通过阵列信号处理技术,增强多通道语音技术,而后利用深度学习的方法进行声学建模。当然,这种方案有待于进步和优化,并且要考虑多方面的问题。如怎样将阵列信号处理技术和深度学习方法相结合,利用阵列信号处理的相关知识指导深度神经网络的结构设计,以便直接从多通道语音信号中学习多通道语音增强方法,而后和后端声学模型联合优化等。

另外,个体发音以及用词习惯都存在差异性,所以如何使得语音识别更加智能化也是一个问题。

可以看到,语音识别已经走到一个相对成熟的发展阶段,未来也会在应用级市场普及,但在发展过程中仍然存在许多瓶颈。生物技术识别方式先进而便捷,但人们不免担心其中所涉及到的隐私问题。

当然,目前语音识别技术并未大规模普及,但在那一天到来之前,人们需要弥补语音识别技术中存在的瓶颈。其实对于深度学习神经网络而言,一切都只是时间问题。足够的语音数据加上足够的训练,语音识别技术的发展还是值得期待的。

个人简介
科技、商业、互联网领域的观察者
每日关注 更多
郝若桃 的日志归档
[查看更多]
赞助商广告