直缝钢管厂家
免费服务热线

Free service

hotline

010-00000000
直缝钢管厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

微软语音识别技术突飞猛进

发布时间:2020-07-21 18:18:22 阅读: 来源:直缝钢管厂家

2011年国际语音通讯协会第12次年会(Interspeech 2011)于8月28日至31日在意大利佛罗伦萨举行。来自微软研究院的研究人员在会上发表了他们的研究成果,这些成果极大地提升了非特定人实时语音识别系统的潜力。来自微软雷德蒙研究院的研究员俞栋博士以及来自微软亚洲研究院的高级研究员兼研究经理Frank Seide是这项研究的带头人,两支团队精诚合作,在基于人工神经网络的大词汇量语音识别研究中取得了重大突破。 自动语音识别的最终目标是提供即买即用、可以自动快速适应任何说话者的语音识别服务,这个系统不需要用户训练就可以针对所有用户和各种条件,良好地发挥功用。“这个目标在移动互联网时代显得尤为重要,” 俞栋博士表示:“因为语音是智能手机和其他移动设备必不可缺的接口模式。虽然个人移动设备是采集和学习用户语音的理想设备,但用户只有在初始体验,也就是在针对该用户的模型建立之前的体验非常良好时,才会继续使用语音功能。” 非特定人语音识别技术对于没有机会或办法适应用户的语音识别系统也非常重要,例如在呼叫中心,来电者身份是未知的,而且通话时间只有几秒钟;又例如用户可能会因为担心隐私问题而不愿意在提供“语音-语音(speech-to-speech)”翻译的网络服务中留存语音样本。 重燃对神经网络的兴趣自20世纪50年代以来,人工神经网络(ANNs),也就是人类大脑低级回路的数学模型,就已经为人们所熟知。利用人工神经网络改善语音识别性能的想法早在20世纪80年代就已出现,而且一项名为人工神经网络-隐马尔可夫混合模型(ANN - HMM)的技术显示了其在大词汇量语音识别中的潜力。那么,为什么商用语音识别系统反而不采纳人工神经网络技术呢? “这一切都归结于性能,” 俞栋博士解释道:“在针对传统的上下文相关的高斯混合模型-隐马尔可夫模型(CD-GMM-HMMs)区分性训练算法发明后,高斯混合模型-隐马尔可夫模型的精度得到了提升,并在大词汇量语音识别方面的表现超过了人工神经网络模型。” 俞栋博士以及微软雷德蒙研究院语音组的成员们对人工神经网络模型重新燃起兴趣,是因为最近在训练更加复杂的深层神经网络(DNNs)方面取得了新的进展,这些进展使得基于人工神经网络的自动语音识别系统具有超越现有技术水平的潜力。2010年6月,多伦多大学实习生George Dahl加入研究团队,研究人员开始探讨如何利用深层神经网络改善大词汇量语音识别。 “George带来了对深层神经网络工作原理的深刻见解,” 俞栋博士说:“而且他在深层神经网络训练方面有着丰富的经验,而深层神经网络正是我们所要创建系统的关键组成部分之一。” 语音识别系统在本质上就是对语音组成单元进行建模。英语中表达发音方式的大约30个音素就是这样的组成单元。最先进的语音识别系统使用更短的称为senone的单元,总数达到几千或上万个。 之前的基于深层神经网络的语音识别系统就是对音素进行建模。俞栋博士的研究实现了一次飞跃,当他与语音组首席研究员邓力博士和首席研究员兼研究经理Alex Acero博士讨论之后,提出使用深层神经网络对数以千计的senones(一种比音素小很多的建模单元)直接建模。由此产生的论文《基于预训练的上下文相关深层神经网络的大词汇语音识别》(Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition)(由George Dahl、俞栋、邓力和Alex Acero合著)描述了第一个成功应用于大词汇量语音识别系统的上下文相关的深层神经网络-隐马尔可夫混合模型(CD-DNN-HMM)。 “也有人尝试过上下文相关的人工神经网络模型,” 俞栋博士指出:“但他们使用的架构效果不佳。在我们发现所用的新方法使语音搜索的准确率大大提高地那一刻,我们非常激动。我们意识到,通过使用深层神经网络对senones直接建模,我们可以比最先进的常规CD-GMM-HMM大词汇量语音识别系统相对误差率减少16%以上。考虑到语音识别作为一个活跃的研究领域已经存在了50多年,这样的进展确实具有非常重要的意义。” 为了加速实验,研究小组还使用了通用图形处理器来进行语音模型训练和解码。神经网络的计算在结构上类似于电脑游戏中使用的3-D图形,而现代的图形卡可以同时处理近500个这样的计算。在神经网络中运用这种计算能力大大提升了建模可行性。 2010年10月,俞栋博士在微软亚洲研究院的一次内部研讨中介绍了这篇论文,他提到在此基础上开发性能更强的大词汇量语音识别声学模型面临以下挑战:实现并行训练和使训练扩展到更大的训练集。Seide被这项研究深深触动,他随即加入该项目,并为团队带来了大词汇量语音识别、系统开发和基准测试等方面的经验。 神经网络基准测试“我们通常认为数百上千的senones数量太大而无法用神经网络准确地建模和训练,”Seide说:“然而,俞栋和他的同事们证明,这样做不仅是可行的,而且还能显著提高准确率。现在,我们要证明的是这套CD-DNN-HMM模型可以有效使用更多的训练数据。” 首先,研究团队对深层神经网络训练工具进行了改写,以支持更大的训练数据集。然后,在微软亚洲研究院软件开发工程师李刚的帮助下,他们将新的模型和工具在含有300小时语音训练数据的Switchboard标准数据集上进行评测。为了支持如此大量的数据,研究人员建立了一些巨大的神经网络模型,其中一个包含了6,600多万神经间连结,这是语音识别研究史上最大的同类模型。 随后的基准测试取得了令人惊讶的低字词错误率——18.5%,与最先进的常规系统相比,相对错误率减少了33%。由此产生的论文题为《使用上下文相关深层神经网络进行交谈语音转写》(Conversational Speech Transcription Using Context-Dependent Deep Neural Networks)(由Frank Seide、李刚和俞栋合著),已经于8月29日发表。这项工作已经引起了科研界的高度重视,而研究团队希望通过在会议上发表这篇论文进一步启迪这条新的研究路径,并最终将基于深层神经网络的大词汇量语音识别推到一个新的高度。“这项工作仍处于研究阶段,还会面临很多挑战,其中最严峻的挑战在于扩展到使用数万小时训练数据。我们的研究成果只是一个开始,这一领域将来还会有更多令人振奋的进展。”Seide说:“我们的目标是实现以前没法实现的新的基于语音的流畅服务。我们相信,这项研究最终将改变我们的工作和生活。想象一下吧:用语音-语音实时翻译进行自然流畅的交谈,用语音进行检索,或者用交谈式自然语言进行人机互动。”微软亚洲研究院博客

03 Ubuntu 下搭建 Python 开发环境

20 Ruby 的块

在 Windows 上安装 Java