云从科技端到端语音识别错词率低至3.4%

来源：云从科技

2018/11/13 10:23:2335609

　　【中国安防展览网品牌专栏】端到端的语音模型越来越多的引起学术界及工业界的关注，日前，云从科技在端到端的语音识别(ASR)领域上再获突破，在LibriSpeech的test-clean数据集上的错词率降低到至3.4%左右，超过了百度、约翰霍斯大学、亚琛工业大学等企业及高校在端到端模型上取得的效果。

　　背景导读

　　语音识别的技术历史悠久，早在上世纪50年代，贝尔研究所就研究出了可以识别十个英文数字的简单系统。从上世纪70年代起，传统的基于统计的HMM声学模型，N元组语言模型的发明，已经使得语音识别技术可以在小规模词汇量上使用。在新世纪伊始，GMM-HMM模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。近5-10年间，随着深度学习的快速发展，算力的快速增长，数据量的急速扩张，深度学习开始大规模应用于语音识别领域并取得突破性进展，深度模型已经可以在干净标准的独白类音频上达到5%以下的错词率。

　　而云从科技的语音识别技术又将现有的错词率进一步降低到3.5%以下，并同时大幅的减少了模型的训练和预测时间。此外，端到端的模型可以轻松的将各种语言揉合在一个模型中，不需要做额外的音素词典的准备，这将大大推动业界技术研究与应用落地的进度。

　　模型优势

　　在现在主流的利用深度学习的语音识别模型中仍在存在多种派系，一种是利用深度学习模型取代原来的GMM部分，即DNN-HMM类的模型，另一种则是作者采用的端到端的深度学习模型。

　　种模型需要先实现HMM结构与语音的对齐，然后才能进一步地训练深度神经网络。除此之外，在训练这一类的模型时，训练样本的标注不仅仅是原本的文本，还需要对文本进一步的拆解成为音素投入训练，这对于标注部分的工作就会造成极大的挑战。在解码的时候，这种模型同样还需要依赖这个发音词典。

　　端到端的模型旨在一步直接实现语音的输入与解码识别，从而不需要繁杂的对齐工作与发音词典制作工作，具有了可以节省大量的前期准备时间的优势，真正的做到数据拿来就可用。

　　端到端的模型的另一个优点是，更换识别语言体系时可以利用相同的框架结构直接训练。例如同样的网络结构可以训练包含26个字符的英文模型，也可以训练包含3000个常用汉字的中文模型，甚至可以将中英文的词典直接合在一起，训练一个混合模型。

　　此外，重要的一点是，端到端的模型在预测时的速度更快，对于一个10 秒左右的音频文件，端到端的模型在一块GPU的服务器上仅需0.2秒左右的时间便可给出预测结果。

　　现在的语音识别问题有如下几个难点：

　　(1)对自然语言的识别和理解；

　　(2)语音信息量大。语音模式不仅对不同的说话人不同，对同一说话人也是不同的，一个说话人在随意说话和认真说话时的语音信息是不同的；

　　(3)语音的模糊性。说话者在讲话时，不同的词可能听起来是相似的；

　　(4)单个字母或词、字的语音特性受上下文的影响，以致改变了重音、音调、音量和发音速度等。

　　端到端的模型由于不引入传统的音素或词的概念，直接训练音频到文本的模型，可以有效地规避上述难点。云从科技在原有的端到端模型上又提出了自己的改进点，进一步提升了模型的准确率。

　　研究成果

　　在语音识别领域，LibriSpeech是朗读语音类的主流数据集，包含960小时的训练集数据。错词率(Word Error Rate)则是衡量语音识别技术的关键指标。预测文本通过替换，删除，增加单词这三种操作可以达到与标注文本完全一致所需要的操作步数即为该句子的错词数，错词率=错词数/总词数。

　　云从科技基于端到端的语音识别网络进行了两种方法的探索，一种是基于原有的CNN-RNN-CTC网络的改进，一种是基于CTC loss与attention loss结合机制的网络。

　　种方法基于百度提出的Deep Speech 2 CNN-RNN-CTC模型，着重改进于原网络中的RNN部分。因为RNN部分是整个系统中对于语义和语法为关键的部分，而这一部分也是现在语音识别技术错误多的部分。

　　作者将原本网络中简单的GRU或LSTM等RNN结构替换成了resBiLSTM，即残差双向长短时记忆神经网络，以助于网络抓取复杂语句中的上下文信息。此外，在语音识别领域，作者提出了级联结构的思想，对于单一模型中难分的样本进行二次细分，从而提高了这些难分样本的准确率。在Librispeech test-clean测试的WER达到3.41%，效果相比于之前提升了34%。同时，在训练时间上，相比于原来的模型，训练从24500秒一次迭代降到18500秒一次迭代，时间上节省了25%。

　　第二种方法使用混合CTC与attention共同解码，在Espnet网络的基础上进行了优化。一方面针对混合模型的特点改进了当前CTC解码器结构，另一方面针对基于subword的编解码方式使用了更适合的attention smoothing，加上训练中使用的一些其他tricks，在Librispeech test-clean测试的WER达到3.34%。

智慧城市网

云从科技端到端语音识别错词率低至3.4%

上一篇：中德宏泰：“机智过人” 一起加速中国智慧

下一篇：依图科技正式发布“AI防癌地图” 助力健康中国2030

相关资讯：