近日,中国人机语音交互领域最权威的学术会议——全国人机语音通讯学术会议(NCMMSC2015)在天津举办。会上,百度语音技术部负责人贾磊分享了百度近期在汉语语音识别方面获得的重大突破。该技术能够使机器的语音识别相对错误率降低15%以上,识别准确率接近97%。此项技术将在百度语音搜索产品上上线。
(百度语音技术部负责人贾磊在NCMMSC2015上介绍百度语音技术取得的重大突破)
一次框架性的创新
百度研发出了基于多层单向LSTM的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到传统的语音识别建模框架中,再结合语音识别领域的决策树聚类、跨词解码和区分度训练等技术,大幅度提升线上语音识别产品性能。
值得注意的是,该技术创新是“打造基于多层单向LSTM的汉语声韵母整体建模技术”、“引入CTC技术”、“与语音识别领域的传统技术相结合”三大方面共同作用的结晶,是一项框架性的创新。该技术的诞生使百度语音识别系统成为目前世界上最先进的汉语语音识别技术。
三大因素助力攻克十年技术困局
LSTM与CTC技术虽已存在很长时间。但二者结合一直没有在语音工业领域成功应用。此次,百度依靠三大因素——大数据机器学习和语音识别传统理论结合、创新的算法以及强大的计算能力,经过短短4个月的不断探索与试验,在世界范围内率先克服了汉语领域使用CTC技术训练单向LSTM的高精度建模难题,成功突破了这十多年的技术困局。
(http://soft.aizhan.com/wzzx/340557.html)
附件下载: |