人民日报社中国经济周刊官方网站国家一类新闻网站

经济网 中国经济论坛


首页 > 公司 > 正文

从人脸识别到智能感知 云从科技刷新语音识别世界纪录

中国经济周刊-经济网讯 (记者 贾璇) 10月29日,云从科技宣布在语音识别技术上取得重大突破,在全球最大的开源语音识别数据集Librispeech上刷新了世界纪录,错词率(Worderrorrate,WER)降到了2.97%,将Librispeech的WER指标提升了25%,超过阿里、百度、约翰霍普金斯大学等企业及高校,大幅刷新原先记录。

此次突破标志着云从科技在今年4月刷新跨镜追踪技术(ReID)三项世界纪录后在新领域再次取得重大成果,正全力夯实核心技术闭环。

云从科技核心技术闭环包括人脸识别、智能感知与智能分析三个阶段,此次语音识别突破属于智能感知中的一环。智能感知即视觉、听觉、触觉等感知能力,能够让计算机通过各种智能感知能力与外界进行交互。

1_副本

时隔半年 再次刷新两项纪录

今年4月,云从科技跨镜追踪技术(ReID)技术在Market-1501,DukeMTMC-reID,CUHK03三个数据集刷新了世界纪录,其中最高在Market-1501上的首位命中率(Rank-1 Accuracy)达到96.6%,让跨镜追踪技术(ReID)技术在准确率上首次达到商用水平,人工智能从「刷脸」跨到「识人」的新纪元。

而语音识别技术同样是智能感知中一个重要的部分,通过语音识别,机器就可以像人类一样听懂说话,进而能够理解、思考与反馈。近年来,在深度学习技术的帮助下,语音识别取得了极大的进展,从实验室开始走向市场,走向实用化。基于语音识别技术的输入法、搜索和翻译等人机交互场景都有了广泛的应用。

Librispeech是当前衡量语音识别技术的最权威主流的开源数据集,错词率(Worderrorrate,WER)是衡量语音识别技术水平的核心指标。

在技术研究的「最后一英里」,每 0.1 个百分点的进步都异常艰难。云从科技在Librispeech数据集上刷新了业内最好的水平,将错词率(Worderrorrate,WER)降到了惊人的2.97%,较之前提升了25%,已超越人类专业速记员水平。能够获得如此大幅度的突破,充分说明云从科技语音识别研究成果的价值,该成果必然能够推动语音识别技术的大幅进步,也使得语音识别离更良好的智慧交互体验越来越近。

云从科技此次推出的语音识别模型Pyramidal-FSMN融合图像识别与语音识别的优势,将残差卷积网络和金字塔记忆模块的序列记忆网络相结合, 能够同时有效的提取空间和时间上不同粒度的信息,对比目前业界使用最为广泛的LSTM模型,训练速度更快、识别准确率更高。

构建核心技术闭环 实现人工智能五步走战略

在10月12日的国家发改委"人工智能基础资源公共服务平台"项目发布会上,云从科技创始人周曦提出了人工智能发展的五个阶段,核心技术闭环是五个阶段的重要基础。云从科技在今年先后首发3D结构光人脸识别技术及刷新跨镜追踪技术三项世界纪录,并在金融、安防、机场等优势行业建设基于智能分析的"行业大脑",稳步推进从核心技术到智能生态的五步走战略。

目前,云从科技是中国银行业第一大AI供应商。包括农行、建行、中行、招行总行等全国400多家银行已采用公司产品,为全国银行提供对比服务日均2.16亿次,同时为14.7万家社会网点提供服务。

在安防领域,公司产品已在29个省级行政区上线实战,每天比对超过10亿次,数据汇聚总量超过千亿,协助全国公安抓获超过1万名犯罪嫌疑人;

在民航领域,已有60余家机场选择云从产品,日服务旅客人数达到6千万。

在这些基础上,云从科技正在致力整合算力、智力、数据等资源及其成果,打造人工智能平台,进一步促进人工智能在金融、安防、交通、零售、教育等重要行业的落地。

语音识别技术近年进展:

2017年3月,IBM结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型。"集中扩展深度学习应用技术终于取得了 5.5% 错词率的突破"。相对应的是去年5月的6.9%。

2017年8月,微软发布新的里程碑,通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上降低了大约12%的出错率,错词率为5.1%,声称超过专业速记员。相对应的是去年10月的5.9%,声称超过人类。

2017年12月,谷歌发布全新端到端语音识别系统(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),错词率降低至5.6%。相对于强大的传统系统有 16% 的性能提升。

2018年6月,阿里巴巴达摩院推出了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%,错词率降低至3.96%。

2018年10月,云从科技发布全新Pyramidal-FSMN语音识别模型,将错词率(Worderrorrate,WER)降低至2.97%,较之前提升了25%。


中国经济周刊-经济网版权作品,转载时须获得授权并注明来源,违者将被追究法律责任。

(网络编辑:何颖曦)
作者
  • 微笑
  • 流汗
  • 难过
  • 羡慕
  • 愤怒
  • 流泪
0