阿里拥有全面的 AI 技术布局,涵盖语音智能、语言技术、机器视觉、决策智能等方向,建成了完善的机器智能算法体系, 不仅囊括语音、视觉、自然语言理解、无人驾驶等技术应用领域,还不断深化AI基础设施建设,重金投入研发AI芯片、超大规模机器学习平台,并建成了单日数据处理量突破 600PB 的超大计算平台。
下面,我们主要围绕语音智能、语言技术、机器视觉三大技术领域与平台化建设的最新发展与成绩,一览阿里 AI 技术这两年的进展。
(一)语音智能
-
语音识别
2018年6月,阿里达摩院开源了自主开发的新一代语音识别模型(DFSMN),在世界最大的免费语音识别数据库 LibriSpeech 上进行公开测试。对比目前业界使用最为广泛的 LSTM 模型,DFSMN 语音识别模型训练速度更快、识别准确率更高。基于 DFSMN 模型,阿里 AI 又研发了 DFSMN-CTC 模型,语音错误率大幅下降,解码效率提升6倍。
此外,阿里巴巴机器智能技术实验室正在研发高工业噪声环境下的语音识别及传输技术。以后,众多车间工人将告别“通讯靠吼”的境况,简单的交流言语会转换成文字。目前,在85分贝工业噪声下,可以实现将一米处正常音量语音转换为文字,准确率达94.6%,能够解决大部分工厂里的噪声聋问题。这项工作仍在继续,未来团队希望可以实现 95 分贝工业噪声下进行语音识别。
语音交互
目前,阿里语音 AI 每日调用量已达1.8 亿次。
2019 年 7 月,阿里开源人机对话模型 ESIM。ESIM 是一个解决多轮对话回复问题的原创模型,通过给对话机器人装上实时搜索并理解人类真实意图的“雷达”系统,实现对对话历史的实时检索,自动去除多余信息的干扰,给出人类期待的回复。
例如当人们线上购物时,提出要一件M号的黑色裙子,智能机器人通过对库存情况的实时检索,发现并答复用户没有黑色M号的裙子。用户接着问,“那有白色的吗?”此时传统模型训练出的AI客服很难判断用户是要问“这件裙子是否有白色款”还是“有没有白色的M号裙子”,无法给出准确回复。 阿里 AI 通过对用户对话上下文的检索,明确用户的核心在于尺寸而非颜色,很快给出有没有白色M号裙子的准确回复。
-
语音合成
阿里达摩院机器智能实验室自主研发的基于翻译的合成技术 Knowledge-Aware Neural TTS(KAN-TTS)深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术,同时系统构建了基于不同领域的深层知识。并针对 CPU 部署的框架设计进行优化,提供高效、便捷的部署能力,另外还改进了 20 多项关键算法,从多个方面改进了语音合成。
除了在语音识别、语音交互与语音合成等领域的进展,在声纹识别领域,阿里达摩院研发了声纹无监督聚类技术,推出分布式语音交互模组,用于阿里云 IoT 联合阿里达摩院发布的分布式语音交互解决方案中,方案除了语音交互模组外,还包括语音自学习平台、对话平台以及阿里云 IoT 智能人居平台,打通了上下游平台串联、端云一体能力,缩短智能人居环境开发周期,同时还具备强扩展能力。
(二)自然语言处理
-
机器翻译
2017 年的 WMT 竞赛,大多数系统是基于 RNN 和 LSTM,包括最终获得冠军的系统也是基于此。仅仅过了一年时间,各大机构都争先使用 Transformer。达摩院机器智能技术实验室资深算法专家陈博兴带领的达摩院机器翻译团队,在此次比赛中,基于 Transformer 结构, Self-Attention、Multi-head Attention 等技术,进行了网络结构的改进,充分利用词语位置信息,提出高度并行化、能捕捉层次化信息的神经网络,全面提升了机器翻译的性能。
目前,达摩院机器翻译技术团队已实现了 48 个语言翻译方向,支持俄、西、法、阿、土,泰、印尼、越南等多种语言翻译;其中电商覆盖了大部分语向和场景,超越谷歌和亚马逊,日调用量达到 17.9 亿次。阿里的机器翻译技术除了应用于电商全链路服务之外,还广泛应用于菜鸟物流通关、阿里云国际社区、飞猪旅行翻译助手、钉钉社交口语翻译等一系列产品。
-
语义识别
2019 年 4 月 1 日愚人节之际,阿里巴巴发布了这项旨在粉碎网络谣言和假新闻的AI技术——“AI谣言粉碎机”。其算法模型由阿里巴巴达摩院机器智能实验室研发,依靠深度学习和神经网络技术,通过对信息的多维度和多角度分析,团队设计了一整套包含发布信息、社交画像、回复者立场、回复信息、传播路径在内的综合判定系统,首次把谣言识别和社交用户观点识别打通,并做交叉分析,目前在特定场景中的准确率已经达到 81%,最快能够在 1 秒内判定新闻的真实性。
(三)机器视觉
-
医疗影像分析
2017 年 7 月,国际权威肺结节检测大赛 LUNA16 要求选手对 888 份肺部 CT 样本进行分析,寻找其中的肺结节。样本共包含 1186 个肺结节,75% 以上为小于 10mm 的小结节。最终,阿里云 ET 在 7 个不同误报率下发现的肺结节平均召回率达到 89.7%。(召回率指在样本数据中成功发现的结节占比,下图显示了 ET 在不同误报次数下的召回率情况。)
阿里则通过对 CT 图像层间信息和层内信息融合的网络结构分析,解决肝结节类别多样性的问题。采用基于原子卷积的空间金字塔池化(Atrous Spatial Pyramid Pooling)、亚像素卷积(Sub Pixel Convolution)及多特征融合等技术。华先胜表示,目前团队研究范围已经覆盖肺、肝、骨、心脏、脑等部位的疾病,涉及影像分析、自然语言处理、设备信号处理等相关技术,部分技术已经落地到实际的医疗诊断中。