关磊对话AI大会：清华准儿是如何优秀出来的

消息 | 联系我们

请输入您要查询活动名称或日期

搜索

首页频道深度快讯会议智库专题国际集团官网

关磊对话AI大会：清华准儿是如何优秀出来的

本文作者：执惠 2018-05-24

“2018全球人工智能产品应用博览会”在苏州国际博览中心举办，“上海交通大学苏州人工智能研究院分论坛”上，分音塔科技CEO关磊现场分享了人工智能在翻译机场景的应用。

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈。

近日，“2018全球人工智能产品应用博览会”在苏州国际博览中心举办，来自10个国家200多家企业和人工智能机构展示1000多种全球最新的人工智能产品，100多位专家、学者主导25场关于人工智能细分应用的分论坛。

“上海交通大学苏州人工智能研究院分论坛”上，分音塔科技CEO关磊现场分享了人工智能在翻译机场景的应用。

清华大学团队分音塔科技自主研发的准儿翻译机，是全球首款带屏的人工智能翻译机，也是中国首款人工智能口语翻译机，并且是中国首家攻克日语离线语音识别技术，目前同品类中支持语言和口音数量遥遥领先的翻译机。

在分享中，关磊谈到了分音塔团队的研发历程与细节，为人工智能同行提供了一份实战性的借鉴。

不一样的C端产品

分音塔科技专注于AI和C端结合的产品，是中国人工智能翻译的创建者，2016年发明了中国第一款人工智能翻译机，目前在行业占有主流位置。

翻译机作为C端产品，其实和传统C端产品的差别很大。比如机器人、智能音响这些传统的C端产品，本质是人机交互，使用场景是家庭里面，场景比较单一。但是翻译机的本质是人和人交互，它是翻译沟通的媒介，用户说的语言、使用的场景和人机交互的场景都不太一样。

所以分音塔在做准儿翻译机的时候，遇到的问题复杂得多。比如用户使用不在中国，使用的场景在全世界，可能在美国、日本、塞班、马尔代夫，也可能在餐厅、酒店、酒吧、街头，用户使用场景极其复杂。

去年准儿翻译机上市以后，研发团队就发现市场需求比想象的更广泛，商旅用户、旅行用户甚至公安局出入境这些都是用户。这就是做C端产品和B端产品不一样的地方。

从旅游市场切入

当前AI比较热门，但是技术只有解决用户在实际场景的需求才更有价值，在应用上选择什么领域非常重要。

分音塔当时做翻译机，选定了出境游市场。第一，中国人出境去年达到了1.29亿人次，而且还在快速的增长，市场很大；第二，中国经济十几年的发展，人们的消费随之升级，出境游也从大众化的跟团旅游发展到深度游，80、90后更愿意背着包自由行走，追求深度体验。这些都会使人们出境游时，语言沟通不畅这一痛点，需求解决更为迫切。

聚焦出境游应用，也避免了通用型的翻译语言在个性化的应用场景中“失真”，翻译准确率也会更高。

译得准，从语义识别着手

人工智能翻译技术涉及的技术很多，主要技术有语音识别、语义识别、机器翻译、语音合成等。语音识别解决听得到、听得清的问题，语义识别则是解决听得懂的问题。

同一种语系中，语义识别相对容易，比如拉丁语系很多单词都差不多，翻译准确率就高。但不同的语系，由于文化习性差异大，语义识别难度就大。东方语系本来就语义复杂，比如汉语中的一句话，放不同的场景都能表达不同的意思。

分音塔做翻译机，是中国人在外国使用，所以必须解决东西方语系下的语义识别问题。没有现成的语言模型，自己从零开始做语料库。国外很多地方都译不准，很多专有名词要根据国外的场景优化，只能建自己的语料库。比如和日本人聊到料理，日本当地的地名、菜名都需要重新做语料。

人类的语言表达很复杂，比如口头禅，还有表达时该停顿的时候没有停顿，都要通过语义识别来断句。

LBS（基于位置的服务）是辅助语义识别的有效途径。比如检测到用户在日本，那么后台会根据用户所在的地方进行一些精准的匹配，比如日本的专业名词，同音词的理解和翻译上。

当然，人工智能翻译机最难的机器翻译，也是分音塔科技最核心的技术优势。

直面实际应用

语音识别其实在实地使用中面临很大的挑战。

某友商曾号称自己的产品语音识别准确率达96.7%，但测后发现还不到91%。原来该友商的检测条件有三个：第一密闭安静的环境，第二国家普通话二级水平，第三常用的语言。如果在实际应用场景，这三个条件也许就变成了噪音、方言口音、非常用语。

分音塔研发团队从降噪抓起。

在特别嘈杂的场景，差距30公分语音识别效率会大幅度下降。传统音响考虑的是3到5米范围内的降噪，最后分音塔团队逼自己开发适合0.5米到1.5的降噪技术，使用起来效果非常好。

中国口音博大精深，外国也一样。分音塔做出第一代翻译机后，发现外国人也有口音，英语有美式、英式、加拿大、南非等很多口音，美式英语的口音识别很差。后来又改进，从最早上线支持四种语音，到目前支持39种语言、52种口音，成为支持语言、口音最多的翻译机。它可以根据LBS场景来实时选择当地所需要的口音，从而提升语音识别准确率。

配屏是准儿翻译机的行业首创。人和人沟通，7%的信息传递是通过语言，38%是通过语调和语速，55%是通过表情和动作。为了增强人机交互，分音塔团队坚定给准儿翻译机加了一块屏，由此通过视觉来弥补听觉的不足。

用户在使用中还会面临网络环境的问题，比如中国、韩国、日本有全世界最好的网络，但到欧洲城郊几乎就没网，加拿大、澳大利亚玩也这样。这逼着分音塔团队开发一些离线语音识别技术。目前，分音塔团队与清华大学语音和语言技术研究中心联手攻克了中、日、英三种语言的离线语音识别技术，其中日语离线语音识别技术是国内零突破。

执惠本着「干货、深度、角度、客观」的原则发布行业深度文章。如果您想第一时间获取旅游大消费行业重量级文章或与执惠互动，请在微信公众号中搜索「执惠」并添加关注。欢迎投稿，共同推动中国旅游大消费产业链升级。投稿或寻求报道请发邮件至执惠编辑部邮箱zjz@tripvivid.com，审阅通过后文章将以最快速度发布并会附上您的姓名及单位。执惠发布的文章仅代表作者个人看法，不代表执惠观点。关于投融资信息，执惠旅游会尽量核实，不为投融资行为做任何背书。执惠尊重行业规范，转载都注明作者和来源，特别提醒，如果文章转载涉及版权问题，请您及时和我们联系删除。执惠的原创文章亦欢迎转载，但请务必注明作者和「来源：执惠」，任何不尊重原创的行为都将受到严厉追责。

本文来源执惠，版权归原作者所有。

分音塔全球人工智能产品应用博览会

发表评论

后发表评论

关磊对话AI大会：清华准儿是如何优秀出来的

微信扫一扫：分享