首页 >

关磊对话AI大会:清华准儿是如何优秀出来的

本文作者:执惠 2018-05-24
“2018全球人工智能产品应用博览会”在苏州国际博览中心举办,“上海交通大学苏州人工智能研究院分论坛”上,分音塔科技CEO关磊现场分享了人工智能在翻译机场景的应用。

近日,“2018全球人工智能产品应用博览会”在苏州国际博览中心举办,来自10个国家200多家企业和人工智能机构展示1000多种全球最新的人工智能产品,100多位专家、学者主导25场关于人工智能细分应用的分论坛。

“上海交通大学苏州人工智能研究院分论坛”上,分音塔科技CEO关磊现场分享了人工智能在翻译机场景的应用。

清华大学团队分音塔科技自主研发的准儿翻译机,是全球首款带屏的人工智能翻译机,也是中国首款人工智能口语翻译机,并且是中国首家攻克日语离线语音识别技术,目前同品类中支持语言和口音数量遥遥领先的翻译机。

在分享中,关磊谈到了分音塔团队的研发历程与细节,为人工智能同行提供了一份实战性的借鉴。

不一样的C端产品

分音塔科技专注于AI和C端结合的产品,是中国人工智能翻译的创建者,2016年发明了中国第一款人工智能翻译机,目前在行业占有主流位置。

翻译机作为C端产品,其实和传统C端产品的差别很大。比如机器人、智能音响这些传统的C端产品,本质是人机交互,使用场景是家庭里面,场景比较单一。但是翻译机的本质是人和人交互,它是翻译沟通的媒介,用户说的语言、使用的场景和人机交互的场景都不太一样。

所以分音塔在做准儿翻译机的时候,遇到的问题复杂得多。比如用户使用不在中国,使用的场景在全世界,可能在美国、日本、塞班、马尔代夫,也可能在餐厅、酒店、酒吧、街头,用户使用场景极其复杂。

去年准儿翻译机上市以后,研发团队就发现市场需求比想象的更广泛,商旅用户、旅行用户甚至公安局出入境这些都是用户。这就是做C端产品和B端产品不一样的地方。

从旅游市场切入

当前AI比较热门,但是技术只有解决用户在实际场景的需求才更有价值,在应用上选择什么领域非常重要。

分音塔当时做翻译机,选定了出境游市场。第一,中国人出境去年达到了1.29亿人次,而且还在快速的增长,市场很大;第二,中国经济十几年的发展,人们的消费随之升级,出境游也从大众化的跟团旅游发展到深度游,80、90后更愿意背着包自由行走,追求深度体验。这些都会使人们出境游时,语言沟通不畅这一痛点,需求解决更为迫切。

聚焦出境游应用,也避免了通用型的翻译语言在个性化的应用场景中“失真”,翻译准确率也会更高。

译得准,从语义识别着手

人工智能翻译技术涉及的技术很多,主要技术有语音识别、语义识别、机器翻译、语音合成等。语音识别解决听得到、听得清的问题,语义识别则是解决听得懂的问题。

同一种语系中,语义识别相对容易,比如拉丁语系很多单词都差不多,翻译准确率就高。但不同的语系,由于文化习性差异大,语义识别难度就大。东方语系本来就语义复杂,比如汉语中的一句话,放不同的场景都能表达不同的意思。

分音塔做翻译机,是中国人在外国使用,所以必须解决东西方语系下的语义识别问题。没有现成的语言模型,自己从零开始做语料库。国外很多地方都译不准,很多专有名词要根据国外的场景优化,只能建自己的语料库。比如和日本人聊到料理,日本当地的地名、菜名都需要重新做语料。

人类的语言表达很复杂,比如口头禅,还有表达时该停顿的时候没有停顿,都要通过语义识别来断句。

LBS(基于位置的服务)是辅助语义识别的有效途径。比如检测到用户在日本,那么后台会根据用户所在的地方进行一些精准的匹配,比如日本的专业名词,同音词的理解和翻译上。

当然,人工智能翻译机最难的机器翻译,也是分音塔科技最核心的技术优势。

直面实际应用

语音识别其实在实地使用中面临很大的挑战。

某友商曾号称自己的产品语音识别准确率达96.7%,但测后发现还不到91%。原来该友商的检测条件有三个:第一密闭安静的环境,第二国家普通话二级水平,第三常用的语言。如果在实际应用场景,这三个条件也许就变成了噪音、方言口音、非常用语。

分音塔研发团队从降噪抓起。

在特别嘈杂的场景,差距30公分语音识别效率会大幅度下降。传统音响考虑的是3到5米范围内的降噪,最后分音塔团队逼自己开发适合0.5米到1.5的降噪技术,使用起来效果非常好。

中国口音博大精深,外国也一样。分音塔做出第一代翻译机后,发现外国人也有口音,英语有美式、英式、加拿大、南非等很多口音,美式英语的口音识别很差。后来又改进,从最早上线支持四种语音,到目前支持39种语言、52种口音,成为支持语言、口音最多的翻译机。它可以根据LBS场景来实时选择当地所需要的口音,从而提升语音识别准确率。

配屏是准儿翻译机的行业首创。人和人沟通,7%的信息传递是通过语言,38%是通过语调和语速,55%是通过表情和动作。为了增强人机交互,分音塔团队坚定给准儿翻译机加了一块屏,由此通过视觉来弥补听觉的不足。

用户在使用中还会面临网络环境的问题,比如中国、韩国、日本有全世界最好的网络,但到欧洲城郊几乎就没网,加拿大、澳大利亚玩也这样。这逼着分音塔团队开发一些离线语音识别技术。目前,分音塔团队与清华大学语音和语言技术研究中心联手攻克了中、日、英三种语言的离线语音识别技术,其中日语离线语音识别技术是国内零突破。

版权声明
执惠本着「干货、深度、角度、客观」的原则发布行业深度文章。如果您想第一时间获取旅游大消费行业重量级文章或与执惠互动,请在微信公众号中搜索「执惠」并添加关注。欢迎投稿,共同推动中国旅游大消费产业链升级。投稿或寻求报道请发邮件至执惠编辑部邮箱zjz@tripvivid.com,审阅通过后文章将以最快速度发布并会附上您的姓名及单位。执惠发布的文章仅代表作者个人看法,不代表执惠观点。关于投融资信息,执惠旅游会尽量核实,不为投融资行为做任何背书。执惠尊重行业规范,转载都注明作者和来源,特别提醒,如果文章转载涉及版权问题,请您及时和我们联系删除。执惠的原创文章亦欢迎转载,但请务必注明作者和「来源:执惠」,任何不尊重原创的行为都将受到严厉追责。
本文来源执惠,版权归原作者所有。
发表评论
后发表评论
最新文章
查看更多
# 热搜词 #

新用户登录后自动创建账号

登录表示你已阅读并同意《执惠用户协议》 注册

找回密码

注册账号