第一句子大全,网罗天下好句子,好文章尽在本站!

【Google 谈人工智慧】有了机器学习后 语言还会是隔阂吗

时间:2009-09-25

受惠于智慧型手机的普及,网路人口在最近这几年高速成长,不过网路上有接近50% 的内容仍是以英文为主,对于非以英文为母语的人来说,想要获得资料就多了

友情提示:本文共有 2009 个字,阅读大概需要 5 分钟。

Google 的使命是汇集全球资讯,并且让所有人都能使用这些资讯,不过要能理解各式资讯,最困难的就是语言隔阂,因此在东京举办#MadeWithAI 亚太区媒体活动请来了Google 语言研究计画总经理Linne Ha 来谈谈怎么将AI 应用到语言翻译上,进而弥平语言不通的问题。

受惠于智慧型手机的普及,网路人口在最近这几年高速成长,不过网路上有接近50% 的内容仍是以英文为主,对于非以英文为母语的人来说,想要获得资料就多了一道门槛,能让每个人自在的用自己的原生语言在网路上搜集或提供资料是Google 的目标,因此在推动语言翻译或发展上Google 做了非常多的努力。

▲ Google语言研究计画总经理Linne Ha。

推动各种语言上网,统一码(Unicode)是重点

不同语言要能在网路上流动,最重要的就是该语言要能被阅读,若是出现乱码或空白文字就容易成为阅读或理解的障碍,因此Google 长期和统一码(Unicode)联盟合作,鼓励更多国家利用统一码的编码系统上网,例如Google 大力鼓励缅甸不要再使用非统一码的字型。

有了统一码这项文字系统后,电脑文字编码就有了一套标准,下一个挑战就是要确保自行能正确地被转为网路或手机上的文字,去年Google 推出开放的Noto 字型,可以支援800 种语言、11 亿个文字,可呈现各式各样的文字。

但这样还不够,虽然文字能呈现,但却不是每个人都知道如何输入文字,因此除了Gboard 提供300 多种键盘、 97 种手写系统、语音输入等方法让使用者可以依照自己方便的方式来输入文字。

在开发手写系统上,Google 也花了一番心力,由于每个人的字迹都不同,因此Google 导入人工智慧技术,搜集很多自愿者的手写范本,让机器学习来辨认文字和书写风格,进而达到更精确的手写辨识。语音输入方面则是透过GOOG-411 的服务来搜集语音资料,类似我们的查号台,当有人打电话进去问问题查电话,GOOG-411 就会帮忙转接,在这样的过程中Google 建立了大量的语音资料库范本,英文语音搜集还算满顺利的。不过其他语言就没这么容易了,虽然说Google 有和专门经营文字和语音资料库的业者合作,但有些语言本身的资料库就较少,例如广东话,因此Google 又开启了下一阶段的任务。

语音搜寻实验,搜集准确的语音资料

既然缺乏语音资料,Google 就开始想方法来搜集各种语言的语音讯息,比方说2010 年Google 推出了荷兰语的Word of Mouth 计画,提供参与实验的使用者手机来搜集他们和亲友间的对话样本,进而得到准确的语音资料。

有了语音资料之后下个问题则是口音和俗语,关于这方面的资料目前Google 仍正在努力发展中,不过经过过去这么长一段时间的努力,到2012 年之后,语音搜寻已可支援到50 种语言,Google 也导入了深度神经网路提升语音辨识的准确性,今年则再新增30 多种的语音输入,甚至包含了非洲两种主要语言,斯瓦希里语(Swahili)和阿姆哈拉语(Amharic),对于弥平语言隔阂来说,这是一个重要的里程碑。

怎么将机器学习应用在语音服务上

既然有了机器学习这项技术,也就意味着Google 能透过演算以及建构更有效的模型来解决语音辨识问题。

Google 这回用了一个超级低成本的预算(2000 美金)来增加孟加拉语的文字转语音服务,首先先准备一套麦克风、USB 转接器和前置声音放大器,并建立一组便携式的录音工作室「ChitChat」让实验者可以录音。

工具有了,下一步就是找来15 名孟加拉的Googler,录制了2000 多个从维基百科撷取出来的孟加拉语和英语,实验者每隔30 分钟至60 分钟就录制250 多个句子,平衡的混音成几个不同的声音后,再交给Google 社群投票看看大家最偏好哪一个声音,最终产出的声学模型刚好就可以代表平均型的人声,成功推出了孟加拉语的文字转语音服务。

除了把更多语言放到网路上,Google 也着手发展方言领域,像是英文就分成美式英文、英式英文、澳洲英文等等,最近Google 正着手处理新加坡式英语,另外,西班牙语、阿拉伯语也是Google 努力的方向。

Google 的中文语音什么时候会有更多突破?

至于台湾人最常用的中文呢?Google 语言研究计画总经理Linne Ha 不讳言,中文真的是很有挑战的语言,比方说中国人说着中文、写着简体中文,台湾人说也说着中文、但写的是繁体中文,香港人写的也是繁体中文、不过说的是广东话,繁体中文、简体中文、广东话间各有连结但又不尽相似。

过去Google 是使用「单一语言模式」来处理,比方说台湾人说的中文就套用繁体中文资料库,香港人说广东话则套用另外一个繁体中文资料库,但这样的语音辨识效果发展有限,近期Google 尝试着将相近的语言加进同一个模型中,目前的实验结果还不错。

本文如果对你有帮助,请点赞收藏《【Google 谈人工智慧】有了机器学习后 语言还会是隔阂吗》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
Google将添即时语音翻译功能 可根据语意自动加入标点符号

Google将添即时语音翻译功能 可根据语意自动加入标点符号

...据科技网站《The Verge》报导,Google周二(28日)在一系列人工智慧科技的展示中发表了即时翻译的新功能。Google指出,使用该功能前需先连接网路,这一点与当前Google翻译利用AI及设备的翻译功能有所不同。据Google的说法,这是...

2018-04-07 #经典句子

Google推出新工具 翻译古埃及象形文字

Google推出新工具 翻译古埃及象形文字

...塔石碑出土纪念日宣布,推出翻译工具Fabricius。工具透过人工智能(AI)技术解码古代语言,更可将用家所写开的文字,翻译成埃及象形文字。不过值得注意的是,目前仅可用英文字翻译,暂时未能将中文翻译成象形文字。另外...

2023-12-09 #经典句子

帅哥辣妹异国恋“全靠Google翻译” 甜蜜回:语言不通没差!

帅哥辣妹异国恋“全靠Google翻译” 甜蜜回:语言不通没差!

...籍男孩Daniele Marisco在夜店一见钟情后,虽然无法用同一个语言沟通,还是靠着强大的Google翻译顺利交往两年,而且现在一起在伦敦幸福生活,只能说真爱无敌啊!来自英国西密德兰郡的Chloe,和25岁来自意大利拿坡里的Daniele,两...

2012-03-20 #经典句子

Google搜索成学英文小帮手!App新增「每日一字」功能

Google搜索成学英文小帮手!App新增「每日一字」功能

...le 现在不只是要当翻译工具,还希望能帮助用户学习不同语言,将在 App 中推出「每日一字」的新功能。根据 Google 官方博客文章指出,未来用户将能在 Google App 上,每天收到一个新单字的通知,除了告知定义,还会包含一些有...

2011-02-27 #经典句子

Google 翻译出现宗教话语 可能是因为用了圣经训练模型导致

Google 翻译出现宗教话语 可能是因为用了圣经训练模型导致

上线 12 年,Google 翻译现在支持 100 多种语言,覆盖了全球 99% 的网民。这其中甚至包括信德语(巴基斯坦和印度)、科萨语(南非)等极少人使用的语种。但最近 Reddit 上有网民发现了一些奇特的现象——在某些语种下,一些特...

2023-05-18 #经典句子

Google拟推口译功能 支持27种语言实时翻译

Google拟推口译功能 支持27种语言实时翻译

...e Verge》报导,不久后Google将推出“口译模式”,提供27种语言的实时翻译功能,让说不同语言的人能够流畅对话。用户只须对Google助理说出指令,如“帮我翻译法文”,Google助理就会在屏幕上显示出法文翻译,同时开启麦克风让...

2018-02-26 #经典句子

GOOGLE 翻译增AI 离线翻译支援59 种语言

GOOGLE 翻译增AI 离线翻译支援59 种语言

...上才能使用的神经机械翻译系统延伸至离线,更支援59 种语言。比较各翻译系统的分别( PBMT 为Phrase Based Machine Translation, 即基于短句的机械翻译)Google 翻译自2016 年改用神经机械翻译系统( Neural Machine Translation,NMT )后,由...

2023-07-27 #经典句子

阅读懒人有福了!Google Assistant将推新功能 42种语言念文章

阅读懒人有福了!Google Assistant将推新功能 42种语言念文章

...另外一个特别的是,Google Assistant可以用和文本不一样的语言,来朗读内容,最多支援42种语言。Google Assistant也能在实际环境中即时翻译,因为它采用了Google Home Smart Display,并设定为始终可以默认进行翻译,因此可以在饭店、办...

2023-12-03 #经典句子