第一句子大全,网罗天下好句子,好文章尽在本站!

三千年前的古文字被AI破译 MIT和谷歌开发失传语言的翻译系统

时间:2023-12-07

得知这块石头来源于地中海的克里特岛后,伊万斯立马动身前往此处以搜寻更多证据

友情提示:本文共有 2054 个字,阅读大概需要 5 分钟。

大数据文摘出品

编译:刘俊寰

1886年,英国考古学家亚瑟·伊万斯偶然间发现了一块刻印着未知语言的石头。得知这块石头来源于地中海的克里特岛后,伊万斯立马动身前往此处以搜寻更多证据。在那里,他马上就发现了许多笔迹相似的石碑,这些石碑能追溯到公元前1400年左右,这些刻字也就成为目前发现的最早的书写形式之一。伊万斯表示,这种线形形式是从早期艺术中粗糙的线条画演变而来,在语言史上占有重要地位。

伊万斯等人后来证实,石碑上的刻字是两种不同的文字系统。稍古老的一种称为A类线形文字,可以追溯到公元前1800年至1400年,此时克里特岛还处于青铜时代的米诺文明阶段。时间上更近一点的文字系统称为B类线形文字,公元前1400年后才出现,此时的克里特岛正被希腊大陆的迈锡尼人统治着。

许多年来,伊万斯等人一直试图翻译这些古老的文字,但都无疾而终。

这个问题直到1953年,一个名叫迈克尔·文特里斯的业余语言学家成功翻译B类线形文字之后,才得到解决。

两个假设

文特里斯的成功建立在两个决定性突破上。第一,他假设B类线形文字中重复出现的词语是克里特岛的地名——这在其后被证明是正确的。第二,他假设这些刻字是古希腊语的早期形式——这让他能够立即翻译出B类线形文字的其他部分。在翻译过程中,文特里斯表示,古希腊语的书面表达形式比之前预想的还要早几个世纪。

文特里斯的工作成果是一项巨大的成就。但像A类线形文字这样的更为古老的文字系统,到今天为止仍然是语言学上一个亟需解决的难题。

通过机器学习绘制特定语言的联结

不难想象,近年来机器翻译的最新进展对此有所帮助。

短短几年内,注释数据库和让机器从中学习的技术让语言学习发生了革命性变化,这使得机器翻译变得越来越普遍。尽管翻译质量有待提高,但这也提供了思考语言的一个全新角度。

来自麻省理工学院的罗家明(音译)和雷吉纳·巴尔齐莱,以及来自加州山景城谷歌人工智能实验室的曹源(音译),由他们组成的团队研发出了能够翻译失传语言的机器学习系统,并且使其翻译B类线形文字——第一次完全自动翻译——证明了系统可行性。

他们所利用的方法与标准机器翻译技术有着显著区别。首先需要知道,不管哪种语言,机器翻译的关键都在于认识到文字间联结的相似性。因此整个过程是从绘制特定语言的联结开始,这需要庞大的文本数据库,机器在这个文本数据库中查验每个字符与其他字符在多大频率上联结在一起。这种表现非常独特,它在多重参数空间上定义了这个词语。实际上,这个词语可以视为空间内一个向量,这个向量在机器对任何语言的翻译结果中都起到重要的约束作用。

这些向量遵循着简单的数学规则,举例而言,国王(king)-男性(man)+女性(woman)=王后(queen)。所以,一句话可以认为是由一系列向量排列形成的一条跨越空间的轨迹。

完全对应地翻译

机器翻译的关键洞见在于,不同语言中的词语在各自的参数空间内占据着相同位置。这使得一种语言能够完全对应地被翻译成另一种语言。在这个意义上,翻译句子就变成寻找那些跨越空间的相似轨迹的过程,机器甚至不需要“知道”句子的具体含义。

这个过程需要依赖大数据集。但几年前,德国的一个研究者团队利用小型数据库协助翻译缺少大型文本数据库的稀有语言,其中的窍门在于找到一种除数据库之外能够约束机器的方法。

利用语言进化的约束

罗家明团队已经进一步展示了机器是怎样翻译一门失传语言的,他们使用的约束与语言随时间的变化相关。任何语言都是以某种方式变化的,比如,亲属语言中的符号以相似的分布出现,相关词语有相同顺序的字符,等等。有了这些规则的约束,如果已知某种古老的语言形式,那么翻译就会轻松许多。

罗家明团队利用这项技术测试了两种失传语言,B类线形文字和乌加里特语。语言学家已经知道,古希腊语的早期形式是由B类线形文字编码得到,而在1929年发现的乌加里特语则是希伯来语的早期形式。

利用这些信息和语言进化的约束,罗家明团队研发的机器能够以相当高的准确度完成上述两种语言的翻译。“我们能够正确地将67.3%的B类线形文字中的同源词翻译成对应的希腊语”,他们说,“据我们所知,本次实验是最早尝试自动翻译B类线形文字的。”而出色的工作成果将机器翻译提高到新的水平。但这也引发了关于其它失传语言的疑问——尤其是从未被翻译过的语言,如A类线形文字。

在这篇文章中,A类线形文字的缺席显而易见,罗家明团队甚至没有提及A类线形文字,但和所有语言学家一样,它肯定在他们心中挥之不去。不过可以确定的是,在A类线形文字能够被机器准确翻译之前,我们还需要一些重要的突破。举个例子,没人知道A类线形文字编码了哪种语言,将它翻译成古希腊语的尝试都失败了。如果不知道祖语言,新技术也起不了作用。

但是基于机器的方法存在一个明显的优势,机器可以快速而不知疲倦地对每种语言进行测试。因此罗家明团队或许可以用一种粗暴的方法攻克A类线形文字的翻译难关——尝试将它翻译成机器已经掌握的每种语言。如果最终成功,那一定是一项伟大的成就,一项足以另迈克尔·文特里斯赞叹不已的成就。

本文如果对你有帮助,请点赞收藏《三千年前的古文字被AI破译 MIT和谷歌开发失传语言的翻译系统》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(1)
  1. 安以沫2023-12-24 11:54安以沫[广东省网友]110.57.49.88
    哇,科技的发展真是太惊人了!AI的破译技术让我们能够窥探古代文字的奥秘,而失传语言的翻译系统更是为世界文化传承做出了巨大贡献!
    顶0踩0
相关阅读
曾经代表中华历史文明的繁体字 真有失传的危险吗?不可能

曾经代表中华历史文明的繁体字 真有失传的危险吗?不可能

...的很多书籍,例如《古代汉语》是什么字体印刷的?中国古文字的词典《辞源》是什么字体印刷的?而且中国每年都出版大量的古籍书,除少数外,许多都是影印出版的。那都是什么字体印刷的?这里告诉你,都是繁体字印刷出...

2018-05-25 #经典句子

敦煌文化|藏经洞

敦煌文化|藏经洞

...里包括各部典籍和大小宗派的东西,以及同各宗派相关的语言文字的资料,即一卷佛经正面是佛经,背面则是以古印度梵文、咐利文、巴利文等写的佛经原文,用以考证此佛经的来源。洞内有许多失传已久,不为人知的三藏以外...

2010-11-03 #经典句子

效仿婴儿学习语言 MIT打造了一个具有观察力的AI模型

效仿婴儿学习语言 MIT打造了一个具有观察力的AI模型

...长时间积累与学习后,才形成了多种多样精密复杂的人类语言。未来的AI将拥有像人一样的思想和情感,而现在的它们还处在小孩子牙牙学语的阶段,在学会了人类的语言后,才能更好地了解我们的需求并提供帮助。而儿童学习...

2023-01-28 #经典句子

基础英语写作智慧树期末考试答案

基础英语写作智慧树期末考试答案

...的是()。李清照《声声慢》(寻寻觅觅)一词最突出的语言技巧是()“惟陈言之务去”的主张的提出者是()有“七绝圣手”、“诗家天子王江宁”之誉的盛唐诗人是()苏轼《念奴娇赤壁怀古》中的“念奴娇”是()。谈...

2023-12-22 #经典句子

方向对了?MIT新研究:GPT-3和人类大脑处理语言的方式惊人相似

方向对了?MIT新研究:GPT-3和人类大脑处理语言的方式惊人相似

...化数据,让计算机去理解主要以文化习惯沉淀下来的人类语言是一件困难的事。不过在 AI 的重要方向,自然语言处理(NLP)领域中,人们经过多年的实践找到了一些方法。在目前流行的 NLP 方法中,其中一种语言模型就是根据上...

2020-03-26 #经典句子

连《浮生六记》都要读翻译版 你是古文白痴吗?

连《浮生六记》都要读翻译版 你是古文白痴吗?

《浮生六记》插画。文/曹吉利能用语言说清楚感受,就少用表情包敷衍,能根据注释读下来的书,就尽量不要翻看白话版。双11已过,你都囤了什么书?翻翻各大购书网站的畅销榜单,鸡汤文学作品都冲在最前列。这年头肯读书...

2023-11-20 #经典句子

《猫苑猫乘》:清代文人笔下的猫咪是仙 是怪 是灵 也是宝

《猫苑猫乘》:清代文人笔下的猫咪是仙 是怪 是灵 也是宝

...决定一家人的风水和运势,相猫可以参照书中辑录的古时失传的《相猫经》。《猫苑》这本书分为卷上、卷下和附录三部分,卷上包括种类、形相、毛色和灵异四部分,卷下包括名物、故事、品藻和补充四部分。《猫乘》和《猫...

2023-05-27 #经典句子

无需数学就能写AI MIT提出AI专用编程语言Gen

无需数学就能写AI MIT提出AI专用编程语言Gen

...时,MIT 的研究员也要让新手做人工智能更简单。继 Julia 语言之后,近日 MIT 又发布了一种全新的通用概率编程系统 Gen,它是一种针对人工智能领域的专用语言,且除了深度学习外,各种机器学习与概率建模方法都囊括在内。近...

2009-06-21 #经典句子