第一句子大全,网罗天下好句子,好文章尽在本站!

「喜报」科大讯飞新世界纪录:机器可以同时读懂40种语言啦

时间:2023-12-03

关于这项技术的应用,我们来点直观的展示,来看看机器的阅读理解难度有多高:The heat required for boiling the water and supplying the ste

友情提示:本文共有 1974 个字,阅读大概需要 4 分钟。

就在11月2日,刚刚举办的世界权威多语言理解评测XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中,哈工大讯飞联合实验室(HFL)团队以总平均分84.1分位列榜首,刷新世界纪录,在四个赛道中获得三项最好成绩!

这也标志着科大讯飞多语言理解与跨语言迁移能力再上新台阶。

关于这项技术的应用,我们来点直观的展示,来看看机器的阅读理解难度有多高:

The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen Fllen ist die Wrmequelle ein Atomreaktor, Erdwrme, Solarenergie oder Abwrme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.

上述这段话包含了英语、德语、西班牙语,而这只是机器多语言理解评测的冰山一角,它要面临的是多达40种语言的高难度理解。翻译成中文就是:

让水沸腾以提供蒸汽所需热量有多种来源,最常见的是在封闭空间(别称有 燃烧室 、火箱)中供应适量空气来 燃烧可燃材料 。在某些情况下,热源是核反应堆、地热能、 太阳能 或来自内燃机或工业过程的废气。如果是模型或玩具蒸汽发动机,还可以将 电 加热元件作为热源。

可是这其中有什么难度呢,接着往下看 ↓

XTREME评测由谷歌公司举办,旨在全面考察模型的多语言理解与跨语言迁移能力。

这个评测覆盖了中文、英语、韩语、日语、阿拉伯语、越南语等40种语言,包含了句对分类、序列标注、阅读理解、句子检索赛道,共四大类九个任务的考核。

XTREME评测包含4大类9个任务,分别为:

句对分类:XNLI、PAWS-X(自然语言推断)序列标注:UDPOS(词性标注)、PANX (命名实体识别)阅读理解:XQuAD、MLQA、TyDiQA(片段抽取型阅读理解)句子检索:BUCC、Tatoeba(跨语言文本检索)

与以往单语言自然语言理解评测任务不同的是,XTREME中的每一个任务都覆盖了多种语言,评测的是模型在多种语言上的理解能力平均指标,因此对系统模型的多语言理解与跨语言迁移能力要求大大提高。

其难度可想而知,榜单上的模型也代表了多语言模型的顶尖水平,因此获得了众多机构和高校的广泛关注。

本次哈工大讯飞联合实验室提交的CoFe模型以总成绩84.1分位居XTREME评测榜首,有三大法宝:

加入了自主研发的跨语言对比学习技术,鼓励模型学习不同语言中的语义相似性。利用知识蒸馏技术进行自监督学习和知识迁移,进一步提升了模型在各个语言上效果的稳定性。创新性地融入了细粒度的语言学特征,帮助模型克服训练不足的困难,解决低资源语言学习不充分的问题,同时使之适应不同语言的形态学特点。

也就是说,通过本土语言学习,机器可以在少量其他语言语料的情况下,通过“类比”学会这门语言,减少了收集语料、语音标注等大量工作。

这就是多语言理解与跨语言迁移能力!

“要让中文语音技术由中国人做到最好。”

成立至今,科大讯飞初心未改,持续关注并积极推动中文相关信息处理技术的研究与发展。少数民族语言处理是中文信息处理中不可缺少的一环,也是中文信息处理多样性的一种体现。这项技术的进步将极大改善我国少数民族语言学习问题。

目前由于国内少数民族语言语料稀缺、获取难度大等原因,相关技术研究相对匮乏,而主流的多语言模型也无法很好地处理国内少数民族语言文字。

为了促进中国少数民族语言信息处理的研究与发展,近期科大讯飞发布了首个面向少数民族语言的多语言预训练模型CINO (Chinese mINOrity pre-trained language model),弥补相关资源的空白,并将相关预训练模型和任务数据开源。希望未来进一步促进业内少数民族语言相关的技术研究,推动少数民族语言相关技术的应用落地。

未来支持各少数民族语言的多语言搜索引擎等文字应用工具或将成为可能!

本文如果对你有帮助,请点赞收藏《「喜报」科大讯飞新世界纪录:机器可以同时读懂40种语言啦》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(3)
  1. 无花果子2024-01-06 03:44无花果子[上海市网友]202.8.24.26
    @FY想到未来机器就可以帮我们翻译各种语言,真是太神奇了!
    顶38踩0
  2. FY2023-12-25 20:51FY[湖南省网友]203.13.24.101
    这真是科技发展的奇迹,希望这项技术能够为世界各地的人们带来更多便利。
    顶1踩0
  3. “涛”声依旧2023-12-14 13:59“涛”声依旧[台湾省网友]203.55.10.111
    太厉害了,科大讯飞的技术简直令人惊叹!
    顶8踩0
相关阅读
深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

深度对话科大讯飞胡郁:搞定33种语言的翻译神器如何炼成?

相比一代翻译机,它可以翻译的语种增加至33种,除了语音翻译、离线翻译外,还支持拍照翻译功能

2017-05-27 #经典句子

科大讯飞“年度大秀”又火出圈了!克隆真人语音只要1句话!

科大讯飞“年度大秀”又火出圈了!克隆真人语音只要1句话!

很多时候,一提到程序员,我们能想到的关键词无非就是木讷、无趣、加班多发型像沙僧。脾气像悟空。一样的格子衬衫,不一样的精彩。人家都说三百六十行行

2022-12-01 #经典句子

中国工程师尝试复制巴别鱼 实现“实时语音翻译”

中国工程师尝试复制巴别鱼 实现“实时语音翻译”

新华社深圳4月26日电 记者 王丰科幻电影银河系漫游指南中,有一种神奇的巴别鱼,寄生在主人耳朵里,能自动将周围人群的脑电波转换成寄主那种类型的脑电

2014-07-20 #经典句子

1句话克隆真人语音 AI问诊超96.4%全科医生!科大讯飞黑科技大秀

1句话克隆真人语音 AI问诊超96.4%全科医生!科大讯飞黑科技大秀

在这一次开发者节上,科大讯飞董事长刘庆峰向全球开发者,摊开过去一年答卷

2022-12-03 #经典句子

可口可乐语音反转瓶成超话 科大讯飞iFLYOS对话年轻消费者

可口可乐语音反转瓶成超话 科大讯飞iFLYOS对话年轻消费者

新颖的互动形式让大家大呼神奇,而这一黑科技背后,是科大讯飞和可口可乐的一次成功跨界合作

2023-11-01 #经典句子

一文看懂我国机器翻译发展情况及BAT 科大讯飞等机器翻译格局分析

一文看懂我国机器翻译发展情况及BAT 科大讯飞等机器翻译格局分析

机器翻译,又称为自动翻译,是利用计算机将一种自然语言转换为另一种自然语言的过程

2023-11-27 #经典句子

一文了解全球语音技术市场格局

一文了解全球语音技术市场格局

自从1952年贝尔研究所研制出了世界上第一个能识别10个英文数字发音的实验系统再到1960年英国的Denes等人研制了第一个计算机语音识别系统

2015-05-22 #经典句子

第五届青少年科技游启动 讯飞词典笔带学子体验高效学英语

第五届青少年科技游启动 讯飞词典笔带学子体验高效学英语

为了更好地展示合肥市高新区科技创新成果,倡导创新驱动发展理念,游中国声谷观量子中心青少年游学神奇校车走进合肥高新区科技游通过组织青少年走进科技

2023-05-27 #经典句子