第一句子大全,网罗天下好句子,好文章尽在本站!

Facebook 开源工具包 LASER 支持 93 种语言

时间:2022-12-28

这是第一个成功探索大型多语种句子表示并与广大 NLP 社区共享的工具

友情提示:本文共有 3287 个字,阅读大概需要 14 分钟。

为了加速自然语言处理(NLP)在更多语言上进行零样本迁移,Facebook 扩展并增强了 LASER(Language-Agnostic SEntence Representations)工具包,并将其开源。这是第一个成功探索大型多语种句子表示并与广大 NLP 社区共享的工具。

该工具包现在可以使用 90 多种语言和 28 种不同的字母表。LASER 通过将所有语言联合嵌入到单个共享空间(而不是为每种语言分别建立单独的模型)来实现这些结果。我们现在免费提供多语言编码器和PyTorch 代码,以及针对 100 多种语言的多语言测试集。

LASER 打开了从一种语言(如英语)到其他几种语言(包括训练数据极为有限的语言)进行 NLP 模型零样本迁移的大门。LASER 是第一个使用单一模型处理各种语言的库,包括低资源语言(如卡拜尔语和维吾尔语),以及中国的吴语等方言。有朝一日,这项工作可以帮助 Facebook 和其他公司推出一些特定的 NLP 功能,例如,使用一种语言将电影评论分类为正面或负面,然后再使用其他 100 多种语言发布。

性能和功能亮点

LASER 为 XNLI 语料库 14 种语言中的 13 种带来了更高的零样本跨语言自然语言推理准确率。它还在跨语言文档分类(MLDoc 语料库)方面获得了很好的结果。我们的句子嵌入在并行语料库挖掘方面也有很好的表现,在 BUCC(BUCC 是在 2018 年举行的一个构建和使用可比较语料库研讨会)共享任务中将四个语言对中的三个提升到了一个新的技术水平。除了 LASER 工具包,我们在 Tatoeba 语料库的基础上共享了 100 多种语言对齐句子的测试集。使用这个数据集,我们的句子嵌入在多语言相似性搜索中获得了很好的结果,即使是低资源语言也是如此。

LASER 还提供了其他的一些好处:

它提供了极快的性能,在 GPU 上每秒处理多达 2,000 个句子。句子编码器使用 PyTorch 实现,只有很少的外部依赖。低资源语言可以从多种语言的联合训练中受益。该模型支持在一个句子中使用多种语言。随着新语言的添加,性能会有所提高,因为系统会学会识别语言族的特征。通用的语言无关性句子嵌入

LASER 的句子向量表示对于输入语言和 NLP 任务都是通用的。它将语言的句子映射到高维空间中的一个点,目标是让语言中的相同语句最终出现在同一邻域中。该表示可以被视为语义向量空间中的一种通用语言。我们已经观察到,空间中的距离与句子的语义紧密程度密切相关。

左边的图像显示了单语嵌入空间。右侧图像说明了 LASER 的方法,它将所有语言嵌入到一个共享空间中。

我们的方法建立在与神经机器翻译相同的基础技术之上:编码器 / 解码器方法,也称为序列到序列处理。我们为所有输入语言使用一个共享编码器,并使用共享解码器生成输出语言。编码器是五层双向 LSTM(长短期记忆)网络。与神经机器翻译相比,我们不使用注意机制,而是使用 1,024 维固定大小的向量来表示输入句子。它是通过对 BiLSTM 的最后状态进行最大池化得到的。我们因此能够比较句子的表示形式,并将它们直接输入分类器中。

方法架构

这些句子嵌入用于初始化解码器 LSTM,通过线性变换以及在每个时间步骤上将其连接到输入嵌入。编码器和解码器之间没有其他的连接,因为我们希望通过句子嵌入捕获到输入序列的所有相关信息。

我们必须告诉解码器要生成哪种语言。它需要一个语言标识,也就是在每个时间步骤上连接到输入和句子嵌入的标识。我们使用具有 50,000 个操作的联合字节对编码(BPE)词汇表,在所有连接的训练语料库上进行训练。由于编码器没有指示输入语言的显式信号,因此编码器需要学习与语言无关的表示。我们基于公共并行数据的 2.23 亿个句子(它们与英语或西班牙语对齐)训练我们的系统。对于每个迷你批次,我们随机选择一种输入语言,让系统将句子翻译成英语或西班牙语。大多数语言都与目标语言保持一致,虽然这不是必需的。

我们刚开始训练了不到 10 种欧洲语言,所有语言都使用了相同的拉丁文字。后来,我们逐渐增加到 Europarl 语料库中提供的 21 种语言,结果表明,随着我们添加的语言越来越多,多语言迁移性能也得到了提升。系统学习了语言家族的通用特征。通过这种方式,低资源语言可以从同一族高资源语言的资源中获益。

这可能可以通过使用在所有语言的连接上训练的共享 BPE 词汇表来实现。我们对每种语言 BPE 词汇表分布之间的对称 Kullback-Leiber 距离进行了分析和聚类,结果显示,Kullback-Leiber 距离与语言家族具有几乎完美的相关性。

LASER 自动发现各种语言之间的关系,与语言学家手动定义的语言家族非常吻合。

我们意识到,单个共享的 BiLSTM 编码器可以处理多个脚本。我们逐渐扩展到所有可以识别免费并行文本的语言。被纳入 LASER 的 93 种语言包括 SVO 顺序(例如英语)、SOV 顺序(例如孟加拉语和突厥语)、VSO 顺序(例如塔加路语和柏柏尔语),甚至是 VOS 顺序(例如马达加斯加语)的语言。

我们的编码器可以推广到未使用的语言(甚至是单语文本)。我们发现了它在一些区域语言上表现良好,例如阿斯图里亚斯语、法罗语、弗里斯兰语、卡舒比语、北摩鹿加语马来语、皮埃蒙特语、斯瓦比亚语和索布语。所有这些语言都在不同程度上与其他主要语言有一些相似之处,但它们的语法或特定词汇有所不同。

LASER 在 XNLI 语料库上的零样本迁移性能

零样本跨语言的自然语言推理

我们的模型在跨语言自然语言推理(NLI)中获得了良好的效果。在这项任务上的表现是一个强有力的指标,它能够很好地说明这个模型是如何表达一个句子的意思的。我们针对英语训练 NLI 分类器,然后将其应用于所有目标语言,不需要进行微调或使用目标语言资源。在 14 种语言中,有 8 种语言的零样本性能表现在英语的 5%以内,包括俄语、中文和越南语等。我们在斯瓦希里语和乌尔都语等低资源语言上也取得了很好的成绩。最后,LASER 在 14 种语言中的 13 种语言上的表现优于所有以前的零样本迁移方法。

与之前的方法不同,之前的方法需要一个英语句子,而我们的系统是完全多语言的,并且支持不同语言的任意前提和假设组合。

LASER 如何在不同语言的 XNLI 语料库中确定句子之间的关系。以前的方法只考虑相同语言的前提和假设。

同样的句子编码器也被用于挖掘大量单语文本中的并行数据。我们只需要计算所有句子对之间的距离,并选择最接近的句子对。我们考虑了最近句子和其他最近句子之间的距离,以此来进一步改进该方法。我们使用了 Facebook 的FAISS 库来高效执行这个搜索。

我们在共享 BUCC 任务上的表现远远超过了现有水平。我们的系统明显是为完成这个任务而开发的。我们将德语 / 英语的 F1 得分从 85.5 提高到 96.2,法语 / 英语从 81.5 提高到 93.9,俄语 / 英语从 81.3 提高到 93.3,汉语 / 英语从 77.5 提高到 92.3。正如这些示例所示,我们的结果在所有语言中都是高度同质的。

该方法的详细信息可以在这篇研究论文中找到:https://arxiv.org/abs/1812.10464。

同样的方法也适用于使用任意语言对在 90 多种语言中挖掘并行数据。预计这将显著改善许多依赖于并行训练数据的 NLP 应用程序,包括低资源语言的神经机器翻译。

未来的应用

LASER 还可以用于其他相关任务。例如,多语言语义空间特性可用于解释一个句子或搜索具有类似含义的句子——可以使用相同的语言,也可以使用 LASER 目前支持的 93 种其他语言中的任意一种。我们将继续改进我们的模型,在现有的 93 种语言基础上增加更多的语言。

英文原文:https://code.fb.com/ai-research/laser-multilingual-sentence-embeddings/

本文如果对你有帮助,请点赞收藏《Facebook 开源工具包 LASER 支持 93 种语言》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
ICCV 2021|阿里达摩院视觉实验室提出SSCS:基于支持集的交叉监督的Video语言定位

ICCV 2021|阿里达摩院视觉实验室提出SSCS:基于支持集的交叉监督的Video语言定位

...其中四篇论文,让你一次看个够!今天送出第三篇:基于支持集的交叉监督的文本视频定位。本篇工作中,作者及团队提出了一种基于支持集的交叉监督方法(support-set cross supervision, Sscs)。Sscs可以作为video grounding任务的一个额外...

2023-07-09 #经典句子

小米生态链推出词典笔:支持四国语言 没有网络也能查中英词句

小米生态链推出词典笔:支持四国语言 没有网络也能查中英词句

...AI词典笔的评测,这款词典笔除了可以查词查句以外,还支持多语言翻译,录音,以及AI语音交互等多个功能,下面就一起看看吧。开箱外观:打开包装盒,可以看到全家福除了词典笔以外,还附带了充电线,说明书,以及还有...

2022-11-19 #经典句子

感谢新老顾客支持的话发朋友圈的句子

感谢新老顾客支持的话发朋友圈的句子

...,缓解我的心情。17、三十四、一路风雨前行,感恩你的支持与鼓励。18、十一、不耍心计,不贬低,不讽刺,真诚的对待每一个人。19、三十五、为脱贫攻坚助力,感恩同行!20、三十六、兄弟姐妹,血浓于水,永远无法割舍的...

2011-02-18 #经典句子

有没有一学就会的英语写作套路?实战15年的美国老教师教你

有没有一学就会的英语写作套路?实战15年的美国老教师教你

...段落,才明白写好一篇学术性短文。主题句主体内容(2-3支持观点的句子)总结(段落最后一句应该强调主题句里的j中心思想或其他重要的因素)注:关于一般学术段落写作技巧的具体内容,请在公众号输入关键词“如何学好...

2023-05-23 #经典句子

专接本公共英语该怎么复习呢?各题型复习提分攻略

专接本公共英语该怎么复习呢?各题型复习提分攻略

...标10分,刷上30篇左右仔细阅读:3*10分,需要一定词汇量支持,目标对4个,每篇2个,得12分选词填空:2*10分,选词填空目标对2个,4分完形填空:2*10分,需要一定词汇量支持,目标对4-5个,8-10分合计:10+5+10+12+4+(8~10)=49-51分...

2023-11-05 #经典句子

Facebook开源NLP迁移学习工具包 支持93种语言 性能最优

Facebook开源NLP迁移学习工具包 支持93种语言 性能最优

...新智元导读】Facebook今天开源了增强版的NLP工具包LASER,支持93种语言,用28种不同的字母表编写。这成为第一个成功探索大型多语言句子表示的开源NLP工具。Facebook今天宣布扩展并增强了NLP工具包LASER(Language-Agnostic SEntence Representat...

2022-12-28 #经典句子

超Nice的微信置顶温柔句子|我喜欢和无条件支持我的人一起玩

超Nice的微信置顶温柔句子|我喜欢和无条件支持我的人一起玩

...足道,为什么不在自己的世界闪耀光芒呢我喜欢和无条件支持我的人一起玩Since it is insignificant in the world of others, why not shine in your own world在别人眼里,你的温热和腼腆变成了冷淡和乏味Your slow heat and shyness have become cold and boring in...

2022-12-27 #经典句子

那些能支持你走很远的励志句子

那些能支持你走很远的励志句子

1、一无所知的世界,走下去才有惊喜。2、苏格拉底说:唯有孤独的人才最强大。3、发光不是太阳的权利,每个人都可以熬过最苦的日子,去做最好的自己。4、努力追上那个曾经被赋予重望的自己。5、不管你被贴上什么标签,只...

2022-12-27 #经典句子

支持蔡徐坤的句子

支持蔡徐坤的句子

一、蔡徐坤相信时间会证明一切,曾经的付出和努力、经历的挫折会在未来得到回报,所以我们等到了你—蔡徐坤。 二、阿坤很优秀,阿坤是灯塔般的存在,希望阿坤越来越好。我一定会努力学习,等高考毕业后去看你的演唱...

2022-12-28 #经典句子