第一句子大全,网罗天下好句子,好文章尽在本站!

跨语言数据格式:促进比较语言学中的数据共享和再利用

时间:2007-09-08

可惜的是,这些数据中的大多数都以不同的格式呈现,因此难以进行比较和重复使用

友情提示:本文共有 1027 个字,阅读大概需要 3 分钟。

关于全世界不同语言的电子化数据正在不断增加。可惜的是,这些数据中的大多数都以不同的格式呈现,因此难以进行比较和重复使用。近日,《科学数据》(Scientific Data)发表的一项研究Cross-Linguistic Data Formats, advancing data sharing and re-use in comparative linguistics提出了“跨语言数据格式倡议”。

过去的二十年中,语言数据数量急剧增加。不仅是世界几大主要语言的单语数据,跨语言数据集的量也大幅增加,目的是为了覆盖尽可能多的语言。创建语言学数据集目前十分流行,除了词源词典、用户词典和语法调查等传统收集方式外,越来越多的数据以在线数据库的形式被发表,或者以论文的在线附录或补充材料的形式被发表。

随着数据量的增加,人们对语言问题的兴趣也在不断增加。来自语言学和非语言学(如考古学、人类学、生物学、经济学和心理学)的学者现在都在尝试使用语言学数据以解决其各自学科的问题。例如,语言是如何传输的,颜色术语是如何演化的,某些特定的语言家族是如何分化的,气候、人口、基因等因素是如何影响语言的。

尽管大量学术论文的发表反映了建立并应用语言数据的热潮,媒体对这一主题的热情也日益高涨,但语言数据仍远未达到Wilkinson等人提出的“FAIR”标准。所谓“FAIR”标准即可找寻(Findable)、可访问(Accesssible)、可互操作(Interoperable)、可重复使用(Reusable)。由于语言学期刊通常没有补充材料方面的政策,也缺乏能够实现服务器数据托管的资源,因此目前想要找到某一特定语言学数据集仍非常困难。语言学数据的访问目前也存在困难,许多基于原始数据的论文发表时并未公布其原始数据,向作者索要数据也比预想的困难得多。由于格式特殊,语言数据集通常缺乏互操作性,因而也难以重复使用。

在本文中,来自德国马克斯-普朗克人类历史科学研究所的Robert Forkel、Johann-Mattis List及其团队提出了语言的历史和类型比较中两个基本数据类型(单词列表和结构数据)的新标准,并且提出了一个可纳入更多数据类型(如并行文本、词典)的框架。除了跨语言数据格式的新规范,研究还提供了用于验证和操作的软件包,以及可关联到通用框架的基本本体论和几个优秀的实用范例。

Scientific Data

DOI: 10.1038/sdata.2018.205

本文如果对你有帮助,请点赞收藏《跨语言数据格式:促进比较语言学中的数据共享和再利用》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
40种语言 9项推理任务 谷歌发布新的NLP基准测试XTREME

40种语言 9项推理任务 谷歌发布新的NLP基准测试XTREME

作者 | 蒋宝尚编辑 | 贾伟全世界约有6900种语言,但大多数并没有英语这种数据规模,这也导致大多数的NLP基准仅限于英文任务,这大大制约了自然语言处理的多语言发展。从语言学的角度,值得注意的一点是,不同语言或许有...

2023-05-18 #经典句子

JDK成长记14:(深度好文)从3个层面分析volatile底层原理(下)

JDK成长记14:(深度好文)从3个层面分析volatile底层原理(下)

...样。一个一个来看下,首先是为什么会乱序?所有的编程语言最终会变成01的机器码,让CPU硬件可以认识。你写的java代码也一样,java代码到CPU执行指令的过程如下图所示:图中标红色的就是可能指令重排的地方, 因为了提高并...

2014-01-26 #经典句子

云计算的霸主AWS:一句话解释AWS规模庞大且功能复杂的各种服务

云计算的霸主AWS:一句话解释AWS规模庞大且功能复杂的各种服务

...务商(VPS、DNS、存储)Lambda:可以运行用Python,Node.js,Go等语言编写的代码,还可以并行运行。Batch:在EC2机器的Docker容器中运行软件指令Elastic Beanstalk:在托管的虚拟机上运行软件Serverless Application Repository:(在Lambda)可部署的无服...

2023-12-27 #经典句子

GB/T 40216-2021 英文版智能仪器仪表的数据描述属性数据库通用

GB/T 40216-2021 英文版智能仪器仪表的数据描述属性数据库通用

...元素类型(Data Element Ifype)PK:主键(Primary Key)UML:统一建模语言(Unified Modelling Language)XML:可扩展标记语言(extensible Markup Language)4总体要求4.1规范化属性数据库设计、建立、管理与维护、服务等应符合规范化要求。属性数据库中智能...

2024-01-13 #经典句子

Google文档与Microsoft Word:哪种更适合企业?

Google文档与Microsoft Word:哪种更适合企业?

...单击该行。在共享文档进行编辑时,我发现一个未被充分利用的功能特别有用-“审阅”选项卡上的“保护”组。它使您可以控制其他人可以对文档进行的编辑类型-例如,如果您根本不想触摸某个部分,或者想要关闭某些标记功...

2009-09-05 #经典句子

中外戏剧经典的跨文化研究:双向思维促进多元文明互鉴

中外戏剧经典的跨文化研究:双向思维促进多元文明互鉴

...中外戏剧经典的跨文化阐释与传播研究”首席专家,北京语言大学人文学院副院长、教授)中外戏剧经典的跨文化研究,就是考察一国的戏剧在跨越语言、国别、文化、媒介等界线后,如何进入异域文化语境或数字空间,获得他...

2024-01-18 #经典句子

知网和paperpass论文检测差别在哪里

知网和paperpass论文检测差别在哪里

...ructure)。CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目,由清华大学、清华同方发起,始建于1999年6月。是公认的最权威的学术不端检测系统;②PaperPass网站诞生于2007年,是全球首个中文文献相似...

2023-10-18 #经典句子

平安人寿SemEval冠军方案详解:长距离语义捕捉技术攻克关系抽取

平安人寿SemEval冠军方案详解:长距离语义捕捉技术攻克关系抽取

...1.1背景简介定义抽取是信息抽取的一个重要分支,是自然语言处理研究中的一个热门领域,其目的是识别非结构化文本中的术语及相应的定义。目前自由文本和半结构化文本中Term-Definition Pair的定义抽取是一个极具挑战性的领域...

2022-11-27 #经典句子