第一句子大全,网罗天下好句子,好文章尽在本站!

网络事件提取中结构和文本特征的联合学习

时间:2010-05-20

这些活动包括音乐会、研讨会、体育赛事、专业活动以及小型本地活动

友情提示:本文共有 2813 个字,阅读大概需要 6 分钟。

AAAI 2017 Doctoral Consortium

网络事件提取中结构和文本特征的联合学习

Joint Learning of Structural and Textual Features for Web Scale Event Extraction

牛津大学

University of Oxford

【简介】网络已经成为活动组织、传播以及各种门票销售的主要平台。这些活动包括音乐会、研讨会、体育赛事、专业活动以及小型本地活动。个人的活动选择因偏好和生活方式而异。在线用户使用网络通知他们附近位置的新事件,并可能使用该网站购买门票或进行预约。从网络提取事件是信息提取中一种尤为困难的类型,它从源语言数据中检测事件的特定类型及其属性。传统的事件提取研究主要集中在从文本中提取政治、文化或其他基本的主题。这样的文本通常是社论新闻,例如(Kuzey,Vreeken和Weikum 2014),或者最新的来自诸如Twitter等社交媒体,如(Ritter,Etzioni和Clark 2012)。然而,本文涵盖了以表格、列表形式表示的事件,或者单个页面中的关键部分。本论文着重于“单一事件页面”的发现和提取。

这项研究的灵感来自于一系列从网络提取特定文档类型的工作。例如,(Wang等,2009)提出了一种从非常小的训练语料库中提取新闻文章及其基本属性的学习方法。虽然受到这项工作的启发,但这里介绍的方法在所用的范围和技术上差别很大。在研究范围上,我的目标是事件,它比上述工作中的文档类型具有更多的属性,并且属性可能出现在模板结构(如Wang等,2009)或事件描述中。此外,我的方法采用半监督方法来获取训练数据,能够平衡越复杂的领域需要越多训练数据的问题。

1 问题陈述和解决方案

事件发现和提取的问题是多方面的:事件及其属性被隐藏在事件聚合器的深处且遍布网络,因此很难找到。每个网站可能需要不同的访问模式来获取单个事件的页面(“单一事件页面”)描述。在给定的单个事件页面内,事件属性必须在页面模板的结构内以及事件描述中定位。

这样的单个事件页面通常被分为文本事件描述和一组核心事件属性,例如题目、地点或时间,这些属性在特定源的所有事件的相同模板中被突出显示和呈现。在这项工作中,我的目标是学习从事件描述和模板中提取事件属性的联合模型。

单个事件页面的发现需要实现与网站的自动交互,例如表格填写,以获得网站中相关事件。不同的活动网站被组织者用来出售门票,个人用户转售门票,并且通常宣传关于事件的相关信息。然而,不仅有大型的活动网站,如Ticketweb.com,Eventbrite.com和Ticketmaster,还有一系列小型活动网站,主办小型的和本地的活动。因此,除了提取事件属性外,我还研究事件源和事件源中单个事件页面的自动发现。通过将所有三个问题作为一个整体系统来考虑,我可以利用每个子问题导出的模型来进行相互加强。

为了解决这个问题,我设计了一个联合学习模型的框架,以最小的监督从单个事件页面中提取结构和文本事件属性。不幸的是,这个过程的标签训练数据是很难得到的且创建的代价高。因此,该框架辅之以半监督过程,以降低获取标签示例页面的成本。该过程是一种bootstrapping方法,它使用每个事件属性的种子值来注释结构事件属性,通过利用无监督模板发现技术(Crescenzi,Mecca和Merialdo 2001)来消除噪音。

2 事件页面发现

事件页面发现阶段包括查找事件的相关网站(“来源”)以及在这些网站内查找单个事件页面。在这一步中将多种方法结合起来,以尽量减少监督。

首先,通过结合相关的知识库以及为一小部分具有代表性的数据源手动创建爬虫,构建事件和事件属性实例的种子集合。这些爬虫是使用OXPath创建的(Furche等,2013),在XPath上扩展了表格填写动作、迭代和数据提取的标记。在第二个扩展步骤中,通过在Common Crawl(基于Microdata注释和从种子数据派生的注释爬取的网页数据)中识别单个事件页面来自动扩展该种子数据集。事件发现阶段的初始运行产生了来自OXPath Crawl的超过800k单个事件页面的数据集,以及来自Common Crawl的大约2M页面。

图1 整体架构

3 网页注释

接下来为单个事件页面的发现,本项目的注释阶段采用了两种不同的技术。首先,使用Schema.org等Microdata在页面的模板结构中查找相关的事件属性。这些注释是由事件源的所有者,包括事件特定的属性和类型,例如事件的标题、位置、开始时间和发生地点,这些属性可以用来自种子数据集的信息进一步验证。对于Microdata不可用的情况,我使用种子数据通过GATE(Cunningham等,2002)NER框架对网站进行注释。如果这些注释通过了严格的约束条件,例如整个HTML节点被注释并且没有冲突的注释,则这些注释被验证且接受。如果他们没有通过验证,如果有必要的话,我打算使用有限的监督来增加训练数据集。注释过程结合了许多不同的自然语言处理(NLP)工具,如NER、启发式规则和地名词典,类似于(Furche 等,2012)的注释层。

由于机器学习模型同时学习结构和文本特征,所以这两种特征都需要注释。在Microdata的情况下,网站上的位置给出,因此给出了节点的结构指示。在Microdata不可用且单个事件页面上的属性已被OXPath提取的情况下,OXPath表达式和该节点内的跨度可用于注释文本。

4 特征工程和机器学习

上述注释组成训练和评估语料库的一部分,并被用作机器学习算法训练阶段的输入。这也意味着注释特征模型的特征必须随着时间的推移而调整来微调算法。

确切的特征模型仍在修改之中,但初步测试显示了文本和结构特征结合使用的潜力。此外,这些测试建议分类或结构预测方法的组合作为第一步。机器学习阶段的输出是支持三种不同类别分类器的分类模型:确定页面模板的页面级分类器,确定给定站点内属性位置的节点级分类器,以及一个文本级分类器,它决定了节点文本的哪一部分包含我们所寻找的事件信息。

5 分类和提取

在训练的机器学习模型应用的初始阶段,将每个模板不可见的网页进行聚类。这允许按照每个模板聚类以站点式迭代方式来应用节点级和文本分类器。系统的输出是提取的事件,其属性在事件数据库中进行进一步处理。

6 结论

这项事件发现和从单个实体页面提取的工作有助于模板独立的网页数据提取的整体工作。未来的工作旨在通过将其应用于其他领域(例如产品页面)来证明这种端到端方法的可行性,因为最初的指标表明该框架可以相对容易地应用于其他领域。

论文下载链接:

https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14520/14016

留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里

本文如果对你有帮助,请点赞收藏《网络事件提取中结构和文本特征的联合学习》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
人工智能和文本分析:遵循的最佳方法

人工智能和文本分析:遵循的最佳方法

人工智能和文本分析使您对业务绩效和客户有深入的了解,使您能够做出更好的决策。从自动化重复性任务到提供可行的客户见解,人工智能可以帮助企业改善收入和用户体验。同样,文本分析会解释大量数据,以发现消费者趋...

2023-06-28 #经典句子

NLP文本标注工具|同时支持实体标注和文本分类

NLP文本标注工具|同时支持实体标注和文本分类

年前,很多从事NLP相关工作的的朋友和客户跟小编抱怨现在能找到的支持中文文本标注的开源工具很不好用。复杂的安装方式,英文的界面,复杂不清晰的交互,鸡肋的功能对于标注人员太不友好。为此,众智的产品技术团队经...

2019-08-07 #经典句子

「首席架构师推荐」文本挖掘软件列表

「首席架构师推荐」文本挖掘软件列表

...析通过嵌入式提供实体和主题提取、主题分类、情感分析和文档摘要功能AUTINDEX -是Saarbrucken应用信息科学研究所开发的一个基于复杂语言学的商业文本挖掘软件包。Autonomy -文本挖掘,聚类和分类软件Averbis 提供文本分析,聚类和...

2010-03-20 #经典句子

Excel中如何提取数字或文字?

Excel中如何提取数字或文字?

...数字算1个字节,这点对后面取值很重要三、如何将数字和文本分离出来?重点在于len和lenb有计算差异的特点,提取过程如下:B2=RIGHT(A2,LENB(A2)-LEN(A2))C2=LEFT(A2,LEN(A2)-(LENB(A2)-LEN(A2)))或C2=LEFT(A2,2*LEN(A2)-LENB(A2))来解释下B2所写公式的意...

2019-09-24 #经典句子

统编小学语文四年级上册单元教学目标及各课文语文要素

统编小学语文四年级上册单元教学目标及各课文语文要素

...根据具体描写的句段想象句段描写的画面,并用自己的话和文中语句说说想象到的画面。走月亮教学目标:1.能正确认读“鹅”等8个生字,正确书写写“淘”等15个字和读写“柔和”等14个词语,并能联系上下文理解词义。2.有感...

2022-12-08 #经典句子

美韩总统会谈提了句台湾 没什么大不了

美韩总统会谈提了句台湾 没什么大不了

...间21日下午,美韩两国首脑会面后召开共同记者会。拜登和文在寅先后发表讲话后,美国广播公司(ABC)第一个问题提给拜登,有关巴以冲突。第二个问题,这名记者问文在寅,“我想知道你们两位领导人有没有关于台湾问题的...

2023-05-27 #经典句子

中国科学技术大学副教授凌震华:基于表征解耦的非平行语料话者转换|CCF

中国科学技术大学副教授凌震华:基于表征解耦的非平行语料话者转换|CCF

...是我们设计的模型结构。模型输入除了从源说话人语音中提取的声学特征序列外,还拼接了利用语音识别声学模型提取的文本相关特征,以协助序列对齐。模型输出就是从目标说话人平行语句中提取的声学特征序列。其中输出与...

2023-10-23 #经典句子

今日 Paper|联合抽取;流式语音识别;差异学习;Skip

今日 Paper|联合抽取;流式语音识别;差异学习;Skip

...义了一种邻近度(Proximity )的方法,并以此为基础从中提取相关关键信息,并且得到新闻预料的事件,并以直观的图像的形式表达出来。2.使用多属性的邻近度来替代文本的语义信息,比其他基于数据挖掘的事件提取方法更有效...

2023-01-22 #经典句子