趣文网,分享全网好句子、好文章!

NLP自然语言处理 Transduction(转导)的迷你教程

时间:2023-11-13 04:30:01

相关推荐

NLP自然语言处理 Transduction(转导)的迷你教程

@[TOC]

内容介绍

transduction(转导)transductive learning(直推式学习)是您在应用机器学习中可能会遇到的术语。

该术语正与循环神经网络在序列预测问题上的一些应用一起使用,例如自然语言处理领域中的一些问题。

什么是Transduction(转导)?

让我们从一些基本的字典定义开始。

转换意味着将某物转换为另一种形式。

《Merriam-Webster Dictionary (online)》2017年 transduce: to convert (something, such as energy or a message) into another form essentially sense organs transduce physical energy into a nervous signa 转换:将(某物,例如能量或信息)转换为另一种形式,本质上是感觉器官将物理能量转换为神经信号

它是电子和信号处理领域的一个流行术语,其中“换能器”是将声音转换为能量或反之亦然的组件或模块的总称。

《Digital Signal Processing Demystified》 1997年 All signal processing begins with an input transducer. The input transducer takes the input signal and converts it to an electrical signal. In signal-processing applications, the transducer can take many forms. A common example of an input transducer is a microphone. 所有信号处理都从输入传感器开始。输入换能器接收输入信号并将其转换为电信号。在信号处理应用中,换能器可以采用多种形式。输入换能器的一个常见示例是麦克风。

在生物学,特别是遗传学中,转导是指微生物将遗传物质转移到另一种微生物的过程。

《Merriam-Webster Dictionary (online)》2017年 transduction: the action or process of transducing; especially : the transfer of genetic material from one microorganism to another by a viral agent (such as a bacteriophage) 转导:转导的动作或过程;特别是:通过病毒剂(例如噬菌体)将遗传物质从一种微生物转移到另一种微生物

因此,一般来说,我们可以看到转导是将信号转换为另一种形式。

信号处理描述是最突出的,其中声波被转化为电能以供系统内的某些用途。每个声音都由一些电气特征代表,在某个选定的采样级别。

Transductive learning(直推式学习)

转导或转导学习用于统计学习理论领域,指的是在给定领域中的特定示例的情况下预测特定示例。

它与其他类型的学习形成对比,例如归纳学习和演绎学习。

《The Nature of Statistical Learning Theory》 1995年 Induction, deriving the function from the given data. Deduction, deriving the values of the given function for points of interest. Transduction, deriving the values of the unknown function for points of interest from the given data. 归纳,从给定的数据中推导出函数。演绎,推导出给定函数的值的兴趣点。转导,从给定数据中推导出兴趣点的未知函数值。

归纳、演绎和转导的关系

从统计学习理论的本质看归纳、演绎和转导之间的关系。

这是监督学习的一个有趣框架,其中“从数据中近似映射函数并使用它来进行预测”的经典问题被认为比所需的更困难。相反,直接从域中的真实样本中进行特定预测。不需要函数逼近。

《The Nature of Statistical Learning Theory》 1995年 The model of estimating the value of a function at a given point of interest describes a new concept of inference: moving from the particular to the particular. We call this type of inference transductive inference. Note that this concept of inference appears when one would like to get the best result from a restricted amount of information. 在给定兴趣点估计函数值的模型描述了一个新的推理概念:从特殊到特殊。我们称这种类型的推理为转导推理。请注意,当人们希望从有限的信息量中获得最佳结果时,就会出现这种推理概念。

转导算法的一个经典示例是 k-最近邻算法,它不对训练数据建模,而是在每次需要预测时直接使用它。

《Learning by Transduction》 1998年 Transduction is naturally related to a set of algorithms known as instance-based, or case-based learning. Perhaps, the most well-known algorithm in this class is k-nearest neighbour algorithm. 转导自然与一组称为基于实例或基于案例的学习的算法相关。也许,此类中最著名的算法是 k-最近邻算法。

语言学的转导

传统上,在谈论自然语言时使用了转导,例如在语言学领域。

例如,“转换语法”的概念是指将一种语言的示例转换为另一种语言的一组规则。

《Handbook of Natural Language Processing》 2000年 A transduction grammar describes a structurally correlated pair of languages. It generates sentence pairs, rather than sentences. The language-1 sentence is (intended to be) a translation of the language-2 sentence. 转导语法描述了一对结构相关的语言。它生成句子对,而不是句子。语言 1 句子是(打算是)语言 2 句子的翻译。

还有一个来自计算理论的“有限状态转换器”(FST)的概念,在谈论将一组符号映射到另一组符号的翻译任务时会调用它。重要的是,每个输入产生一个输出。

《Statistical Machine Translation》 2010年 A finite state transducer consists of a number of states. When transitioning between states an input symbol is consumed and an output symbol is emitted. 有限状态转换器由多个状态组成。在状态之间转换时,会消耗输入符号并发出输出符号。

在谈论理论和经典机器翻译时,这种转导的使用为在自然语言处理任务上使用循环神经网络进行现代序列预测时对该术语的使用着色。

序列预测中的转导

在他关于语言处理神经网络的教科书中,Yoav Goldberg 将转换器定义为 NLP 任务的特定网络模型。

传感器被狭义地定义为一种模型,它为提供的每个输入时间步长输出一个时间步长。这映射到语言用法,特别是有限状态转换器。

《Neural Network Methods in Natural Language Processing》 2017年 Another option is to treat the RNN as a transducer, producing an output for each input it reads in. 另一种选择是将 RNN 视为传感器,为其读取的每个输入生成一个输出。

他提出了这种用于序列标记和语言建模的模型。他继续指出,条件生成(例如使用编码器-解码器架构)可能被视为 RNN 转换器的特例。

最后一点令人惊讶,因为编码器-解码器模型架构中的解码器允许给定输入序列有不同数量的输出,打破了定义中的“每个输入一个输出”。

Transducer RNN 训练图,摘自 《Neural Network Methods in Natural Language Processing》

更一般地,转导用于 NLP 序列预测任务,特别是翻译。这些定义似乎比 Goldberg 和 FST 严格的每输入一个输出更宽松。

例如,Ed Grefenstette 等人。将转换描述为将输入字符串映射到输出字符串。

《Learning to Transduce with Unbounded Memory》 2015年 Many natural language processing (NLP) tasks can be viewed as transduction problems, that is learning to convert one string into another. Machine translation is a prototypical example of transduction and recent results indicate that Deep RNNs have the ability to encode long source strings and produce coherent translations 许多自然语言处理 (NLP) 任务可以被视为转导问题,即学习将一个字符串转换为另一个字符串。机器翻译是转导的典型例子,最近的结果表明深度 RNN 能够编码长源字符串并产生连贯的翻译

他们继续提供一些特定 NLP 任务的列表,这些任务有助于使这个广泛的定义具体化。

字符串转导是 NLP 中许多应用的核心,从名称音译和拼写校正,到曲折形态和机器翻译

Alex Graves 还使用转换作为转换的同义词,并且还提供了一系列符合定义的示例 NLP 任务。

《Sequence Transduction with Recurrent Neural Networks》2012年 String transduction is central to many applications in NLP, from name transliteration and spelling correction, to inflectional morphology and machine translation 许多机器学习任务可以表示为输入序列到输出序列的转换或转导:语音识别、机器翻译、蛋白质二级结构预测和文本到语音等等。

总而言之,我们可以将转导自然语言处理任务的列表重述如下:

音译,以源形式给出示例,以目标形式产生单词。拼写更正,根据错误的单词拼写产生正确的单词拼写。曲折变化词法(Inflectional Morphology) ,在给定源序列和上下文的情况下产生新序列。机器翻译,在给定源语言示例的情况下,以目标语言生成单词序列。语音识别,在给定音频序列的情况下生成文本序列。蛋白质二级结构预测,在给定氨基酸输入序列(非 NLP)的情况下预测 3D 结构。Text-to-Speech或语音合成,产生给定文本序列的音频。

最后,除了涉及广泛类别的 NLP 问题和 RNN 序列预测模型的转导概念之外,一些新方法也被明确命名为此类。Navdeep Jaitly 等。将他们新的 RNN 序列到序列预测方法称为“神经转换器”,从技术上讲,用于序列到序列预测的RNN也是如此。

《A Neural Transducer》2016年 we present a Neural Transducer, a more general class of sequence-to-sequence learning models. Neural Transducer can produce chunks of outputs (possibly of zero length) as blocks of inputs arrive – thus satisfying the condition of being “online”. The model generates outputs for each block by using a transducer RNN that implements a sequence-to-sequence model. 我们提出了一种神经转换器,一种更通用的序列到序列学习模型。Neural Transducer 可以在输入块到达时产生输出块(可能长度为零)——从而满足“在线”的条件。该模型通过使用实现序列到序列模型的转换器 RNN 为每个块生成输出。

#机器学习###深度学习##python###人工智能#

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(2)
  1. niuda2024-01-24 21:20niuda[台湾省网友]203.32.48.101
    转导是NLP中常用的一个概念,这个教程把它讲得非常明白易懂,推荐给各位想学习NLP的小伙伴们。
    顶3踩0
  2. "梦醉红颜"2023-12-19 12:55"梦醉红颜"[甘肃省网友]123.245.248.166
    这个迷你教程非常棒!讲解清晰,对于初学者来说非常友好。
    顶33踩0
相关阅读
自然语言处理太难?按这个套路 就是砍瓜切菜!(附Python代码)

自然语言处理太难?按这个套路 就是砍瓜切菜!(附Python代码)

这些NLP应用看起来炫酷到没道理,但其实背后的原理并不难理解

2023-12-28

Facebook 开源工具包 LASER 支持 93 种语言

Facebook 开源工具包 LASER 支持 93 种语言

这是第一个成功探索大型多语种句子表示并与广大 NLP 社区共享的工具

2022-12-28

关于自然语言处理 数据科学家需要了解的 7 项技术

关于自然语言处理 数据科学家需要了解的 7 项技术

这些数据以不同形式出现,包括文档、电子表格、录音、电子邮件、JSON以及更多形式

2023-07-11

NLP的文本分析与特征工程

NLP的文本分析与特征工程

自然语言处理NLP是人工智能的一个研究领域,它研究计算机与人类语言之间的相互作用,特别是如何对计算机进行编程以处理和分析大量自然语言数据

2023-10-25