人工智能已经成为我们日常生活的一部分——小度,文本和电子邮件自动更正,客服聊天机器人。 它们都使用机器学习算法和自然语言处理(NLP,Natural Language Processing)来处理、“理解”人类语言,并对人类语言做出反应,包括书面和口头语言。
作为专业分析人类语言的人工智能分支,尽管自然语言处理和自然语言理解(NLU,Natural Language Understanding)在计算单词和文本的能力方面不断取得巨大的飞跃,但人类语言是极其复杂、流畅和不一致的,这给自然语言处理带来了尚未完全克服的严重挑战。例如NLP如何自动理解和分析文本中的情感(积极的、中性的、消极的)。
自然语言处理领域的研究非常复杂。 以下是使用NLP所面临的一些限制和问题:
l 上下文词汇、短语和同音异义词
同义词
讽刺和挖苦
模棱两可
文本或讲话中的错误
俗语和俚语词汇的应用
领域特定语言
资源缺乏的语言
缺乏研发
上下文词汇、短语和同音异义词
同样的单词和短语可能会根据句子的上下文而有不同的意思,很多词汇发音完全相同但意思完全不同。
例如:
这幅画很有意思。
如果你明白他的意思,就该意思意思。
这些对人类来说很容易理解,因为我们阅读了句子的上下文,我们理解了所有不同的定义。 而且,虽然NLP语言模型可能已经学习了所有的定义,但在上下文中区分它们可能会遇到问题。
同音异义词——是指两个或两个以上汉语发音相同而定义不同的词语。如果不注意它们之间的差别,往往容易混淆。这对于问答和语音识别的应用程序来说可能会带来问题,因为它们不是以文本形式编写的。 例如,“权利”和“权力”甚至有些场景下对人类也存在理解问题。
同义词
因为我们用许多不同的词来表达同一个意思,同义词可以导致类似于语境理解的问题。 此外,有些单词可能表达完全相同的意思,而有些可能只是程度的微妙差别(安静、宁静、平静、幽静、寂静)不同的人使用其个人词汇表中的同义词来表示稍有不同的意思。
因此,在构建NLP系统时,重要的是要包含单词的所有可能的含义和所有可能的同义词。 文本分析模型可能仍然会偶尔出现错误,但他们接收到的相关训练数据越多,就越能更好地理解同义词。
讽刺和挖苦
讽刺和挖苦给机器学习模型带来了问题,因为从严格的定义来看,它们通常使用的词汇和短语可能是积极的或消极的,但实际上意味着相反的意思。
模型可以通过一些特定的线索进行训练,这些线索经常伴随着讽刺或挖苦的短语,比如“不过”、“随便”等,以及词汇嵌套(意思相同的单词有相似的表征),但这仍然是一个棘手的过程。