自然语言处理——情感分析介绍

时间：2012-07-02

简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程

友情提示：本文共有 1233 个字，阅读大概需要 3 分钟。

文本情感分析：又称意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网(如博客和论坛以及社会服务网络如大众点评)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。

引言

情感分析在很多点上领域有很多的应用场景：

比如，酒店网站需要提取用户对酒店的评价，然后策略性的进行显示，比如把负面的评价排的稍微往后面一点，总不能上来满屏都是脏乱差吧！比如，一些电商类的网站根据情感分析提取正负面的评价关键词，形成商品的标签。基于这些标签，用户可以快速知道大众对这个商品的看法比如，一些新闻类的网站，根据新闻的评论可以知道这个新闻的热点情况，是积极导向，还是消极导向，从而进行舆论新闻的有效控制。

情感分析的处理应用场景

情感分析在一些评论机制的app中比较有用，比如某酒店网站，下面会有居住过的客人的评价，如果评论有几千条，满满的都是脏乱差，那谁还想住呢！

所以可以通过情感分析，分析用户评论是积极的还是消极的，根据一定的排序规则和显示比例，在评论区显示。

同样这个场景也适用于电商网站的商品评价。

基于情感词典的情感分析

这些词典基本每个领域都不一样，比如“声音大”这个词，在音响的领域里面表示正面评价；但是在空调的领域里面就是负面评价了。因此每个领域最好有自己专业的词库，这个词库可以基于爬虫也可以基于人工搜集整理。网上有很多可以下载到的词库，不过都是比较通用的。

然后就可以按照下面的步骤计算情感取向了:

获取全部的用户评价内容先进行分词根据每个词计算总体的情感分值，公式如: -1^(否定词的个数)*程度词的分值*评价词的分值然后根据正负判断情感走向。比如，”难道非得让我说差么？“中，难道和非都算否定词，这样分值就是(-1)^2*1*-1 = -1，结论是负面评价

再比如，“难道这样不好吗?”中，难道和不都是否定词，分值为(-1)^2*1*1=1，结论是正面评价

虽然说有上面这些规则，在一些特定语境里面情感分析还是会出现误差。而且词语的位置也是一个很重要的因素，在词典这种机制里面，是忽略掉位置的。

基于机器学习的情感分析方法

定义问题