优捷信达科技团队博客

优捷信达解密舆情监测:不仅分析语义,更关注词组结构

woboy | 15 八月, 2012 14:31

文章作者:优捷信达研究员 Annie Qi   

在上一篇题为《基于语义特征的网络舆情正负面监测》的文章中,本人结合在优捷信达科技的研究工作为您详细介绍了情感分析中与舆情正负面分析密切相关的“极性分类”。本文将延续这一主题,详细描述具体的正负面辨别方式,并分析其优缺点,以帮助您了解市场上流行的“舆情监测”、“口碑监测”、“消费者调研”等互联网海量信息处理系统的工作原理。

网络评价和信息的正负面识别,需要通过计算机提取具有情感倾向的相关词语,这叫做“特征提取”(feature extraction)。简单来说,计算机判别正负面,就是通过先提取句子中的正负面词语,进而分析这些词语的分布来判断文章的正负面倾向。

 

基于优捷信达科技的研究调查,目前业内主要特征提取技术有基于语义和词的出现及频率的两种模式。本文将重点介绍后一种模式,并讨论这种模式的优缺点。

基于词条出现及频率规律的特征提取模式比基于语义的模式出现更晚。这种模式不分析情感关键词所代表的含义,而将重点放在了评估高频率词语的情感极性。尽管这种基于统计的方法并不符合直觉,但由于其在处理包含复杂句法结构甚至表达结构的句子时的优良表现,得到了业界越来越多的关注。以下将重点介绍两种典型方法。

 1. 比较词语的出现及频率的方法

提取情感词条的出现特征,最直接的方式有两种,第一种是观察情感词条是否出现,第二种是计算情感词条出现的频率。频率的方式在信息检索的领域中已经得到成功的运用,具体方法是使用预先选定词条的出现次数作为特征向量的值。与频率的方式不同,第一种方式将情感词条是否“出现”直接作为特征,也就是将频率简化为了一个是与非的二进制问题,如果一个词条出现了,与它对应的特征矢量就记录为1,否则则记为0。Bo Pang和Lilian Lee做实验在电影评论的方面比较了这两种方法,结果显示第一种“是否出现”的方法效果优于第二种“计算频率”的方法。

这个意料之外的结果其产生的原因可能可以归结为主题分析(如谷歌通过关键词查找相关文章)和情感分析(如舆情口碑监测)的根本区别。主题分析的td-idf方法的成功从一个角度表明了一个文档的主题会以基本相同的形式在网络上大量存在,因此通过搜索相关的句子或短语就可以搜索到相应的内容。但是情感分析却不能用这种方式来实现,因为人们很少以雷同的内容表达主观意见。例如,人们在表达“苹果手机好”这样一个意思的时候,并不会简单地重复这一句话,而是会说苹果手机为什么好,因为什么原因感觉到苹果手机好。简而言之,对于苹果手机的各种正面评价,“苹果手机好”这一句子直接出现的概率很低。

2. 基于词的子序列与依赖子序列(即词组结构及相互关系)的方法

2005年,Shotaro Matsumoto等人提出了一种提取高频词序列和高频句子结构做为特征向量以进行情感分析的机器学习的方法:

第一步,通过Prefixspan(一个开源的api)挖掘所有高频词的子序列。越多的句子中包含一个词序列,这个词序列被赋予的频率就越高,而高于预设阈值的词语就会被采用。Prefixspan从单字词开始,每次迭代新增一个字的宽度,直到当前语句里的所有词组都被遍历。

第二步,通过FREQT挖掘所有的高频句子结构。越多的句子中包含某个句子结构,这个句子结构被赋予的频率就越高。换句话说,FREQT与PrefixSpan使用相同的方式提取一个句子里所有可能的子句结构的依赖关系。

作为评测,这一方法(使用16种特性组合)被应用于两组影评的分析,这两组影评与Pang-Lee在2002年试验时采用的一样。在分析中,基于“单词+双词词组+词干依赖关系”的特征模版组合对于两个影评都是最优方案。而通过使用支持向量机(SVM),第一个影评的准确率从Pang—Lee(2002)达到的82.9%(一元模型算法)提升到了88.3%,第二个评论的准确率从87.1%(Pang-Lee,一元模型算法)提升为93.7%。

更高的精度证明了这些基于统计方法的特征提取的可行性和重要性。与其它方法相比,使用高频词或依赖子序列子句依赖关系特征的方式具有显著的优势。特征本身可能会包含复杂的句式信息,如双重否定。而这种方法把我们从解析复杂的句子结构的工作中解放了出来。而解析复杂的句式结构可能在相当长的时间里,还将会一直是一个难以解决的问题。

这种基于词语出现模式的特征本身就包含了句子结构的信息,因此给了我们征服复杂句式的可能性。如今,包括优捷信达科技在内的许多研究机构及其人员正在使用类似的方法来应对复杂的句式结构。一个例子是Shilpa Arora, Elijah Mayfield, Carolyn Penstein-Rosé and Eric Nyberg 2010年开发的一个用以挖掘具有代表性话题层面子序列的子图挖掘方法,这个方法通过结合初始特征,可以逐步生成新的更复杂的复合特征。

 
Copyright © 2009 Eucita Technologies Co.,Ltd. All Rights Reserved   |  Powered by LifeType