您好,欢迎来到步遥情感网。
搜索
您的当前位置:首页基于汉语组块产品特征-观点对提取与情感分析研究

基于汉语组块产品特征-观点对提取与情感分析研究

来源:步遥情感网
第34卷第10期 2017年10月 计算机应用研究 Application Research of Computers Vo1.34 No.10 0ct.2017 基于汉语组块产品特征一观点对提取与情感分析研究水 刘臣,韩林 ,李丹丹,安咏雪,霍良安 (上海理工大学管理学院,上海200093) 摘要:针对用户评论中产品特征一观点对的提取及情感分析问题进行了研究。为了提高提取及分析的准确 性,利用组块分析提取产品特征,从中寻找到频繁项集,并用逐点互信息量(PMI)对候选产品特征进行过滤,得 到产品的特征集合;利用特征与情感词在位置上的邻近关系,提取情感词并组成特征一观点对,通过点互信息方 法(SO.PMI)进行情感倾向分析。为验证该方法的有效性,以酒店评论文本为例,从中提取酒店的特征一观点对 并进行情感分析,准确率为76.68%,召回率为70.84%。实验结果表明,引入组块分析可以有效地解决商品评 论的细粒度情感分类问题。 关键词:情感分析;汉语组块分析;特征一观点对提取;点互信息方法 中图分类号:TP391 文献标志码:A 文章编号:1001—3695(2017)10—2942—04 doi:10。3969/j,issn.1001—3695.2017.10.014 Research of product feature—opinion extraction and sentiment analysis based on Chinese chunk parsing Liu Chen,Han Lin ,Li Dandan,An Yongxue,Huo Liang’an (Business School,University of Shanghai for Science&Technology,Shanghai 200093,China) Abstract:Aiming at the problem of product feature—opinion extraction and sentiment analysis,this paper used Chinese chunk parsing to extract the feature,and generated frequent sets.Then it filtered the candidate product features according to the rules of the minimmn support,frequent nouns and PMI.And then it used the adjacency relations in the position of feature and emo— tion words to extract the opinion words and generated feature—opinion.At last,it used SO—PMI to analyse the sentiment.In or— der to verify the effectiveness of this method,it used the hotel reviews,the precision rate reached 76.68%,the recall rate reached 70.84%.Experiment results show that the method can solve the problem of the fine—grained emotion classiifcation rom Chifnese reviews with good effects. Key words:sentiment analysis;Chinese chunk parsing;feature—opinion extraction;SO—PMI method 对比,这对于用户优化购买决策或者企业改进产品将起到重要 0引言 随着Web 2.0的快速发展,过去用户主要是网络信息的获 取者,现在则转变为网络信息的主要制造者,用户可以通过互 的作用。因此,判断产品某一特征的情感倾向是有必要的。 Kim等人…将评论分为主题(topic)、表达者(holder)、陈述 (claim)和情感(sentiment)四个语义成分,即表达者针对主题 给出具有某种情感的陈述。这里所说的主题就是评论中的产 品特征。产品特征是隐藏在在线评论中描述产品性能的描述 联网来获取信息和表达观点。再加上电子商务的迅速崛起,互 联网上产生了大量的产品评论信息,这些评论信息不仅对产品 的性能进行了描述,还表达了用户对于产品的各种情感倾向, 如喜、怒、哀、乐和批评、赞扬等。因此,对产品评论中的情感倾 向进行分析逐渐成为当前的研究热点。通过对互联网上产品 性信息,以便用户快速了解产品的特点,如酒店的产品特征包 括房间、服务态度、装修、价格、设施等。Hu等人 利用关联规 则实现产品特征的提取,再提取产品特征所在句子中的形容词 作为情感词。Popescu等人_3 改进了Hu等人的方法,用PMI 算法过滤停用词,然后利用句法关系和特征词来抽取情感词, 采用松弛标记法(relaxation labeling)识别情感词的情感倾向。 李实等人 结合汉语中名词性短语的表达特点实现数码类 产品的特征提取与停用词过滤。lJi等人 提出了一种加权的 多标签分类模型对在线新闻进行情感分析。伍星等人 利用 弱监督学习算法对数码相机提取产品特征。Kamal等人 通 过对评论进行语言学和语义分析,设计出了相关规则以实现对 评论信息的挖掘与分析,用户可以清晰地了解其他消费者对某 产品的情感倾向分布,从而优化其购买决策;产品的生产商和 销售商也可以了解到顾客对其产品的评价信息,从而对产品进 行改进。不同的用户对产品不同特征的关注度是有差异的,一 条评论可能涉及到产品的多个特征。 从产品的评论信息中识别出产品特征,并判断用户对不同 特征的情感倾向,不仅可以使用户更加直观地了解消费者对产 品各种特征的情感倾向,而且可以对不同产品的相同特征进行 收稿日期:2016-07—25;修回日期:2016-09-06 基金项目:国家自然科学基金资助项目(71401107,71303157) 作者简介:刘臣(1981一),男,河南南阳人,副教授,博士,主要研究方向为互联网用户行为、web数据挖掘;韩林(1992.),男(通信作者),山东 烟台人,硕士研究生,主要研究方向为机器学习(hanlinl61l@163.con);李丹丹(1991-),女,安徽阜阳人,硕士研究生,主要研究方向为复杂网络; 安咏雪(1991-),女,山东日照人,硕士研究生,主要研究方向为互联网用户行为;霍良安(1981一),男,陕西旬阳人,副教授,博士,主要研究方向为应 急管理、供应链管理. 第10期 刘 臣,等:基于汉语组块产品特征一观点对提取与情感分析研究 1.2名词性信息提取 .2943. 评论文章中产品特征一情感对的抽取。孙晓等人 提出了基 于条件随机场模型和支持向量机的层叠模型,抽取产品评论中 的产品特征和情感词。 经过汉语组块分析后,每一条产品评论都可以形成类似 “[NP房间][VP很小],[NP隔音效果][VP非常差]。”的 现有的研究通常将单一的名词作为产品特征,将形容词作 汉语块序列。根据汉语组块分析的特点,可以描述产品特征的 为情感词,该方法虽然可以有效地提取产品评论的特征一观点 成分主要为名词组块,例如:[N|P房间]和[NP隔音效果]。 对,但是产品有许多特征不仅仅是单独的名词,而是由名词组 基于以上的分析,本文主要对经过汉语组块分析的名词组 块组成的,如“服务意识”;单独的形容词也不能有效地表达用 块进行提取,将提取出的名词组块作为初始化集合,再通过提 户对产品特征的观点。本文提取产品评论中的名词组块作为 取初始化集合中的频繁项集作为候选特征集合,并进行停用词 产品特征,将动词组块作为观点词,该方法提高了特征提取和 过滤得到产品特征集合。 情感词提取的准确率。因此,本文引入汉语组块分析,利用汉 语组块分析识别名词成分,通过寻找频繁项集,利用PMI.IR方 1.3频繁项集的产生及产品特征提取 法过滤停用词,实现评论文本中产品特征的抽取;利用特征与 本文从产品评论中挖掘的产品特征通常是用户经常关注 情感词在位置上的邻接关系,提取动词组块作为情感词,并且 的产品属性,也就是说“评价对象会在评论文本中重复出现”。 采用SO—PMI方法来计算特征一观点的情感倾向。 因此,本文通过Apriori算法寻找构成频繁项集的产品特征是 合适的。本文结合支持度计数对初始化集合进行剪枝,从而提 1 基于汉语组块的产品特征提取 取出频繁项集 本文使用的语料是评论文本,因此,项集 定义为经过汉 1.1汉语组块分析 语组块分析后得到的初始化集合;事务集合 定义为从网上下 组块分析是一种句法分析,其目的是为了将句子分析从语 载的酒店评论集合。其中每一条用户评论可以标记为t (1≤ 法分析层面扩展到语义分析层面。汉语组块分析的流程主要 i≤n),因此T={t ,t ,…,t }。项集和支持度计数为Apriori算 为:首先将评论句子进行预处理,即分词、词性标注;再基于机 法的重要参数,支持度计数表示为 J 器学习的方法对汉语组块进行分析。组块分析实际上就是输 6( )=I{t IXC_t ,t ∈Tt I (2) 出一组汉语块序列,主要产生两部分信息:词界块,即将相同成 支持度是用来衡量频繁项集频繁程度的参数,因此可以使 分的词语序列划分在同一个块中,以及块成分标记(为每一个 用支持度来剪除频繁程度较低的项集。支持度可以表示为 汉语块赋予一个块成分标记)。本文采用的汉语块标记如表1 S(X,l,): V (3) 所示。 表1汉语组块成分标记集 其中: 和y为互不相交的项集(即XAY= ),N为用户评论 汉语组块成分标记 标记内容描述 词条t 的数量。 NP 名词块 通过设定最小支持度,在事务集合中找到频繁项集,采用 的最小支持度确定为1%(参考英文评论的处理方法),将得到 VP 动词块 的频繁项集作为候选产品特征。由于其中包含很多非产品特 ADJP 形容词块 征,所以还需要进行停用词过滤,才能得到真正的产品特征。 QP 数量词块 1.4 PMl—IR与停用词过滤 、 PP 介词块 CLP 量词块 通过观察产品的候选特征集合,其中的停用词主要有以下 三类:产品名称,例如“酒店”“招待所”等;人称名词,例如“同 基于SVM模型的汉语组块分析方法是将汉语组块标记的 识别作为分类问题进行处理,其需要解决的问题有三个:特征选 事”“大家”“自己”等;方位及时间代词,例如“外面…‘早上” 取、参数训练和测试。将出现在训练数据中不同位置的所有单 “晚上”等。 为了得到评论中准确的产品特征,本文采用PMI—IR方法, 词 、词性标记P和组块类型标记t作为特征,充分利用当前标 记位置的上下文信息,每一个样本 可以用12个特征来表示: 利用搜索引擎返回的页面数代替产品名称和特征共同出现的 概率。计算候选特征(feature)与产品(product)的互信息值,以 =(Wf一2 P 2, f一2,W 一1,Pf一1,tl一1, P‘, f+1,P +1, l+2,Pl+2) (1) 此来判断候选特征为产品真实特征的程度,其计算公式为 ,PMI(product,feature)=log2 hit(“product”and“f其中: 表示当前位置的词;p 表示W 的词性标记; 表示 t(“product”)hit(“feateature” ure”) (4) 当前位置往前数第n个的词;p 表示 的词性标记;tl-n表 其中:hit( )表示在搜索引擎中查询词语 返回的页面数,例 示 …的组块类型标记; …表示从当前位置往后数第/7,个 如hit(“product”)表示搜索产品名称product返回的页面数,hit 词; + 表示 的词性标记。 (“product”and“feature”)表示在搜索引擎中商品名称与候选 本文采用的工具包是由大学林智仁教授等人设计开 特征共同作为关键词搜索所返回的页面数。 发的LIBSVM。为了解决数据集的不均衡问题,本文采用一对 通过观察非产品特征及PMI值,发现大多数非产品特征 一的分类方法。核函数采用了多项式核函数,使分类器在高维 的PMI值在一8.4以上,因此本文以一8.4作为过滤阈值,对 空间具有更好的泛化能力。 产品的候选特征集合进行过滤,得到最终的产品特征集合。 例如,对于评论文本“房间很小,隔音效果非常差。”对该 文本进行分词和词性标注处理,其输出结果为“房间/NN很 2观点词的提取及情感倾向分析 tJ ̄/VA,/PU隔音/NN效果/NN非 ̄'/AD差/VA。/PU”,再 对上述进行过预处理的评论文本进行汉语组块分析,输出结果 2.1 提取情感词并构成特征一观点对 为“[NP房间][VP很小],[NP隔音效果][VP非常差]。”。 Hu等人 假定特征与情感词在评论句子中会一起出现。 ・2944・ 计算机应用研究 第34卷 在得到评论中的特征后,选取产品特征前后一定长度的字符 串,抽取特征附近的动词组块作为该特征的情感词,并与该特 准确率为63.6%。在对比实验中,本文的召回率略低于文献 [4],准确率明显高于文献[4]。因此,本文可以在保证一定召 回率的情况下得到较高的准确率。 表3提取出的产品特征 征组成特征一情感对,形如(特征,情感词)。例如,“[NP房 问][VP很小],[NP隔音效果][VP非常差]。”,提取后的 特征一观点对为(房间,很小),(隔音效果,非常差)。 2.2特征一观点对的情感倾向分析 本文通过以上方法得到产品的特征一观点对,采用s0一 PMI方法可以计算出每个特征一观点对的情感倾向,从而得到 评论中的每个产品特征用户评论的情感倾向。 Turney[t2 3提出基于情感词组的SO—PMI语义分类方法,并 定义了逐点互信息量(pointwise mutual information,PMI)来计 表4评估方法性能的列联表 算两个词 和 :之间的语义相关性。 PMI=l。g2lL l,v./2/ 2/J I (5) 其中:P( ,,W )表示 和W 同时出现的概率,P( )表示出现 的概率。 计算抽取出的词组与情感词excellent和poor的PMI,并利用 SO(semantic opinion orientation)来计算该词组的语义倾向性。 s0( ):PMI( ,“excellent”)一PMI(W,“poor”) (6) 本文采用PMI—IR技术来计算PMI,利用搜索引擎检索词 ,得到的检索结果数目为hit( ),同时检索 ,和 ,:得到的 结果数目为hit(W , ),则有 hitf W 1 PM ( 2) 。gz而 ( ) 根据式(6)(7)可以得到计算SO(W)值的公式如下: so( hra s 【 】㈦ 这样就确定了每个特征一观点对的情感倾向。如果该值 大于零,表示该特征一观点对好评,推荐该评论产品的该特征; 反之,如果该值小于零则不推荐。 3实验结果及性能及性能评价 3.1实验数据 评论语料本文使用了谭松波老师的酒店评论数据集(ht— tp://www.datatang.eom/data/l 1936/),褒贬各2 000篇,其中 褒义评论含有7 277个句子,贬义评论含有9 978个句子,选取 其中1 000个主观性句子作为实验数据集。 通过人工标注的方法得到实验数据集的产品特征集合,其 有63个产品特征,产品特征集合如表2所示。 表2人工标注的酒店产品特征 3.2实验结果 本文方法提取的酒店特征共有56个,提取出的酒店产品 特征集合如表3所示。 实验所采用的列联表如表4所示。这里真实产品特征数 即人工标注结果的特征数量,其中作为挖掘性能度量的召回率 为75.81%,准确率为83.93%;文献[4]的召回率为77.8%, 通过本文的方法共提取出特征一观点对1 685对,具体情 况如表5所示,分布情况如图1所示。准确率为76.67%,召回 率为70.84%,准确率和召回率都比较高,因此本文的方法具 有一定的有效性。 表5产品特征观点对的情感分类情况 4O0 置 看200 鲁 0 Ieature 图1褒贬评价分布情况 由图1可以看出,横坐标为不同的产品特征,纵坐标为产 品特征的数量,空白代表用户对于该特征持消极态度,黑色表 示用户对该特征持积极态度,因此,用户对于产品的评论主要 集中在八个产品特征:房间、眼务、价格、设施、早餐、服务员、环 境、卫生。用户对该酒店的各个特征普遍表示不满意,并且在 以下六个特征方面用户的好评率较高:服务人员、热水、装修、 电视、价格、走廊。实验结果表明,汉语组块分析有利于产品特 征一观点对的提取。 4结束语 本文引入汉语组块分析,首先将酒店评论进行分词和词性 标注,再结合支持向量机进行汉语组块分析,并提取名词组块 作为初始化集合;将从初始化集合中寻找到的频繁项集作为候 选产品特征集合,并用PMI—IR技术进行停用词过滤,从而得到 真正的产品特征集合;再根据产品特征与观点词的邻近关系提 取用户对产品特征的情感词,并与其特征组成特征一观点对; 利用SO—PMI算法进行特征一观点对的情感倾向分析。最终, 第10期 刘 臣,等:基于汉语组块产品特征一观点对提取与情感分析研究 机工程,2009,35(13):199—201. ・2945・ 得到酒店在各个特征的特征一观点对及好评率。该方法不仅 可以使用户更好地了解人们对酒店类产品各种特征的情感倾 向分布,并优化用户对酒店类产品的购买决策;还可以使酒店 [8]Kamal A,Abulaish M,Anwar T.Mining feature—opinion pairs and their relibiality scores from Web opinion sources[C]//Proc of the 2nd International Conference on Web Intelligence,Mining and Semantics. 2012:1-7. 更清晰地了解消费者对自己服务和设施的反馈信息,为酒店对 各种特征的改进提供了更加准确的参考。 实验结果表明,本文方法的准确率较高,同时召回率也保 持了较高的水平,说明本文的方法是有效的。本文将汉语组块 [9]孙晓,唐陈意.基于层叠模型细粒度情感要素抽取及倾向分析 [J].模式识别与人工智能,2015,28(6):531-520. [10]李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报, 2013,27(3):l一9. 分析应用到了产品特征和情感词的提取中,明显提高了提取产 品特征一观点对的准确率。但是在产品特征一观点对的情感 分析的过程中,其准确率和召回率有待提高。今后的研究方向 将对产品特征一观点对的情感分析方法进行改进,提高其准确 率和召回率。 参考文献: [1]Kim S M,Hov Y.Determining the sentiment of opinions[C]//Prc oof the 20th International Conference on Computational Linguistics. [1 1]Kudo T,Matsumoto Y.Chunking with suppotr vector machines [C]//Proc ofthe 2nd Meeting ofthe North Americn Chaapter of the Association for Computational Linguistics on Language Technologies. [S.1.]:Association for Computational Linguistics,2001:1—8. [12]Turney P D.Thumbs up or thumbs down?:semantic orientation ap— plied to unsupervised classification of reviews[C]//Proc of Meeting on Association ofr Computational Linguistics.[S.1.]:Association for Computational Linguistics,2002:417—424. [S.1.]:AssociationforComputational Linguistics,2004:1367—1374. [2]Hu Minqing,Liu Bing.Mining and summarizing customer reviews [C]//Proc of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2004:168—177. [13]李婷婷,姬东鸿.基于SVM和CRF多特征组合的微博情感分析 [J].计算机应用研究,2015,32(4):978—981. [14]蒋宗礼,金益斌.结合点评情感分析的推荐算法研究[J].计算机 应用研究,2016,33(5):l312—1314,1326. [3]Popescu A M,Etzioni O.Extracting product features and opinions from reviews[M]//Natural Language Processing and Text Mining. London:Springer,2007:9・28. [15]Ravi K,Ravi V.A survey on opinion mining and sentiment analysis: tasks,approaches and applications[J].Knowledge-Based Sys- toms,2015,89(C):14—46. [4]李实,叶强,李一军.中文网络客户评论的产品特征挖掘方法研究 [J].管理科学学报,2009,12(2):142—152. [16]Li Qiudan,Jin Zhipeng,Wang Can,et a1.Mining opinion summari— zations using convolutional neurl netaworks in Chinese mieroblogging [5]李实,李秋实.中文评论中产品特征挖掘的剪枝算法研究[j].计 算机工程,2011,37(23):43—45. [6]Li Xin,Xie Haoran,Rao Yanghui,et a1.Weighted multi-label clas— siifeation model ofr sentiment analysis of online news[C]//Proc of In— ternational Conference on Big Data and Smart Computing.2016:215— 222. systems[J].Knowledge-Based Systems,2016,107(C):289- 300. [17]尹裴,王洪伟.面向产品特征的.中文在线评论情感分类:以本体建 模为方法[J].系统管理学报,2016,25(1):103—114. [18]王洪伟,郑丽娟,尹裴,等.基于句子级情感的中文网络评论的情 感极性分类[J].管理科学学报,2013,16(9):64—74. [7]伍星,何中市,黄永文.基于弱监督学习的产品特征抽取[J].计算 (上接第2918页) 参考文献: [1]韩永峰,许旭阳,李弼程,等.基于事件抽取的网络新闻多文档自 研究[J].中文信息学报,2003,17(6):25-30,59. [13]王力,李培峰,朱巧明.一种基于LDA模型的主题句抽取方法 [J].计算机工程与应用,2013,49(2):160—164,257. [14]王伟,赵东岩,赵伟.中文新闻关键事件的主题句识别[J].北京 大学学报:自然科学版,2011,47(5):789—796. 动摘要[J].中文信息学报,2012,26(1):58-66. [2]Lahari E P,Kumar D V N S,Ubale M.A comprehensive survey on feature extraction in text summarization『J].International Journal of [15]Ji Heng,Grishman R.Refining event extraction through unsupervised cross.document inference『C]//Proc of the 46th Annual Meeting of the Association for Computational Linguistics.2008:254-262. ComputerTechnology andApplications,2014,5(1):248. [3]熊娇,王明文,李茂西,等.基于词项一句子一文档三层图模型的 多文档自动摘要[J].中文信息学报,2014,28(6):201-207. [4]钱强,庞林斌,高尚.一种基于词共现图的受限领域自动问答系统 [J].计算机应用研究,2013,30(3):841—843. [5]陈超,朱洪波,王亚强,等.中文财本中公司名简称的自动识 别[J].四川大学学报:自然科学版,2011,48(2):308—314. [16]Li Pei ̄ng,Zhou Guodong,Zhu Qiaoming,et a1.Employing compo。 sitional semantics and discourse consistency in Chinese event extrac— tion[C]//Prco 0f Joint Confeernce on Empirical Methods in Natural Language Processing and Computational Naturl Langauage Learning. Stroudsburg:Association for Computational Linguistics.2012:1006— 1016. [6]王宁,葛瑞芳,苑春法,等.中文金融新闻中公司名的-/7, ̄,1[J].中 文信息学报,2002,16(2):1—6. [17]李培峰,周国栋,朱巧明.基于语义的中文事件触发词抽取联合模 型[J].软件学报,2016,27(2):280—294. [18]Chen Zheng,Ji Heng:Can one lngauage bootstrap the other:a case study on event extraction[C]//Prc of oWorkshop on Semi—Supervised earniLng for Naturl Langauage Processing.Stroudsburg:Association for Computational Linguistics,2009:66—74. [7]张占英,王中立.中文文本中公司名简称的识别[J].许昌学院学 报.2003,22(2):99—101. [8]ACE(automatic content extraction)Chinese annotation uigdelines for events,version 5.5.1[R/OL].(2005—07—01).http://www.idc.up。 enn.edu/Projeets/ACE/. [19]Ji Heng.Cross・lingual predicate cluster acquisition to improve bilin— gual event extraciton by inductive learning[C]//Proc of Workshop on Unsupervised and Minimally Supervised Learning of Lexical Seman— [9]赵妍妍,秦兵,车万翔,等.中文事件抽取技术研究[J].中文信息 学报,2008,22(1):3—8. tics.2009:27—35. [1O]许旭阳,韩永峰,宋文政.事件抽取技术的回顾与展望[J].信息 工程大学学报,2011,12(1):113—118. [11]丁效,宋凡,秦兵,等.音乐领域典型事件抽取方法研究[J].中文 信息学报,2011,25(2):15・20. [12]吴平博,陈群秀,马亮.基于事件框架的事件相关文档的智能检索 [20]Qin Bing,Zhao Yanyan,Ding Xiao,et a1. Event type recognition based on tirgger expansion[J].Tsinghua Science and Technolo・ gY,2010,15(3):251-258. [21]赵军,刘康,周光有,等.开放式文本信息抽取[J].中文信息学 报.2011。25(6):98一l10. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- obuygou.com 版权所有 赣ICP备2024042798号-5

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务