中文在線評論的產(chǎn)品特征與觀點(diǎn)識別:跨領(lǐng)域的比較研究
本文選題:在線評論 切入點(diǎn):中文語境 出處:《管理工程學(xué)報》2017年04期
【摘要】:產(chǎn)品特征及觀點(diǎn)的識別是細(xì)粒度情感分析的重要任務(wù)。但是,現(xiàn)有識別算法對中文語境下不同評論領(lǐng)域的適應(yīng)性尚無定論,算法的魯棒性也不理想,難以實(shí)現(xiàn)跨領(lǐng)域的算法移植。為此,選取詞頻統(tǒng)計(jì)方法、規(guī)則匹配、關(guān)聯(lián)規(guī)則挖掘、具有句法格式的關(guān)聯(lián)規(guī)則、CRF和SVM等6種代表性的識別算法,結(jié)合中文在線評論的語言特點(diǎn),對上述算法引入到中文評論的文本分析中,根據(jù)準(zhǔn)確率、召回率和F值指標(biāo),分析比較統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法在產(chǎn)品特征及觀點(diǎn)識別上的性能。選擇數(shù)碼相機(jī)評論、化妝品評論、書評、酒店評論、影評、手機(jī)評論和餐廳評論7類語料3646條評論,分別采用6種算法進(jìn)行產(chǎn)品特征和觀點(diǎn)的抽取。實(shí)驗(yàn)表明,不同領(lǐng)域下的特征抽取難度是存在差異的;不同算法適應(yīng)于不同領(lǐng)域;評論的文本長度對識別準(zhǔn)確率和召回率有顯著影響;另外,總體上機(jī)器學(xué)習(xí)的算法性能顯著高于統(tǒng)計(jì)學(xué)方法。
[Abstract]:Recognition of product features and viewpoints is an important task in fine-grained emotional analysis. However, there is no conclusion on the adaptability of existing recognition algorithms to different comment areas in Chinese context, nor is the robustness of the algorithms ideal. It is difficult to realize cross-domain algorithm transplantation. Therefore, six representative recognition algorithms, such as word frequency statistic method, rule matching, association rule mining, association rule recognition algorithm with syntactic format and SVM, are selected, and combined with the language characteristics of Chinese online comment. The algorithm is introduced into the text analysis of Chinese comments. According to the accuracy rate, recall rate and F value index, the performance of statistical method and machine learning method in product feature and viewpoint recognition is analyzed and compared. Cosmetic reviews, book reviews, hotel reviews, film reviews, mobile phone reviews and restaurant reviews of seven corpus 3646 comments, using 6 algorithms to extract product features and views. The difficulty of feature extraction in different fields is different; different algorithms are suitable for different fields; the length of text of comments has a significant impact on the recognition accuracy and recall rate; in addition, Overall, the performance of machine learning algorithms is significantly higher than that of statistical methods.
【作者單位】: 華僑大學(xué)工商管理學(xué)院;同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院;
【基金】:國家自然科學(xué)基金資助項(xiàng)目(70971099、71371144、71402121) 上海市哲學(xué)社會科學(xué)規(guī)劃課題一般項(xiàng)目(2013BGL004)
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 黃永文;何中市;伍星;;產(chǎn)品特征的層次關(guān)系獲取[J];計(jì)算機(jī)工程與應(yīng)用;2009年22期
2 韓雪婷;李煒;沈奇威;;用戶評論中產(chǎn)品特征的抽取及聚類[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年05期
3 程昔恩;章義來;;基于產(chǎn)品特征的協(xié)同推薦方法及其應(yīng)用[J];微計(jì)算機(jī)信息;2009年18期
4 張鵬;朱征宇;李存青;曾麗芳;陳燁;徐凱;常紅要;;意見挖掘中產(chǎn)品特征的層次提取方法[J];微處理機(jī);2010年05期
5 李實(shí);李秋實(shí);;中文評論中產(chǎn)品特征挖掘的剪枝算法研究[J];計(jì)算機(jī)工程;2011年23期
6 幸紹凱;張根保;麥小鋒;譚術(shù)洋;;基于產(chǎn)品特征信息的創(chuàng)新方法研究及其應(yīng)用[J];機(jī)械制造與自動化;2006年03期
7 郗亞輝;張明;袁方;王煜;;產(chǎn)品評論挖掘研究綜述[J];山東大學(xué)學(xué)報(理學(xué)版);2011年05期
8 李實(shí);陸光;;修正中文評論挖掘中產(chǎn)品特征詞序的實(shí)驗(yàn)研究[J];科學(xué)技術(shù)與工程;2012年21期
9 李匯濱;楊雄勇;;基于用戶認(rèn)知的產(chǎn)品特征關(guān)聯(lián)設(shè)計(jì)研究[J];消費(fèi)導(dǎo)刊;2008年06期
10 劉蒙之;賈瑞雪;;“中文在線”的數(shù)字出版品牌建構(gòu)思考[J];出版廣角;2013年Z1期
相關(guān)重要報紙文章 前3條
1 本報記者 尹琨 實(shí)習(xí)生 陳也;精品閱讀“盤活”數(shù)字出版[N];中國新聞出版報;2013年
2 本報記者 喬欣;“電子書包”進(jìn)入教育實(shí)踐[N];中國文化報;2011年
3 劉超;中文在線向青海捐贈數(shù)字圖書館[N];中國知識產(chǎn)權(quán)報;2008年
相關(guān)碩士學(xué)位論文 前1條
1 張陽;基于產(chǎn)品評論的觀點(diǎn)挖掘研究[D];西北大學(xué);2014年
,本文編號:1677926
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1677926.html