中文在線評(píng)論的產(chǎn)品特征與觀點(diǎn)識(shí)別:跨領(lǐng)域的比較研究
本文選題:在線評(píng)論 切入點(diǎn):中文語(yǔ)境 出處:《管理工程學(xué)報(bào)》2017年04期
【摘要】:產(chǎn)品特征及觀點(diǎn)的識(shí)別是細(xì)粒度情感分析的重要任務(wù)。但是,現(xiàn)有識(shí)別算法對(duì)中文語(yǔ)境下不同評(píng)論領(lǐng)域的適應(yīng)性尚無(wú)定論,算法的魯棒性也不理想,難以實(shí)現(xiàn)跨領(lǐng)域的算法移植。為此,選取詞頻統(tǒng)計(jì)方法、規(guī)則匹配、關(guān)聯(lián)規(guī)則挖掘、具有句法格式的關(guān)聯(lián)規(guī)則、CRF和SVM等6種代表性的識(shí)別算法,結(jié)合中文在線評(píng)論的語(yǔ)言特點(diǎn),對(duì)上述算法引入到中文評(píng)論的文本分析中,根據(jù)準(zhǔn)確率、召回率和F值指標(biāo),分析比較統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法在產(chǎn)品特征及觀點(diǎn)識(shí)別上的性能。選擇數(shù)碼相機(jī)評(píng)論、化妝品評(píng)論、書(shū)評(píng)、酒店評(píng)論、影評(píng)、手機(jī)評(píng)論和餐廳評(píng)論7類(lèi)語(yǔ)料3646條評(píng)論,分別采用6種算法進(jìn)行產(chǎn)品特征和觀點(diǎn)的抽取。實(shí)驗(yàn)表明,不同領(lǐng)域下的特征抽取難度是存在差異的;不同算法適應(yīng)于不同領(lǐng)域;評(píng)論的文本長(zhǎng)度對(duì)識(shí)別準(zhǔn)確率和召回率有顯著影響;另外,總體上機(jī)器學(xué)習(xí)的算法性能顯著高于統(tǒng)計(jì)學(xué)方法。
[Abstract]:Recognition of product features and viewpoints is an important task in fine-grained emotional analysis. However, there is no conclusion on the adaptability of existing recognition algorithms to different comment areas in Chinese context, nor is the robustness of the algorithms ideal. It is difficult to realize cross-domain algorithm transplantation. Therefore, six representative recognition algorithms, such as word frequency statistic method, rule matching, association rule mining, association rule recognition algorithm with syntactic format and SVM, are selected, and combined with the language characteristics of Chinese online comment. The algorithm is introduced into the text analysis of Chinese comments. According to the accuracy rate, recall rate and F value index, the performance of statistical method and machine learning method in product feature and viewpoint recognition is analyzed and compared. Cosmetic reviews, book reviews, hotel reviews, film reviews, mobile phone reviews and restaurant reviews of seven corpus 3646 comments, using 6 algorithms to extract product features and views. The difficulty of feature extraction in different fields is different; different algorithms are suitable for different fields; the length of text of comments has a significant impact on the recognition accuracy and recall rate; in addition, Overall, the performance of machine learning algorithms is significantly higher than that of statistical methods.
【作者單位】: 華僑大學(xué)工商管理學(xué)院;同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(70971099、71371144、71402121) 上海市哲學(xué)社會(huì)科學(xué)規(guī)劃課題一般項(xiàng)目(2013BGL004)
【分類(lèi)號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 黃永文;何中市;伍星;;產(chǎn)品特征的層次關(guān)系獲取[J];計(jì)算機(jī)工程與應(yīng)用;2009年22期
2 韓雪婷;李煒;沈奇威;;用戶評(píng)論中產(chǎn)品特征的抽取及聚類(lèi)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年05期
3 程昔恩;章義來(lái);;基于產(chǎn)品特征的協(xié)同推薦方法及其應(yīng)用[J];微計(jì)算機(jī)信息;2009年18期
4 張鵬;朱征宇;李存青;曾麗芳;陳燁;徐凱;常紅要;;意見(jiàn)挖掘中產(chǎn)品特征的層次提取方法[J];微處理機(jī);2010年05期
5 李實(shí);李秋實(shí);;中文評(píng)論中產(chǎn)品特征挖掘的剪枝算法研究[J];計(jì)算機(jī)工程;2011年23期
6 幸紹凱;張根保;麥小鋒;譚術(shù)洋;;基于產(chǎn)品特征信息的創(chuàng)新方法研究及其應(yīng)用[J];機(jī)械制造與自動(dòng)化;2006年03期
7 郗亞輝;張明;袁方;王煜;;產(chǎn)品評(píng)論挖掘研究綜述[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2011年05期
8 李實(shí);陸光;;修正中文評(píng)論挖掘中產(chǎn)品特征詞序的實(shí)驗(yàn)研究[J];科學(xué)技術(shù)與工程;2012年21期
9 李匯濱;楊雄勇;;基于用戶認(rèn)知的產(chǎn)品特征關(guān)聯(lián)設(shè)計(jì)研究[J];消費(fèi)導(dǎo)刊;2008年06期
10 劉蒙之;賈瑞雪;;“中文在線”的數(shù)字出版品牌建構(gòu)思考[J];出版廣角;2013年Z1期
相關(guān)重要報(bào)紙文章 前3條
1 本報(bào)記者 尹琨 實(shí)習(xí)生 陳也;精品閱讀“盤(pán)活”數(shù)字出版[N];中國(guó)新聞出版報(bào);2013年
2 本報(bào)記者 喬欣;“電子書(shū)包”進(jìn)入教育實(shí)踐[N];中國(guó)文化報(bào);2011年
3 劉超;中文在線向青海捐贈(zèng)數(shù)字圖書(shū)館[N];中國(guó)知識(shí)產(chǎn)權(quán)報(bào);2008年
相關(guān)碩士學(xué)位論文 前1條
1 張陽(yáng);基于產(chǎn)品評(píng)論的觀點(diǎn)挖掘研究[D];西北大學(xué);2014年
,本文編號(hào):1677926
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1677926.html