中文產(chǎn)品評(píng)論的情感分析與觀點(diǎn)識(shí)別技術(shù)的研究
發(fā)布時(shí)間:2022-01-27 19:49
越來越多在線產(chǎn)品的銷售導(dǎo)致產(chǎn)品評(píng)價(jià)數(shù)量呈爆炸式增長(zhǎng),一些網(wǎng)站上的單個(gè)產(chǎn)品評(píng)價(jià)數(shù)量就能達(dá)到成百上千條。這些評(píng)價(jià)信息對(duì)潛在客戶、產(chǎn)品生產(chǎn)廠商和產(chǎn)品銷售商都非常有價(jià)值,蘊(yùn)含著巨大商機(jī)。越來越多的研究者也致力于從這些產(chǎn)品評(píng)價(jià)中分析購(gòu)買者在評(píng)論中所表達(dá)的與所購(gòu)買產(chǎn)品或產(chǎn)品特征相關(guān)的觀點(diǎn)、態(tài)度和情緒等。這樣的研究就是情感分析。它涉及到多個(gè)研究領(lǐng)域,如信息檢索、自然語(yǔ)言處理和數(shù)據(jù)挖掘等。本文的主要工作如下:(1)提出一種基于句法結(jié)構(gòu)關(guān)系對(duì)中文產(chǎn)品評(píng)論中所描述產(chǎn)品特征進(jìn)行識(shí)別的方法,通過多策略方案抽取出產(chǎn)品評(píng)論中出現(xiàn)的不同層次的產(chǎn)品特征,并完成基于產(chǎn)品特征屬性的情感分類。此項(xiàng)工作解決了情感分析和觀點(diǎn)識(shí)別中兩個(gè)方面的問題:產(chǎn)品特征的抽取和基于產(chǎn)品特征的情感方向識(shí)別。產(chǎn)品特征抽取的任務(wù)是通過計(jì)算產(chǎn)品評(píng)論中單詞的詞頻和基于句法關(guān)系的雙向傳播算法抽取產(chǎn)品候選特征,并通過特征剪枝的方式去掉了影響算法準(zhǔn)確性的冗余特征;诋a(chǎn)品特征的情感方向識(shí)別方法能有效對(duì)同一個(gè)情感詞在不同句子中的情感進(jìn)行識(shí)別,能夠考慮到相同的單詞可能在不同的句子中表達(dá)不同的觀點(diǎn),而不固定單詞的情感方向。實(shí)驗(yàn)證明,所提方法能夠獲得較高的精確度、召...
【文章來源】:山東科技大學(xué)山東省
【文章頁(yè)數(shù)】:131 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖3.1通用詞庫(kù)單詞分布情況??Fig.?3.1?Word?distribution?in?the?general?lexicon??
行下一步的非頻繁特征的抽取任務(wù)。??從三個(gè)語(yǔ)料庫(kù)中分別抽取出600條、1000條和丨900條評(píng)論對(duì)其進(jìn)行詞頻統(tǒng)計(jì),??統(tǒng)計(jì)結(jié)果如圖3.3,?3.4和3.5所示。從圖中可以看出大部分的名詞出現(xiàn)次數(shù)很少,頻??率較低,這也是中文產(chǎn)品評(píng)論的一個(gè)特點(diǎn),單詞的分布較為松散,經(jīng)常出現(xiàn)詞詞集??比重較小。在這里,根據(jù)對(duì)實(shí)驗(yàn)語(yǔ)料庫(kù)的實(shí)驗(yàn)數(shù)據(jù)的分布情況,將抽取頻繁特征的??最小閾值設(shè)置為0.1?%。??t?—hotel??1500-?\?laptop??I?book??1250?-琴'??\??1000?-??=750?-?^???\??,0-??250?-?\\??〇-?m?■???■ ̄—■??0.1?0.2?0.3?0.4?0.5??^%)??圖3.3?600條評(píng)論名詞分布情況??Fig.3.3?Noun?distribution?in?600?reviews??38??
?0.5??n%)??圖3.5?1900條評(píng)論名詞分布情況??Fig.3.5?Noun?distribution?in?1900?reviews??為了驗(yàn)證實(shí)驗(yàn)的有效性,使用三個(gè)常用的算法有效性評(píng)價(jià)參數(shù)來對(duì)實(shí)驗(yàn)的結(jié)果??進(jìn)行驗(yàn)證,這三個(gè)參數(shù)就是精確度(P)、召回率(/〇和F-值(F)來測(cè)試實(shí)驗(yàn)??方法的性能。??a??P?=?r?(3.14)??a?+?b??a??r?=??(3.15)??a?+?c??39??
【參考文獻(xiàn)】:
期刊論文
[1]面向顧客點(diǎn)評(píng)數(shù)據(jù)的屬性層次觀點(diǎn)挖掘研究(英文)[J]. 徐學(xué)可,程學(xué)旗,譚松波,劉悅,沈華偉. 中國(guó)通信. 2013(03)
[2]基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J]. 唐慧豐,譚松波,程學(xué)旗. 中文信息學(xué)報(bào). 2007(06)
本文編號(hào):3612982
【文章來源】:山東科技大學(xué)山東省
【文章頁(yè)數(shù)】:131 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖3.1通用詞庫(kù)單詞分布情況??Fig.?3.1?Word?distribution?in?the?general?lexicon??
行下一步的非頻繁特征的抽取任務(wù)。??從三個(gè)語(yǔ)料庫(kù)中分別抽取出600條、1000條和丨900條評(píng)論對(duì)其進(jìn)行詞頻統(tǒng)計(jì),??統(tǒng)計(jì)結(jié)果如圖3.3,?3.4和3.5所示。從圖中可以看出大部分的名詞出現(xiàn)次數(shù)很少,頻??率較低,這也是中文產(chǎn)品評(píng)論的一個(gè)特點(diǎn),單詞的分布較為松散,經(jīng)常出現(xiàn)詞詞集??比重較小。在這里,根據(jù)對(duì)實(shí)驗(yàn)語(yǔ)料庫(kù)的實(shí)驗(yàn)數(shù)據(jù)的分布情況,將抽取頻繁特征的??最小閾值設(shè)置為0.1?%。??t?—hotel??1500-?\?laptop??I?book??1250?-琴'??\??1000?-??=750?-?^???\??,0-??250?-?\\??〇-?m?■???■ ̄—■??0.1?0.2?0.3?0.4?0.5??^%)??圖3.3?600條評(píng)論名詞分布情況??Fig.3.3?Noun?distribution?in?600?reviews??38??
?0.5??n%)??圖3.5?1900條評(píng)論名詞分布情況??Fig.3.5?Noun?distribution?in?1900?reviews??為了驗(yàn)證實(shí)驗(yàn)的有效性,使用三個(gè)常用的算法有效性評(píng)價(jià)參數(shù)來對(duì)實(shí)驗(yàn)的結(jié)果??進(jìn)行驗(yàn)證,這三個(gè)參數(shù)就是精確度(P)、召回率(/〇和F-值(F)來測(cè)試實(shí)驗(yàn)??方法的性能。??a??P?=?r?(3.14)??a?+?b??a??r?=??(3.15)??a?+?c??39??
【參考文獻(xiàn)】:
期刊論文
[1]面向顧客點(diǎn)評(píng)數(shù)據(jù)的屬性層次觀點(diǎn)挖掘研究(英文)[J]. 徐學(xué)可,程學(xué)旗,譚松波,劉悅,沈華偉. 中國(guó)通信. 2013(03)
[2]基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J]. 唐慧豐,譚松波,程學(xué)旗. 中文信息學(xué)報(bào). 2007(06)
本文編號(hào):3612982
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3612982.html
最近更新
教材專著