網(wǎng)站商品評(píng)論挖掘技術(shù)的研究
本文關(guān)鍵詞:網(wǎng)站商品評(píng)論挖掘技術(shù)的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)應(yīng)用的迅速發(fā)展,購物網(wǎng)站、點(diǎn)評(píng)網(wǎng)站以及各種論壇上不斷積累了越來越多的商品評(píng)論文本。在商品評(píng)論挖掘的研究中,基于方面的情感分析備受關(guān)注。從消費(fèi)者的角度來看,不同消費(fèi)者看重的方面會(huì)有所區(qū)別,基于方面的情感分析結(jié)果可以幫助他們選擇更適合自己的產(chǎn)品。從商家的角度來看,基于方面的情感分析結(jié)果可以讓商家知道其產(chǎn)品有哪些方面存在問題,可以幫助他們對(duì)產(chǎn)品進(jìn)行改進(jìn)。本文利用CRFs模型,對(duì)評(píng)論文本進(jìn)行基于方面的情感分析研究,主要包括方面與評(píng)價(jià)詞抽取、情感極性及強(qiáng)度分析、基于主題-方面的情感極性及強(qiáng)度分析結(jié)果總結(jié)三部分。關(guān)于方面與評(píng)價(jià)詞的抽取,本文提出了基于LDA和CRFs的半監(jiān)督方面詞與評(píng)價(jià)詞同步抽取方法。初始方面詞與評(píng)價(jià)詞集合從LDA主題模型的訓(xùn)練結(jié)果以及知網(wǎng)的情感詞典中獲取。在CRFs模型中,融合了統(tǒng)計(jì)特征(從LDA主題模型的訓(xùn)練結(jié)果中得到)、語義特征(詞、詞性、語氣詞、程度詞、詞之間的前后關(guān)系)以及方面與評(píng)價(jià)詞的共現(xiàn)等特征,最終得到方面詞抽取的F1值為71.7%,評(píng)價(jià)詞抽取的F1值為55.3%。和有監(jiān)督學(xué)習(xí)相比,本文的半監(jiān)督方法能很大程度上減少方面詞和評(píng)價(jià)詞標(biāo)注的工作量。因?yàn)槭前氡O(jiān)督,該方法還具有一定的跨領(lǐng)域性,如果應(yīng)用到其他領(lǐng)域,需要做的額外工作很少。關(guān)于情感極性分類及強(qiáng)度分析,本文利用層疊CRFs模型,融合詞、詞性、語氣詞、程度詞、方面和評(píng)價(jià)詞的共現(xiàn)等特征,在情感句識(shí)別、情感極性分類和情感強(qiáng)度分析上得到的F1值分別為86.3%、77.2%、70.7%。關(guān)于意見總結(jié),本文提出了基于主題-方面的情感極性及強(qiáng)度分析結(jié)果總結(jié)方法,并實(shí)現(xiàn)了一個(gè)評(píng)論挖掘系統(tǒng),對(duì)挖掘效果進(jìn)行了直觀的展示。
【關(guān)鍵詞】:商品評(píng)論 方面抽取 情感分析 條件隨機(jī)場(chǎng) 主題模型
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1;F724.6
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-12
- 1 引言12-22
- 1.1 研究背景和選題意義12-13
- 1.2 研究現(xiàn)狀13-20
- 1.2.1 方面抽取研究現(xiàn)狀13-15
- 1.2.2 評(píng)價(jià)詞抽取研究現(xiàn)狀15-16
- 1.2.3 主觀句識(shí)別研究現(xiàn)狀16
- 1.2.4 文本情感極性及強(qiáng)度分析研究現(xiàn)狀16-19
- 1.2.5 評(píng)論挖掘系統(tǒng)構(gòu)建研究現(xiàn)狀19-20
- 1.3 論文主要工作20
- 1.4 論文組織結(jié)構(gòu)20-22
- 2 相關(guān)基礎(chǔ)知識(shí)22-32
- 2.1 評(píng)論挖掘的一般流程22-23
- 2.2 常用模型介紹23-31
- 2.2.1 向量空間模型23-24
- 2.2.2 主題模型24-25
- 2.2.3 條件隨機(jī)場(chǎng)模型25-31
- 2.3 文本分類性能評(píng)價(jià)31
- 2.4 本章小結(jié)31-32
- 3 方面與評(píng)價(jià)詞抽取32-46
- 3.1 抽取對(duì)象的定義與說明32-33
- 3.2 半監(jiān)督CRFs迭代抽取方面和評(píng)價(jià)詞33-38
- 3.2.1 LDA主題模型的建模33-34
- 3.2.2 獲取初始方面及評(píng)價(jià)詞集合34-35
- 3.2.3 迭代抽取流程35-36
- 3.2.4 CRFs特征的選取36-37
- 3.2.5 CRFs特征模板的設(shè)計(jì)37-38
- 3.3 實(shí)驗(yàn)及結(jié)果分析38-45
- 3.3.1 實(shí)驗(yàn)環(huán)境、工具及語料說明38-39
- 3.3.2 文本標(biāo)注及統(tǒng)計(jì)39
- 3.3.3 實(shí)驗(yàn)過程39-42
- 3.3.4 實(shí)驗(yàn)結(jié)果及分析42-45
- 3.4 本章小結(jié)45-46
- 4 情感極性及強(qiáng)度分析46-62
- 4.1 評(píng)論文本基于標(biāo)點(diǎn)的切分和基于方面的合并47-48
- 4.2 情感句識(shí)別48-50
- 4.2.1 特征選取48-49
- 4.2.2 特征模板的設(shè)計(jì)49-50
- 4.3 褒貶極性分類50-51
- 4.3.1 特征選取50-51
- 4.3.2 特征模板的設(shè)計(jì)51
- 4.4 褒貶強(qiáng)度分類51-53
- 4.4.1 特征選取51-53
- 4.4.2 特征模板的設(shè)計(jì)53
- 4.5 情感極性及強(qiáng)度分析實(shí)驗(yàn)53-61
- 4.5.1 準(zhǔn)備工作53-54
- 4.5.2 情感句識(shí)別實(shí)驗(yàn)54-56
- 4.5.3 褒貶極性分類實(shí)驗(yàn)56-58
- 4.5.4 褒貶強(qiáng)度分類實(shí)驗(yàn)58-61
- 4.6 本章小結(jié)61-62
- 5 基于主題-方面的商品評(píng)論挖掘系統(tǒng)的構(gòu)建62-68
- 5.1 基于主題-方面的意見總結(jié)62-64
- 5.1.1 將短評(píng)論歸類到主題62-63
- 5.1.2 方面的合并與各主題及整體打分63-64
- 5.2 商品評(píng)論挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)64-67
- 5.2.1 商品評(píng)論的存儲(chǔ)形式64
- 5.2.2 數(shù)據(jù)處理流程64-65
- 5.2.3 挖掘結(jié)果的展示65-67
- 5.3 本章小結(jié)67-68
- 6 總結(jié)68-70
- 6.1 研究工作總結(jié)68-69
- 6.2 進(jìn)一步工作69-70
- 參考文獻(xiàn)70-73
- 作者簡(jiǎn)歷及攻讀碩士學(xué)位期間取得的研究成果73-75
- 學(xué)位論文數(shù)據(jù)集75
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 許璐蕾;;網(wǎng)絡(luò)評(píng)論中情感詞的獲取及極性判斷方法比較[J];電腦與電信;2011年01期
2 肖健;徐建;朱姝;萬纓;許亮;;基于翻譯和語義方法的情感詞挖掘研究[J];計(jì)算機(jī)工程與應(yīng)用;2011年32期
3 趙鵬;趙志偉;卓景文;;一種情感詞語義加權(quán)的句子傾向性識(shí)別方法[J];計(jì)算機(jī)工程與應(yīng)用;2011年35期
4 代大明;李壽山;李培峰;朱巧明;;基于情緒詞與情感詞協(xié)作學(xué)習(xí)的情感分類方法研究[J];計(jì)算機(jī)科學(xué);2012年12期
5 李勇敢;周學(xué)廣;孫艷;張煥國;;結(jié)合依存關(guān)聯(lián)分析和規(guī)則統(tǒng)計(jì)分析的情感詞庫構(gòu)建方法[J];武漢大學(xué)學(xué)報(bào)(理學(xué)版);2013年05期
6 彭慶喜;錢鐵云;;基于量化情感的網(wǎng)店垃圾評(píng)論檢測(cè)[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2013年11期
7 杜嘉忠;徐健;劉穎;;網(wǎng)絡(luò)商品評(píng)論的特征 情感詞本體構(gòu)建與情感分析方法研究[J];現(xiàn)代圖書情報(bào)技術(shù);2014年05期
8 張清亮;徐健;;網(wǎng)絡(luò)情感詞自動(dòng)識(shí)別方法研究[J];現(xiàn)代圖書情報(bào)技術(shù);2011年10期
9 黃俊;田生偉;禹龍;馮冠軍;;基于維吾爾語情感詞的句子情感分析[J];計(jì)算機(jī)工程;2012年09期
10 孫勁光;馬志芳;孟祥福;;基于情感詞屬性和云模型的文本情感分類方法[J];計(jì)算機(jī)工程;2013年12期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前5條
1 陳奇哲;劉全升;姚天f ;;漢語意見型語句主題與情感關(guān)系抽取的研究[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 孫慧;關(guān)毅;董喜雙;;中文情感詞傾向消歧[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
3 段秀婷;何婷婷;宋樂;;基于PMI-IR算法的Blog情感分類研究[A];第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年
4 李先斌;袁平波;俞能海;;基于局部最優(yōu)的情感標(biāo)簽圖像自動(dòng)標(biāo)注算法[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
5 王樅;涂序彥;劉嘉;;注意-情緒協(xié)調(diào)的個(gè)性化信息推薦模型[A];2006年首屆ICT大會(huì)信息、知識(shí)、智能及其轉(zhuǎn)換理論第一次高峰論壇會(huì)議論文集[C];2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前8條
1 劉全超;面向中文微博的觀點(diǎn)挖掘與傾向性分析研究[D];北京理工大學(xué);2015年
2 董喜雙;基于免疫多詞主體自治學(xué)習(xí)的情感分析研究[D];哈爾濱工業(yè)大學(xué);2013年
3 寇廣增;基于意見挖掘通用框架的情感極性強(qiáng)度模糊性研究[D];武漢大學(xué);2010年
4 楊玉珍;基于Web評(píng)論信息的傾向性分析關(guān)鍵技術(shù)研究[D];山東師范大學(xué);2014年
5 黃勝;Web評(píng)論文本的細(xì)粒度意見挖掘技術(shù)研究[D];北京理工大學(xué);2014年
6 施寒瀟;細(xì)粒度情感分析研究[D];蘇州大學(xué);2013年
7 李榮軍;中文商品評(píng)論傾向性分析研究[D];北京郵電大學(xué);2011年
8 李芳;面向中文Web評(píng)論的觀點(diǎn)挖掘關(guān)鍵技術(shù)研究[D];華中師范大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 孫博;關(guān)于情感詞的意義用法[D];遼寧大學(xué);2012年
2 王銀;中文微博情感分析方法研究[D];廣東技術(shù)師范學(xué)院;2015年
3 崔連超;互聯(lián)網(wǎng)評(píng)論文本情感分析研究[D];山東大學(xué);2015年
4 杜雪峰;藏文句子傾向性分析研究[D];中央民族大學(xué);2015年
5 孫建超;微博輿情挖掘技術(shù)的研究與應(yīng)用[D];電子科技大學(xué);2015年
6 張圣聲;基于微博平臺(tái)的產(chǎn)品評(píng)論情感分類研究[D];廣東外語外貿(mào)大學(xué);2015年
7 何天翔;基于情感詞網(wǎng)的短文本情感分類方法研究[D];西南科技大學(xué);2015年
8 丁星;基于文本傾向性分析技術(shù)的微博監(jiān)控系統(tǒng)[D];江蘇科技大學(xué);2015年
9 李茜;博客意見檢索關(guān)鍵問題研究[D];北京理工大學(xué);2015年
10 李瑞靜;漢語情感詞模糊語義的量化分析及應(yīng)用研究[D];北京理工大學(xué);2015年
本文關(guān)鍵詞:網(wǎng)站商品評(píng)論挖掘技術(shù)的研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):346033
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/346033.html