基于信息分類的網(wǎng)絡(luò)書評(píng)多文檔自動(dòng)文摘研究
本文關(guān)鍵詞:基于信息分類的網(wǎng)絡(luò)書評(píng)多文檔自動(dòng)文摘研究
更多相關(guān)文章: 文本挖掘 意見(jiàn)挖掘 多文檔自動(dòng)文摘 網(wǎng)絡(luò)書評(píng)
【摘要】:網(wǎng)絡(luò)書店上圖書的評(píng)論也是一種商品評(píng)價(jià)文本,這種文本不具有非常規(guī)范的模式和嚴(yán)謹(jǐn)?shù)钠陆Y(jié)構(gòu),使用的語(yǔ)言也比較自由,并且評(píng)價(jià)的內(nèi)容主觀性較大,因而不同于其他實(shí)體商品的評(píng)論內(nèi)容。由于這些特殊性,使得針對(duì)網(wǎng)上書評(píng)文本的文摘方法研究具有一定的前沿性。本文就是面向網(wǎng)上書評(píng)這種文本進(jìn)行文本挖掘和情感分類,以建立一種面向網(wǎng)上書評(píng)這種主觀性文本的多文檔自動(dòng)文摘方法,幫助其他讀者做出是否購(gòu)買或閱讀圖書的判斷。 本文的研究工作包括以下幾個(gè)方面: (1)首先對(duì)書評(píng)這種文本進(jìn)行內(nèi)容分析,從定量和定性兩個(gè)方面分析書評(píng)這種文本的語(yǔ)言特點(diǎn)、語(yǔ)言模式和內(nèi)容構(gòu)成。再對(duì)用戶進(jìn)行調(diào)研,讓讀者對(duì)隨機(jī)選取的書評(píng)進(jìn)行手動(dòng)的文摘撰寫,經(jīng)過(guò)統(tǒng)計(jì)可以看出,書籍內(nèi)容信息、情感態(tài)度信息、適用讀者信息這三類信息在書評(píng)中具有普遍性,讀者們更愿意從這三方面對(duì)一本圖書發(fā)表評(píng)論。從而本研究建立了包含書籍內(nèi)容、情感態(tài)度、適用讀者這三類信息的文摘基本框架。 (2)基于構(gòu)建的自動(dòng)文摘框架,擬定文摘方法。包括文本預(yù)處理,對(duì)原始文檔進(jìn)行分句、分詞、析出詞元、詞性標(biāo)注。建立句子分類器,采用機(jī)器學(xué)習(xí)方法將書評(píng)中的句子進(jìn)行分類,分兩種情況進(jìn)行試驗(yàn):?jiǎn)我粯?biāo)簽分類和多標(biāo)簽分類,實(shí)驗(yàn)結(jié)果表明多標(biāo)簽分類要優(yōu)于單一標(biāo)簽分類。 (3)改變特征詞集合,對(duì)多標(biāo)簽分類實(shí)驗(yàn)進(jìn)行改進(jìn),實(shí)驗(yàn)結(jié)果表明,特征詞集合中只選擇名詞和動(dòng)詞的高頻詞可以提高適用讀者類句子的分類結(jié)果;將情感詞作為一個(gè)獨(dú)立的特征向量可以提高情感態(tài)度類句子的分類效果。 (4)通過(guò)分析詞組的構(gòu)詞模式、建立線索詞表等方法,抽取反映相應(yīng)類別的關(guān)鍵詞組或句子,形成文摘組成部分。在意見(jiàn)挖掘上,本文摘方法利用Sentiwordnet3.0詞典辨析句子的情感傾向,得到一本書的情感態(tài)度信息形成文摘組成部分。最終,將三類信息按照模板的格式匯總在一起,形成書評(píng)多文檔自動(dòng)文摘。 (5)采用內(nèi)部評(píng)價(jià)法,通過(guò)問(wèn)卷的方式,根據(jù)一些評(píng)價(jià)指標(biāo),讓用戶直接比較不同系統(tǒng)生成的文摘的質(zhì)量,為文摘做測(cè)評(píng)。通過(guò)對(duì)用戶測(cè)評(píng)結(jié)果分析可知,本研究建立的基于分類的書評(píng)文摘在寫作質(zhì)量和有用性上都有較好的表現(xiàn),本研究設(shè)計(jì)的文摘方法具有一定的可行性和適用性。
【關(guān)鍵詞】:文本挖掘 意見(jiàn)挖掘 多文檔自動(dòng)文摘 網(wǎng)絡(luò)書評(píng)
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.1
【目錄】:
- 摘要5-7
- ABSTRACT7-11
- 表目錄11-12
- 圖目錄12-13
- 第一章 緒論13-16
- 1.1 研究背景13-14
- 1.2 研究目的與意義14
- 1.3 研究方法14-15
- 1.4 論文結(jié)構(gòu)安排15-16
- 第二章 相關(guān)研究綜述16-28
- 2.1 主觀性文本的意見(jiàn)挖掘16-21
- 2.1.1 研究現(xiàn)狀17-20
- 2.1.2 意見(jiàn)挖掘系統(tǒng)20
- 2.1.3 主觀性文本的情感挖掘20-21
- 2.2 多文檔自動(dòng)文摘21-28
- 2.2.1 自動(dòng)文摘概述21-23
- 2.2.2 自動(dòng)文摘方法23-26
- 2.2.3 文摘的評(píng)價(jià)方法26-28
- 第三章 文摘方法的設(shè)計(jì)28-39
- 3.1 書評(píng)內(nèi)容與結(jié)構(gòu)分析28-35
- 3.1.1 書評(píng)結(jié)構(gòu)分析29-32
- 3.1.2 內(nèi)容的定量分析32-35
- 3.2 用戶信息需求分析35-36
- 3.3 文摘框架的設(shè)計(jì)36-38
- 3.4 本章小結(jié)38-39
- 第四章 文摘方法的實(shí)現(xiàn)39-59
- 4.1 文摘方法概述39-40
- 4.2 書評(píng)文本預(yù)處理40-42
- 4.3 書評(píng)信息的分類42-45
- 4.3.1 分類算法的選擇43
- 4.3.2 特征詞的選擇43-45
- 4.4 分類實(shí)驗(yàn)45-52
- 4.4.1 單一標(biāo)簽分類45-48
- 4.4.2 多標(biāo)簽分類48-51
- 4.4.3 多標(biāo)簽分類的改進(jìn)51
- 4.4.4 情感分類51-52
- 4.5 文摘的呈現(xiàn)52-58
- 4.6 本章小結(jié)58-59
- 第五章 用戶測(cè)評(píng)59-69
- 5.1 測(cè)評(píng)方法設(shè)計(jì)59-62
- 5.2 測(cè)評(píng)結(jié)果分析62-68
- 5.3 本章小結(jié)68-69
- 第六章 結(jié)語(yǔ)69-72
- 6.1 研究結(jié)論69-70
- 6.2 進(jìn)一步的研究工作70-72
- 參考文獻(xiàn)72-81
- 附錄81-91
- 附錄1:用戶撰寫文摘81-85
- 附錄2:書評(píng)文摘的兩篇范例85-87
- 附錄3:用戶評(píng)價(jià)的調(diào)查問(wèn)卷87-89
- 附錄4:用戶評(píng)價(jià)調(diào)查問(wèn)卷的統(tǒng)計(jì)數(shù)據(jù)89-91
- 致謝91-92
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 龔書;瞿有利;田盛豐;;基于語(yǔ)義的自動(dòng)文摘研究綜述[J];北京交通大學(xué)學(xué)報(bào);2009年05期
2 葛斌;蔣林承;肖延?xùn)|;史宗麟;郭絲路;;網(wǎng)絡(luò)論壇意見(jiàn)領(lǐng)袖挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2011年22期
3 黃瑾娉;蘇庭波;;一種產(chǎn)品評(píng)論信息的意見(jiàn)挖掘技術(shù)研究[J];工業(yè)控制計(jì)算機(jī);2011年06期
4 來(lái)亮;錢屹;;文本情感分析綜述[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年18期
5 鄭義,黃萱菁,吳立德;文本自動(dòng)綜述系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)研究與發(fā)展;2003年11期
6 孫宏綱;陸余良;;中文博客主題情感句自動(dòng)抽取研究[J];計(jì)算機(jī)工程與應(yīng)用;2008年20期
7 侯鋒;王傳廷;李國(guó)輝;;網(wǎng)絡(luò)意見(jiàn)挖掘、摘要與檢索研究綜述[J];計(jì)算機(jī)科學(xué);2009年07期
8 孫向琨;鄧偉;;結(jié)合TF-IDF的歌曲情感多標(biāo)記分類[J];計(jì)算機(jī)工程;2011年19期
9 李實(shí);葉強(qiáng);李一軍;羅嗣卿;;挖掘中文網(wǎng)絡(luò)客戶評(píng)論的產(chǎn)品特征及情感傾向[J];計(jì)算機(jī)應(yīng)用研究;2010年08期
10 秦兵,劉挺,李生;多文檔自動(dòng)文摘綜述[J];中文信息學(xué)報(bào);2005年06期
,本文編號(hào):843881
本文鏈接:http://sikaile.net/wenshubaike/kcsz/843881.html