天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 論文百科 > 書評論文 >

基于信息分類的網(wǎng)絡(luò)書評多文檔自動文摘研究

發(fā)布時間:2017-09-13 13:09

  本文關(guān)鍵詞:基于信息分類的網(wǎng)絡(luò)書評多文檔自動文摘研究


  更多相關(guān)文章: 文本挖掘 意見挖掘 多文檔自動文摘 網(wǎng)絡(luò)書評


【摘要】:網(wǎng)絡(luò)書店上圖書的評論也是一種商品評價文本,這種文本不具有非常規(guī)范的模式和嚴謹?shù)钠陆Y(jié)構(gòu),使用的語言也比較自由,并且評價的內(nèi)容主觀性較大,因而不同于其他實體商品的評論內(nèi)容。由于這些特殊性,使得針對網(wǎng)上書評文本的文摘方法研究具有一定的前沿性。本文就是面向網(wǎng)上書評這種文本進行文本挖掘和情感分類,以建立一種面向網(wǎng)上書評這種主觀性文本的多文檔自動文摘方法,幫助其他讀者做出是否購買或閱讀圖書的判斷。 本文的研究工作包括以下幾個方面: (1)首先對書評這種文本進行內(nèi)容分析,從定量和定性兩個方面分析書評這種文本的語言特點、語言模式和內(nèi)容構(gòu)成。再對用戶進行調(diào)研,讓讀者對隨機選取的書評進行手動的文摘撰寫,經(jīng)過統(tǒng)計可以看出,書籍內(nèi)容信息、情感態(tài)度信息、適用讀者信息這三類信息在書評中具有普遍性,讀者們更愿意從這三方面對一本圖書發(fā)表評論。從而本研究建立了包含書籍內(nèi)容、情感態(tài)度、適用讀者這三類信息的文摘基本框架。 (2)基于構(gòu)建的自動文摘框架,擬定文摘方法。包括文本預(yù)處理,對原始文檔進行分句、分詞、析出詞元、詞性標注。建立句子分類器,采用機器學(xué)習(xí)方法將書評中的句子進行分類,分兩種情況進行試驗:單一標簽分類和多標簽分類,實驗結(jié)果表明多標簽分類要優(yōu)于單一標簽分類。 (3)改變特征詞集合,對多標簽分類實驗進行改進,實驗結(jié)果表明,特征詞集合中只選擇名詞和動詞的高頻詞可以提高適用讀者類句子的分類結(jié)果;將情感詞作為一個獨立的特征向量可以提高情感態(tài)度類句子的分類效果。 (4)通過分析詞組的構(gòu)詞模式、建立線索詞表等方法,抽取反映相應(yīng)類別的關(guān)鍵詞組或句子,形成文摘組成部分。在意見挖掘上,本文摘方法利用Sentiwordnet3.0詞典辨析句子的情感傾向,得到一本書的情感態(tài)度信息形成文摘組成部分。最終,將三類信息按照模板的格式匯總在一起,形成書評多文檔自動文摘。 (5)采用內(nèi)部評價法,通過問卷的方式,根據(jù)一些評價指標,讓用戶直接比較不同系統(tǒng)生成的文摘的質(zhì)量,為文摘做測評。通過對用戶測評結(jié)果分析可知,本研究建立的基于分類的書評文摘在寫作質(zhì)量和有用性上都有較好的表現(xiàn),本研究設(shè)計的文摘方法具有一定的可行性和適用性。
【關(guān)鍵詞】:文本挖掘 意見挖掘 多文檔自動文摘 網(wǎng)絡(luò)書評
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1
【目錄】:
  • 摘要5-7
  • ABSTRACT7-11
  • 表目錄11-12
  • 圖目錄12-13
  • 第一章 緒論13-16
  • 1.1 研究背景13-14
  • 1.2 研究目的與意義14
  • 1.3 研究方法14-15
  • 1.4 論文結(jié)構(gòu)安排15-16
  • 第二章 相關(guān)研究綜述16-28
  • 2.1 主觀性文本的意見挖掘16-21
  • 2.1.1 研究現(xiàn)狀17-20
  • 2.1.2 意見挖掘系統(tǒng)20
  • 2.1.3 主觀性文本的情感挖掘20-21
  • 2.2 多文檔自動文摘21-28
  • 2.2.1 自動文摘概述21-23
  • 2.2.2 自動文摘方法23-26
  • 2.2.3 文摘的評價方法26-28
  • 第三章 文摘方法的設(shè)計28-39
  • 3.1 書評內(nèi)容與結(jié)構(gòu)分析28-35
  • 3.1.1 書評結(jié)構(gòu)分析29-32
  • 3.1.2 內(nèi)容的定量分析32-35
  • 3.2 用戶信息需求分析35-36
  • 3.3 文摘框架的設(shè)計36-38
  • 3.4 本章小結(jié)38-39
  • 第四章 文摘方法的實現(xiàn)39-59
  • 4.1 文摘方法概述39-40
  • 4.2 書評文本預(yù)處理40-42
  • 4.3 書評信息的分類42-45
  • 4.3.1 分類算法的選擇43
  • 4.3.2 特征詞的選擇43-45
  • 4.4 分類實驗45-52
  • 4.4.1 單一標簽分類45-48
  • 4.4.2 多標簽分類48-51
  • 4.4.3 多標簽分類的改進51
  • 4.4.4 情感分類51-52
  • 4.5 文摘的呈現(xiàn)52-58
  • 4.6 本章小結(jié)58-59
  • 第五章 用戶測評59-69
  • 5.1 測評方法設(shè)計59-62
  • 5.2 測評結(jié)果分析62-68
  • 5.3 本章小結(jié)68-69
  • 第六章 結(jié)語69-72
  • 6.1 研究結(jié)論69-70
  • 6.2 進一步的研究工作70-72
  • 參考文獻72-81
  • 附錄81-91
  • 附錄1:用戶撰寫文摘81-85
  • 附錄2:書評文摘的兩篇范例85-87
  • 附錄3:用戶評價的調(diào)查問卷87-89
  • 附錄4:用戶評價調(diào)查問卷的統(tǒng)計數(shù)據(jù)89-91
  • 致謝91-92

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 龔書;瞿有利;田盛豐;;基于語義的自動文摘研究綜述[J];北京交通大學(xué)學(xué)報;2009年05期

2 葛斌;蔣林承;肖延?xùn)|;史宗麟;郭絲路;;網(wǎng)絡(luò)論壇意見領(lǐng)袖挖掘系統(tǒng)設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2011年22期

3 黃瑾娉;蘇庭波;;一種產(chǎn)品評論信息的意見挖掘技術(shù)研究[J];工業(yè)控制計算機;2011年06期

4 來亮;錢屹;;文本情感分析綜述[J];計算機光盤軟件與應(yīng)用;2012年18期

5 鄭義,黃萱菁,吳立德;文本自動綜述系統(tǒng)的研究與實現(xiàn)[J];計算機研究與發(fā)展;2003年11期

6 孫宏綱;陸余良;;中文博客主題情感句自動抽取研究[J];計算機工程與應(yīng)用;2008年20期

7 侯鋒;王傳廷;李國輝;;網(wǎng)絡(luò)意見挖掘、摘要與檢索研究綜述[J];計算機科學(xué);2009年07期

8 孫向琨;鄧偉;;結(jié)合TF-IDF的歌曲情感多標記分類[J];計算機工程;2011年19期

9 李實;葉強;李一軍;羅嗣卿;;挖掘中文網(wǎng)絡(luò)客戶評論的產(chǎn)品特征及情感傾向[J];計算機應(yīng)用研究;2010年08期

10 秦兵,劉挺,李生;多文檔自動文摘綜述[J];中文信息學(xué)報;2005年06期

,

本文編號:843881

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/kcsz/843881.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶75218***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com