天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

數(shù)據(jù)挖掘方法在評(píng)論分類中的應(yīng)用研究

發(fā)布時(shí)間:2017-09-06 14:02

  本文關(guān)鍵詞:數(shù)據(jù)挖掘方法在評(píng)論分類中的應(yīng)用研究


  更多相關(guān)文章: 情感分類 價(jià)值分類 語義傾向 點(diǎn)互信息 最大熵模型 指代識(shí)別


【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展和普及,網(wǎng)絡(luò)已經(jīng)成為人們生活不可或缺的一部分。人們通過互聯(lián)網(wǎng)看書、視頻、學(xué)習(xí)、討論、購物時(shí)常常會(huì)在相關(guān)頁面上留下關(guān)于該頁面主題的評(píng)論。特別地,消費(fèi)者在電商網(wǎng)站上進(jìn)行網(wǎng)購之后都會(huì)留下關(guān)于購買產(chǎn)品的評(píng)論信息。目前,隨著網(wǎng)絡(luò)上的評(píng)論信息劇增,評(píng)論數(shù)據(jù)的有效利用問題已經(jīng)越來越收到人們的關(guān)注。面對(duì)大量的評(píng)論數(shù)據(jù),如何從中挖掘到有用的信息對(duì)網(wǎng)站用戶、服務(wù)商、生產(chǎn)商都有著重要的意義。然而頁面上的評(píng)論信息屬于非結(jié)構(gòu)化數(shù)據(jù),也就是代表評(píng)論數(shù)據(jù)本身并沒有一個(gè)預(yù)定義的數(shù)據(jù)模型。由于評(píng)論數(shù)據(jù)的不規(guī)則性和不明確性,使得其相對(duì)于按字段存儲(chǔ)在數(shù)據(jù)庫的數(shù)據(jù)難以用傳統(tǒng)的程序進(jìn)行分析、統(tǒng)計(jì)或歸納。如何從海量的評(píng)論數(shù)據(jù)中提取有用的信息以方便用戶、服務(wù)商和生產(chǎn)商有效、快捷地利用是本文主要探討的問題。本文的主要任務(wù)包括對(duì)評(píng)論數(shù)據(jù)進(jìn)行的情感分類和進(jìn)行基于價(jià)值分類。對(duì)于評(píng)論的情感分類,文本提出一種基于情感詞抽取和點(diǎn)互信息的非監(jiān)督學(xué)習(xí)方法。其中,對(duì)句子進(jìn)行分詞、詞性識(shí)別并從中抽取情感詞,減少了分類時(shí)噪聲的引入。通過計(jì)算情感詞和范例詞的PMI值得出一個(gè)評(píng)論文檔的情感傾向。對(duì)于用戶而言,評(píng)論數(shù)據(jù)情感傾向并不能滿足評(píng)論閱讀者的需求,因此提出一種基于引入指向特征的最大熵模型方法對(duì)評(píng)論數(shù)據(jù)進(jìn)行價(jià)值分類。該方法認(rèn)為評(píng)論數(shù)據(jù)中有價(jià)值的信息除了與文本長度、是否存在描述性詞語等特征相關(guān)還與評(píng)論文本是否指向主題相關(guān)。提出一種基于IP樹的文本指向識(shí)別方法,對(duì)識(shí)別結(jié)果作為特征引入到模型訓(xùn)練中,實(shí)驗(yàn)證明該方法構(gòu)造的分類器具有較好的分類效果。
【關(guān)鍵詞】:情感分類 價(jià)值分類 語義傾向 點(diǎn)互信息 最大熵模型 指代識(shí)別
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要4-5
  • ABSTRACT5-11
  • 第一章 緒論11-15
  • 1.1 研究背景及意義11-12
  • 1.2 國內(nèi)外研究現(xiàn)狀12-14
  • 1.3 論文結(jié)構(gòu)14-15
  • 第二章 評(píng)論分類相關(guān)技術(shù)背景介紹15-23
  • 2.1 文本分類相關(guān)概念介紹15-16
  • 2.2 評(píng)論分類的研究方向介紹16-18
  • 2.2.1 情感分類16-17
  • 2.2.2 價(jià)值分類17-18
  • 2.3 基于機(jī)器學(xué)習(xí)的評(píng)論分類18-19
  • 2.4 最大熵模型19-21
  • 2.5 語義傾向方法在評(píng)論分類中的應(yīng)用21-23
  • 第三章 基于語義傾向的評(píng)論情感分類23-33
  • 3.1 評(píng)論的情感分類流程介紹23-24
  • 3.2 基于PMI-IR的語義傾向24-26
  • 3.3 評(píng)論文本爬取26-29
  • 3.3.1 爬蟲系統(tǒng)流程介紹26-27
  • 3.3.2 抓取模塊設(shè)計(jì)27-28
  • 3.3.3 基于DOM的文本抽取模塊設(shè)計(jì)28-29
  • 3.4 實(shí)驗(yàn)流程與結(jié)果分析29-33
  • 3.4.1 評(píng)論文本的語義傾向分類29-30
  • 3.4.2 文本分類指標(biāo)30-31
  • 3.4.3 實(shí)驗(yàn)流程與結(jié)果分析31-33
  • 第四章 基于機(jī)器學(xué)習(xí)的評(píng)論價(jià)值分類33-43
  • 4.1 預(yù)處理33-35
  • 4.2 基于二值特征最大熵文本分類35-37
  • 4.3 評(píng)論文本的價(jià)值分類方法37-41
  • 4.3.1 建立特征資源庫37-38
  • 4.3.2 基于句法分析的評(píng)論對(duì)象識(shí)別38-40
  • 4.3.3 二值特征函數(shù)的構(gòu)建40-41
  • 4.4 實(shí)驗(yàn)結(jié)果與分析41-43
  • 第五章 總結(jié)與展望43-45
  • 總結(jié)43-44
  • 展望44-45
  • 參考文獻(xiàn)45-49
  • 攻讀學(xué)位期間發(fā)表的論文49-51
  • 致謝51

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 徐揚(yáng);;基于最大熵模型的漢語隱喻現(xiàn)象識(shí)別[J];計(jì)算機(jī)工程與科學(xué);2007年04期

2 王素格;楊軍玲;張武;;基于最大熵模型與投票法的漢語動(dòng)詞與動(dòng)詞搭配識(shí)別[J];小型微型計(jì)算機(jī)系統(tǒng);2007年07期

3 李濟(jì)洪;王瑞波;王凱華;李國臣;;基于最大熵模型的中文閱讀理解問題回答技術(shù)研究[J];中文信息學(xué)報(bào);2008年06期

4 謝法奎;張全;;基于最大熵模型的語義塊切分[J];計(jì)算機(jī)工程與應(yīng)用;2009年26期

5 樊娜;蔡皖東;趙煜;;基于最大熵模型的觀點(diǎn)句主觀關(guān)系提取[J];計(jì)算機(jī)工程;2010年02期

6 葛斌;封孝生;譚文堂;肖衛(wèi)東;;基于多層最大熵模型的句子主干分析[J];計(jì)算機(jī)科學(xué);2010年12期

7 方明;劉培玉;;基于最大熵模型的評(píng)價(jià)搭配識(shí)別[J];計(jì)算機(jī)應(yīng)用研究;2011年10期

8 陸銘;康雨潔;俞能海;;簡約語法規(guī)則和最大熵模型相結(jié)合的混合實(shí)體識(shí)別[J];小型微型計(jì)算機(jī)系統(tǒng);2012年03期

9 董曉凱;莫蘇寧;李博;陸偉;;基于最大熵模型下復(fù)合特征模板的產(chǎn)品屬性挖掘研究[J];蘇州科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2012年01期

10 高燕;張維維;張艷紅;謝燕萍;蘇凝;;最大熵模型在最長地點(diǎn)實(shí)體識(shí)別中的應(yīng)用[J];廣東石油化工學(xué)院學(xué)報(bào);2012年04期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條

1 趙偉;趙法興;王東海;韓達(dá)奇;;一種基于改進(jìn)的最大熵模型的漢語詞性自動(dòng)標(biāo)注的新方法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年

2 王素格;張武;李德玉;楊軍玲;彭其偉;;基于最大熵模型的漢語動(dòng)詞與動(dòng)詞搭配識(shí)別[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

3 林紅;胡欣;;最大熵模型的應(yīng)用[A];新世紀(jì)氣象科技創(chuàng)新與大氣科學(xué)發(fā)展——中國氣象學(xué)會(huì)2003年年會(huì)“地球氣候和環(huán)境系統(tǒng)的探測與研究”分會(huì)論文集[C];2003年

4 李濟(jì)洪;王凱華;王瑞波;;基于最大熵模型的中文閱讀理解技術(shù)研究[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年

5 李軍輝;朱巧明;李培峰;;一個(gè)基于最大熵模型的文本分類方法[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

6 谷波;劉開瑛;;決策樹模型和最大熵模型在文本分類中的比較研究[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

7 朱江濤;趙麗奎;蔡?hào)|風(fēng);;基于最大熵模型的中文姓名識(shí)別方法初探[A];第二屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2004年

8 劉方舟;施勤;陶建華;;基于最大熵模型的多音字消歧[A];第九屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2007年

9 王凱華;李濟(jì)洪;張國華;王瑞波;;基于最大熵模型的中文閱讀理解問答系統(tǒng)技術(shù)研究[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

10 游斕;周雅倩;黃萱菁;吳立德;;基于最大熵模型的QA系統(tǒng)置信度評(píng)分算法[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 孫承杰;基于判別式模型的生物醫(yī)學(xué)文本挖掘相關(guān)問題研究[D];哈爾濱工業(yè)大學(xué);2008年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 周明震;最大熵模型的T-S模糊化[D];遼寧科技大學(xué);2016年

2 李杰駿;數(shù)據(jù)挖掘方法在評(píng)論分類中的應(yīng)用研究[D];廣東工業(yè)大學(xué);2016年

3 王煦祥;面向問答的問句關(guān)鍵詞提取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2016年

4 楊振磊;基于最大熵模型的智能提問系統(tǒng)研究[D];天津大學(xué);2008年

5 賈麗潔;基于最大熵模型的分詞技術(shù)研究[D];山東師范大學(xué);2007年

6 劉大保;基于最大熵的智能提問系統(tǒng)及其在審計(jì)中的應(yīng)用[D];哈爾濱工程大學(xué);2013年

7 付琳;利用非廣延最大熵模型進(jìn)行文本分類[D];天津大學(xué);2009年

8 步海慧;基于最大熵模型的中文姓名識(shí)別研究[D];山東大學(xué);2006年

9 梅燦華;基于最大熵模型的遷移學(xué)習(xí)算法研究[D];合肥工業(yè)大學(xué);2011年

10 譚文堂;基于統(tǒng)計(jì)模型的漢語句子主干分析[D];國防科學(xué)技術(shù)大學(xué);2008年

,

本文編號(hào):803535

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/803535.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶00ae1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com