WEB文本情感分類中關鍵問題的研究(可復制論文).pdf 全文
本文關鍵詞:WEB文本情感分類中關鍵問題的研究,由筆耕文化傳播整理發(fā)布。
摘要
北京郵電人學博士學位論文
WEB文本情感分類中關鍵問題的研究
摘要
隨著計算機技術和互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)絡在線的文檔成為現(xiàn)代主
要的信息載體,是人們生活中不可或缺的主要信息來源。而隨著互聯(lián)網(wǎng)
進入web2.0時代,人們從被動的接受門戶網(wǎng)站發(fā)布信息,轉變?yōu)橹鲃拥?
獲取、發(fā)布、共享、傳播信息。同時,由于用戶參與到信息的產生,網(wǎng)
絡信息的內容形式也變得多樣化,越來越多的具有個人觀點性的內容充
斥著網(wǎng)絡。這些觀點性內容對于網(wǎng)絡電子商務、網(wǎng)絡社區(qū)發(fā)掘、網(wǎng)絡信
息安全、網(wǎng)絡信息檢索等多方面都具有重要的意義和實用價值。對網(wǎng)絡
文本觀點性內容的自動情感分析成為近期web信息處理的一個研究熱
點,而其中的核心技術就是文本情感分類。
在這樣一個背景下,本文對面向web文本的中文分詞、文本情感分
類以及Weblog觀點檢索問題進行了下述創(chuàng)新性研究工作:
首先,研究了面向web文本的中文分詞問題。根據(jù)web文本環(huán)境的
特點,研究重點在于中文分詞中的未登錄詞識別問題,同時兼顧切分歧
義消解、整體切分準確率和高效處理海量文本的能力。在未登錄詞識別
方面,提出了POC.NLW字符標記模板,從字符級別的粒度來表征中文
詞匯的構成機制,并結合隱馬爾可夫模型,實現(xiàn)了基于字符序列標注的
中文分詞方法。此外,分別使用了基于規(guī)則匹配的預處理、基于詞典匹
配的初級全切分、基于詞語級別的N.Gram統(tǒng)計切分模型,并通過級聯(lián)方
式將上述各模塊有效組合,,構成了多模型混合的層疊系統(tǒng)。實驗結果表
明,本文提出
本文關鍵詞:WEB文本情感分類中關鍵問題的研究,由筆耕文化傳播整理發(fā)布。
本文編號:102956
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/102956.html