中文短文本分類技術(shù)的研究與實現(xiàn)
本文關(guān)鍵詞:中文短文本分類技術(shù)的研究與實現(xiàn)
更多相關(guān)文章: 文本挖掘 短文本 文本分類 主題模型
【摘要】:文本分類是文本挖掘領(lǐng)域的一門重要學(xué)科,是指在已知的分類體系中,根據(jù)已知文本內(nèi)容自動確定未知文本類別的過程,文本分類在一定程度上幫助用戶處理獲得的雜亂信息,有助于用戶根據(jù)自己的傾向有選擇地閱讀海量的文本。目前多數(shù)情況下,文本分類大多是對于長文本進(jìn)行分類,所處理的文本包含比較多的信息。然而,隨著互聯(lián)網(wǎng)的飛速發(fā)展,越來越多的短文本出現(xiàn)在生活中,由于短文本包含的信息量有限,傳統(tǒng)的處理長文本的分類方法并不能很好用于處理短文本。 本文首先總結(jié)了國內(nèi)外針對短文本分類技術(shù)的研究現(xiàn)狀,現(xiàn)有的短文本分類方法大多需要背景知識庫的支持,但是這些分類方法的普適性不是很強(qiáng),而且處理背景知識庫需要耗費大量的精力。常見的短文本主要有論壇發(fā)帖、產(chǎn)品評論、手機(jī)短信以及微博等等。與傳統(tǒng)長文本相比較,短文本具有自己鮮明的特點,比如長度很短、用詞不規(guī)范、新詞不斷出現(xiàn)等等。對短文本進(jìn)行分類研究具有重要現(xiàn)實意義,與長文本相比較,短文本具有自己的突出特點,本文提出了基于搜索引擎和LDA主題模型的短文本分類方法。 然后,本文討論了傳統(tǒng)文本分類過程中重要的技術(shù)方法。包括文本的預(yù)處理,文本向量化表示,特征提取方法,常用分類方法等。同時指出這些方法需要改進(jìn)的地方以便用于短文本的分類處理。 接著,文章介紹了LDA主題模型。并在主題模型的基礎(chǔ)上結(jié)合搜索引擎,對短文本進(jìn)行擴(kuò)充處理和向量化表示。通過實驗驗證,本文提出的方法能夠有效表示短文本,提高短文本分類的效果。 相信隨著短文本分類技術(shù)不斷的發(fā)展完善,短文本分類對于政府決策、網(wǎng)絡(luò)信息監(jiān)管、輿情引導(dǎo)等社會工作會起到廣泛而深刻的意義。
【關(guān)鍵詞】:文本挖掘 短文本 文本分類 主題模型
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要3-4
- Abstract4-5
- 目錄5-7
- 第一章 緒論7-15
- 1.1 選題背景及意義7-8
- 1.2 國內(nèi)外短文本分類技術(shù)研究現(xiàn)狀8-13
- 1.2.1 短文本分類研究現(xiàn)狀8-10
- 1.2.2 短文本的特點及分類研究中存在的難點10-13
- 1.3 自然語言處理簡介13-14
- 1.4 本文內(nèi)容組織結(jié)構(gòu)14
- 1.5 本章小結(jié)14-15
- 第二章 信息檢索模型15-24
- 2.1 布爾模型15
- 2.2 概率模型15-16
- 2.3 語言模型16
- 2.4 向量空間模型16-17
- 2.5 LDA主題模型17-22
- 2.5.1 主題模型簡介17-18
- 2.5.2 LDA主題模型輸入18-19
- 2.5.3 主題模型假設(shè)19
- 2.5.4 LDA主題模型表示19-20
- 2.5.5 參數(shù)估計與Gibbs抽樣20-21
- 2.5.6 狄利克雷(Dirichlet)分布21-22
- 2.6 向量空間模型和主題模型比較分析22-23
- 2.7 本章小結(jié)23-24
- 第三章 常用文本分類相關(guān)技術(shù)24-37
- 3.1 相關(guān)技術(shù)概述24-25
- 3.2 文本預(yù)處理25-29
- 3.2.1 詞干提取25
- 3.2.2 中文文本分詞25-29
- 3.2.3 去除停用詞29
- 3.3 文本表示29
- 3.4 特征提取29-32
- 3.4.1 互信息(MI)30-31
- 3.4.2 卡方統(tǒng)計量(CHI)31
- 3.4.3 信息增益(IG)31-32
- 3.4.4 期望交叉熵(ECE)32
- 3.4.5 文檔頻率(DF)32
- 3.5 常用分類方法32-36
- 3.5.1 Rocchio分類算法33
- 3.5.2 貝葉斯分類算法33-34
- 3.5.3 K最近鄰分類算法34-35
- 3.5.4 支持向量機(jī)分類算法35-36
- 3.6 本章小結(jié)36-37
- 第四章 短文本信息擴(kuò)充37-46
- 4.1 常用的短文本信息擴(kuò)充方法37
- 4.2 基于搜索引擎的URL信息擴(kuò)充方法37-45
- 4.2.1 網(wǎng)絡(luò)爬蟲38-39
- 4.2.2 搜索引擎選擇39-43
- 4.2.3 URL信息獲取算法43
- 4.2.4 JSOUP工具包43-44
- 4.2.5 短文本擴(kuò)充算法44-45
- 4.3 本章小結(jié)45-46
- 第五章 實驗與結(jié)果分析46-57
- 5.1 實驗環(huán)境46
- 5.2 實驗數(shù)據(jù)及結(jié)果評價指標(biāo)46-47
- 5.3 預(yù)處理47-48
- 5.4 LDA模型工具使用48-52
- 5.4.1 JGibbLDA48-51
- 5.4.2 模型訓(xùn)練及實驗方法輸入51-52
- 5.5 SVM實驗結(jié)果52-53
- 5.5.1 最優(yōu)主題個數(shù)和主題模型分類結(jié)果52-53
- 5.5.2 基于卡方特征提取的分類結(jié)果53
- 5.6 樸素貝葉斯(NB)分類結(jié)果53-55
- 5.6.1 主題模型分類結(jié)果54-55
- 5.6.2 基于卡方特征提取的分類結(jié)果55
- 5.7 基于共現(xiàn)網(wǎng)頁的相似度比較分類結(jié)果55-56
- 5.8 實驗結(jié)果分析56
- 5.9 本章小結(jié)56-57
- 第六章 結(jié)束語57-59
- 6.1 總結(jié)57
- 6.2 研究展望57-59
- 參考文獻(xiàn)59-62
- 致謝62-63
- 攻讀碩士期間發(fā)表的論文63
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張德鑫;“水至清則無魚”——我的新生詞語規(guī)范觀[J];北京大學(xué)學(xué)報(哲學(xué)社會科學(xué)版);2000年05期
2 吳友政;趙軍;徐波;;基于主題語言模型的句子檢索算法[J];計算機(jī)研究與發(fā)展;2007年02期
3 徐燕;李錦濤;王斌;孫春明;張森;;文本分類中特征選擇的約束研究[J];計算機(jī)研究與發(fā)展;2008年04期
4 許震;沙朝鋒;王曉玲;周傲英;;基于KL距離的非平衡數(shù)據(jù)半監(jiān)督學(xué)習(xí)算法[J];計算機(jī)研究與發(fā)展;2010年01期
5 王鵬;樊興華;;中文文本分類中利用依存關(guān)系的實驗研究[J];計算機(jī)工程與應(yīng)用;2010年03期
6 裴英博;劉曉霞;;文本分類中改進(jìn)型CHI特征選擇方法的研究[J];計算機(jī)工程與應(yīng)用;2011年04期
7 寧亞輝;樊興華;吳渝;;基于領(lǐng)域詞語本體的短文本分類[J];計算機(jī)科學(xué);2009年03期
8 宋楓溪,高林;文本分類器性能評估指標(biāo)[J];計算機(jī)工程;2004年13期
9 楊凱峰;張毅坤;李燕;;基于文檔頻率的特征選擇方法[J];計算機(jī)工程;2010年17期
10 李文波;孫樂;張大鯤;;基于Labeled-LDA模型的文本分類新算法[J];計算機(jī)學(xué)報;2008年04期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 杜剛;新聞數(shù)據(jù)中突發(fā)話題檢測研究[D];北京郵電大學(xué);2012年
,本文編號:809057
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/809057.html