中文短文本分類技術的研究與實現

發(fā)布時間：2017-09-07 10:39

本文關鍵詞：中文短文本分類技術的研究與實現

【摘要】：文本分類是文本挖掘領域的一門重要學科,是指在已知的分類體系中,根據已知文本內容自動確定未知文本類別的過程,文本分類在一定程度上幫助用戶處理獲得的雜亂信息,有助于用戶根據自己的傾向有選擇地閱讀海量的文本。目前多數情況下,文本分類大多是對于長文本進行分類,所處理的文本包含比較多的信息。然而,隨著互聯(lián)網的飛速發(fā)展,越來越多的短文本出現在生活中,由于短文本包含的信息量有限,傳統(tǒng)的處理長文本的分類方法并不能很好用于處理短文本。本文首先總結了國內外針對短文本分類技術的研究現狀,現有的短文本分類方法大多需要背景知識庫的支持,但是這些分類方法的普適性不是很強,而且處理背景知識庫需要耗費大量的精力。常見的短文本主要有論壇發(fā)帖、產品評論、手機短信以及微博等等。與傳統(tǒng)長文本相比較,短文本具有自己鮮明的特點,比如長度很短、用詞不規(guī)范、新詞不斷出現等等。對短文本進行分類研究具有重要現實意義,與長文本相比較,短文本具有自己的突出特點,本文提出了基于搜索引擎和LDA主題模型的短文本分類方法。然后,本文討論了傳統(tǒng)文本分類過程中重要的技術方法。包括文本的預處理,文本向量化表示,特征提取方法,常用分類方法等。同時指出這些方法需要改進的地方以便用于短文本的分類處理。接著,文章介紹了LDA主題模型。并在主題模型的基礎上結合搜索引擎,對短文本進行擴充處理和向量化表示。通過實驗驗證,本文提出的方法能夠有效表示短文本,提高短文本分類的效果。相信隨著短文本分類技術不斷的發(fā)展完善,短文本分類對于政府決策、網絡信息監(jiān)管、輿情引導等社會工作會起到廣泛而深刻的意義。
【關鍵詞】：文本挖掘 短文本 文本分類 主題模型
【學位授予單位】：安徽大學
【學位級別】：碩士
【學位授予年份】：2014
【分類號】：TP391.1
【目錄】：

摘要3-4
Abstract4-5
目錄5-7
第一章緒論7-15
1.1 選題背景及意義7-8
1.2 國內外短文本分類技術研究現狀8-13
1.2.1 短文本分類研究現狀8-10
1.2.2 短文本的特點及分類研究中存在的難點10-13
1.3 自然語言處理簡介13-14
1.4 本文內容組織結構14
1.5 本章小結14-15
第二章信息檢索模型15-24
2.1 布爾模型15
2.2 概率模型15-16
2.3 語言模型16
2.4 向量空間模型16-17
2.5 LDA主題模型17-22
2.5.1 主題模型簡介17-18
2.5.2 LDA主題模型輸入18-19
2.5.3 主題模型假設19
2.5.4 LDA主題模型表示19-20
2.5.5 參數估計與Gibbs抽樣20-21
2.5.6 狄利克雷(Dirichlet)分布21-22
2.6 向量空間模型和主題模型比較分析22-23
2.7 本章小結23-24
第三章常用文本分類相關技術24-37
3.1 相關技術概述24-25
3.2 文本預處理25-29
3.2.1 詞干提取25
3.2.2 中文文本分詞25-29
3.2.3 去除停用詞29
3.3 文本表示29
3.4 特征提取29-32
3.4.1 互信息(MI)30-31
3.4.2 卡方統(tǒng)計量(CHI)31
3.4.3 信息增益(IG)31-32
3.4.4 期望交叉熵(ECE)32
3.4.5 文檔頻率(DF)32
3.5 常用分類方法32-36
3.5.1 Rocchio分類算法33
3.5.2 貝葉斯分類算法33-34
3.5.3 K最近鄰分類算法34-35
3.5.4 支持向量機分類算法35-36
3.6 本章小結36-37
第四章短文本信息擴充37-46
4.1 常用的短文本信息擴充方法37
4.2 基于搜索引擎的URL信息擴充方法37-45
4.2.1 網絡爬蟲38-39
4.2.2 搜索引擎選擇39-43
4.2.3 URL信息獲取算法43
4.2.4 JSOUP工具包43-44
4.2.5 短文本擴充算法44-45
4.3 本章小結45-46
第五章實驗與結果分析46-57
5.1 實驗環(huán)境46
5.2 實驗數據及結果評價指標46-47
5.3 預處理47-48
5.4 LDA模型工具使用48-52
5.4.1 JGibbLDA48-51
5.4.2 模型訓練及實驗方法輸入51-52
5.5 SVM實驗結果52-53
5.5.1 最優(yōu)主題個數和主題模型分類結果52-53
5.5.2 基于卡方特征提取的分類結果53
5.6 樸素貝葉斯(NB)分類結果53-55
5.6.1 主題模型分類結果54-55
5.6.2 基于卡方特征提取的分類結果55
5.7 基于共現網頁的相似度比較分類結果55-56
5.8 實驗結果分析56
5.9 本章小結56-57
第六章結束語57-59
6.1 總結57
6.2 研究展望57-59
參考文獻59-62
致謝62-63
攻讀碩士期間發(fā)表的論文63

【參考文獻】

中國期刊全文數據庫前10條

1 張德鑫;“水至清則無魚”——我的新生詞語規(guī)范觀[J];北京大學學報(哲學社會科學版);2000年05期

2 吳友政;趙軍;徐波;;基于主題語言模型的句子檢索算法[J];計算機研究與發(fā)展;2007年02期

3 徐燕;李錦濤;王斌;孫春明;張森;;文本分類中特征選擇的約束研究[J];計算機研究與發(fā)展;2008年04期

4 許震;沙朝鋒;王曉玲;周傲英;;基于KL距離的非平衡數據半監(jiān)督學習算法[J];計算機研究與發(fā)展;2010年01期

5 王鵬;樊興華;;中文文本分類中利用依存關系的實驗研究[J];計算機工程與應用;2010年03期

6 裴英博;劉曉霞;;文本分類中改進型CHI特征選擇方法的研究[J];計算機工程與應用;2011年04期

7 寧亞輝;樊興華;吳渝;;基于領域詞語本體的短文本分類[J];計算機科學;2009年03期

8 宋楓溪,高林;文本分類器性能評估指標[J];計算機工程;2004年13期

9 楊凱峰;張毅坤;李燕;;基于文檔頻率的特征選擇方法[J];計算機工程;2010年17期

10 李文波;孫樂;張大鯤;;基于Labeled-LDA模型的文本分類新算法[J];計算機學報;2008年04期

中國博士學位論文全文數據庫前1條

1 杜剛;新聞數據中突發(fā)話題檢測研究[D];北京郵電大學;2012年

，

本文編號：809057

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/809057.html

上一篇：審計搜索引擎建立:審計標準化路徑設計
下一篇：SEO技術在中小型企業(yè)網絡營銷中的應用

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文短文本分類技術的研究與實現