天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

中文短文本分類技術(shù)的研究與實現(xiàn)

發(fā)布時間:2017-09-07 10:39

  本文關(guān)鍵詞:中文短文本分類技術(shù)的研究與實現(xiàn)


  更多相關(guān)文章: 文本挖掘 短文本 文本分類 主題模型


【摘要】:文本分類是文本挖掘領(lǐng)域的一門重要學(xué)科,是指在已知的分類體系中,根據(jù)已知文本內(nèi)容自動確定未知文本類別的過程,文本分類在一定程度上幫助用戶處理獲得的雜亂信息,有助于用戶根據(jù)自己的傾向有選擇地閱讀海量的文本。目前多數(shù)情況下,文本分類大多是對于長文本進(jìn)行分類,所處理的文本包含比較多的信息。然而,隨著互聯(lián)網(wǎng)的飛速發(fā)展,越來越多的短文本出現(xiàn)在生活中,由于短文本包含的信息量有限,傳統(tǒng)的處理長文本的分類方法并不能很好用于處理短文本。 本文首先總結(jié)了國內(nèi)外針對短文本分類技術(shù)的研究現(xiàn)狀,現(xiàn)有的短文本分類方法大多需要背景知識庫的支持,但是這些分類方法的普適性不是很強(qiáng),而且處理背景知識庫需要耗費大量的精力。常見的短文本主要有論壇發(fā)帖、產(chǎn)品評論、手機(jī)短信以及微博等等。與傳統(tǒng)長文本相比較,短文本具有自己鮮明的特點,比如長度很短、用詞不規(guī)范、新詞不斷出現(xiàn)等等。對短文本進(jìn)行分類研究具有重要現(xiàn)實意義,與長文本相比較,短文本具有自己的突出特點,本文提出了基于搜索引擎和LDA主題模型的短文本分類方法。 然后,本文討論了傳統(tǒng)文本分類過程中重要的技術(shù)方法。包括文本的預(yù)處理,文本向量化表示,特征提取方法,常用分類方法等。同時指出這些方法需要改進(jìn)的地方以便用于短文本的分類處理。 接著,文章介紹了LDA主題模型。并在主題模型的基礎(chǔ)上結(jié)合搜索引擎,對短文本進(jìn)行擴(kuò)充處理和向量化表示。通過實驗驗證,本文提出的方法能夠有效表示短文本,提高短文本分類的效果。 相信隨著短文本分類技術(shù)不斷的發(fā)展完善,短文本分類對于政府決策、網(wǎng)絡(luò)信息監(jiān)管、輿情引導(dǎo)等社會工作會起到廣泛而深刻的意義。
【關(guān)鍵詞】:文本挖掘 短文本 文本分類 主題模型
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
  • 摘要3-4
  • Abstract4-5
  • 目錄5-7
  • 第一章 緒論7-15
  • 1.1 選題背景及意義7-8
  • 1.2 國內(nèi)外短文本分類技術(shù)研究現(xiàn)狀8-13
  • 1.2.1 短文本分類研究現(xiàn)狀8-10
  • 1.2.2 短文本的特點及分類研究中存在的難點10-13
  • 1.3 自然語言處理簡介13-14
  • 1.4 本文內(nèi)容組織結(jié)構(gòu)14
  • 1.5 本章小結(jié)14-15
  • 第二章 信息檢索模型15-24
  • 2.1 布爾模型15
  • 2.2 概率模型15-16
  • 2.3 語言模型16
  • 2.4 向量空間模型16-17
  • 2.5 LDA主題模型17-22
  • 2.5.1 主題模型簡介17-18
  • 2.5.2 LDA主題模型輸入18-19
  • 2.5.3 主題模型假設(shè)19
  • 2.5.4 LDA主題模型表示19-20
  • 2.5.5 參數(shù)估計與Gibbs抽樣20-21
  • 2.5.6 狄利克雷(Dirichlet)分布21-22
  • 2.6 向量空間模型和主題模型比較分析22-23
  • 2.7 本章小結(jié)23-24
  • 第三章 常用文本分類相關(guān)技術(shù)24-37
  • 3.1 相關(guān)技術(shù)概述24-25
  • 3.2 文本預(yù)處理25-29
  • 3.2.1 詞干提取25
  • 3.2.2 中文文本分詞25-29
  • 3.2.3 去除停用詞29
  • 3.3 文本表示29
  • 3.4 特征提取29-32
  • 3.4.1 互信息(MI)30-31
  • 3.4.2 卡方統(tǒng)計量(CHI)31
  • 3.4.3 信息增益(IG)31-32
  • 3.4.4 期望交叉熵(ECE)32
  • 3.4.5 文檔頻率(DF)32
  • 3.5 常用分類方法32-36
  • 3.5.1 Rocchio分類算法33
  • 3.5.2 貝葉斯分類算法33-34
  • 3.5.3 K最近鄰分類算法34-35
  • 3.5.4 支持向量機(jī)分類算法35-36
  • 3.6 本章小結(jié)36-37
  • 第四章 短文本信息擴(kuò)充37-46
  • 4.1 常用的短文本信息擴(kuò)充方法37
  • 4.2 基于搜索引擎的URL信息擴(kuò)充方法37-45
  • 4.2.1 網(wǎng)絡(luò)爬蟲38-39
  • 4.2.2 搜索引擎選擇39-43
  • 4.2.3 URL信息獲取算法43
  • 4.2.4 JSOUP工具包43-44
  • 4.2.5 短文本擴(kuò)充算法44-45
  • 4.3 本章小結(jié)45-46
  • 第五章 實驗與結(jié)果分析46-57
  • 5.1 實驗環(huán)境46
  • 5.2 實驗數(shù)據(jù)及結(jié)果評價指標(biāo)46-47
  • 5.3 預(yù)處理47-48
  • 5.4 LDA模型工具使用48-52
  • 5.4.1 JGibbLDA48-51
  • 5.4.2 模型訓(xùn)練及實驗方法輸入51-52
  • 5.5 SVM實驗結(jié)果52-53
  • 5.5.1 最優(yōu)主題個數(shù)和主題模型分類結(jié)果52-53
  • 5.5.2 基于卡方特征提取的分類結(jié)果53
  • 5.6 樸素貝葉斯(NB)分類結(jié)果53-55
  • 5.6.1 主題模型分類結(jié)果54-55
  • 5.6.2 基于卡方特征提取的分類結(jié)果55
  • 5.7 基于共現(xiàn)網(wǎng)頁的相似度比較分類結(jié)果55-56
  • 5.8 實驗結(jié)果分析56
  • 5.9 本章小結(jié)56-57
  • 第六章 結(jié)束語57-59
  • 6.1 總結(jié)57
  • 6.2 研究展望57-59
  • 參考文獻(xiàn)59-62
  • 致謝62-63
  • 攻讀碩士期間發(fā)表的論文63

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 張德鑫;“水至清則無魚”——我的新生詞語規(guī)范觀[J];北京大學(xué)學(xué)報(哲學(xué)社會科學(xué)版);2000年05期

2 吳友政;趙軍;徐波;;基于主題語言模型的句子檢索算法[J];計算機(jī)研究與發(fā)展;2007年02期

3 徐燕;李錦濤;王斌;孫春明;張森;;文本分類中特征選擇的約束研究[J];計算機(jī)研究與發(fā)展;2008年04期

4 許震;沙朝鋒;王曉玲;周傲英;;基于KL距離的非平衡數(shù)據(jù)半監(jiān)督學(xué)習(xí)算法[J];計算機(jī)研究與發(fā)展;2010年01期

5 王鵬;樊興華;;中文文本分類中利用依存關(guān)系的實驗研究[J];計算機(jī)工程與應(yīng)用;2010年03期

6 裴英博;劉曉霞;;文本分類中改進(jìn)型CHI特征選擇方法的研究[J];計算機(jī)工程與應(yīng)用;2011年04期

7 寧亞輝;樊興華;吳渝;;基于領(lǐng)域詞語本體的短文本分類[J];計算機(jī)科學(xué);2009年03期

8 宋楓溪,高林;文本分類器性能評估指標(biāo)[J];計算機(jī)工程;2004年13期

9 楊凱峰;張毅坤;李燕;;基于文檔頻率的特征選擇方法[J];計算機(jī)工程;2010年17期

10 李文波;孫樂;張大鯤;;基于Labeled-LDA模型的文本分類新算法[J];計算機(jī)學(xué)報;2008年04期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 杜剛;新聞數(shù)據(jù)中突發(fā)話題檢測研究[D];北京郵電大學(xué);2012年

,

本文編號:809057

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/809057.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶aa87b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com