基于半監(jiān)督學(xué)習(xí)的中文短文本分類研究
本文關(guān)鍵詞:基于半監(jiān)督學(xué)習(xí)的中文短文本分類研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著即時(shí)通信和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)中的信息每天都在以一定的速率增長(zhǎng)著,生活中最常見(jiàn)的就是如:網(wǎng)絡(luò)新聞、微博及其評(píng)論、聊天記錄、手機(jī)短消息、科技文獻(xiàn)摘要、搜索引擎返回的結(jié)果和社區(qū)論壇中的發(fā)帖回復(fù)等形式的短文本信息,這類文本通常都控制在160個(gè)字左右,存在的種類樣式繁多,而且經(jīng)常以口語(yǔ)化、生活化的不規(guī)則形式出現(xiàn)。特征詞較少、關(guān)聯(lián)性不強(qiáng)是這類短文本的主要特點(diǎn),并且其中可能隱匿著一些有價(jià)值的信息內(nèi)容,因而對(duì)短文本進(jìn)行有效的組織分類是非常有必要的。傳統(tǒng)的文本分類方法大多是以長(zhǎng)文本作為對(duì)象進(jìn)行研究的,如果直接套用于短文本將會(huì)影響分類取得的效果。另外,通常用于構(gòu)建傳統(tǒng)文本分類器的已標(biāo)注樣本是需要由人工進(jìn)行標(biāo)注才能獲得的,既費(fèi)時(shí)又費(fèi)力,還易形成標(biāo)注瓶頸,而相比之下,,數(shù)量頗為豐富的未經(jīng)標(biāo)注樣本的獲取與搜集卻是較為容易的。 傳統(tǒng)基于監(jiān)督學(xué)習(xí)的分類方法,僅僅是使用了數(shù)據(jù)樣本集合中的已標(biāo)注部分,并沒(méi)有注意到其中未標(biāo)注樣本的存在價(jià)值,未能較好地挖掘出可能隱藏的信息。而半監(jiān)督學(xué)習(xí)的方法則是可以將少量的已標(biāo)注樣本與大量的未經(jīng)標(biāo)注樣本相結(jié)合起來(lái)進(jìn)行學(xué)習(xí)訓(xùn)練,從而使未標(biāo)注部分能被充分地利用,文本分類器性能得到有效地改善,因此這樣的方法也逐漸地被人們所關(guān)注。 考慮到短文本不同于長(zhǎng)文本的特點(diǎn),再加上參考了已有的相關(guān)研究成果,本文在現(xiàn)有的分類算法基礎(chǔ)上,將半監(jiān)督學(xué)習(xí)的思想貫穿到短文本分類的過(guò)程當(dāng)中,改進(jìn)地使用維基百科對(duì)短文本進(jìn)行特征擴(kuò)展,提出一種基于半監(jiān)督學(xué)習(xí)的文本分類方法,用于實(shí)現(xiàn)對(duì)短文本的有效分類。該方法通過(guò)使用外部知識(shí)資源庫(kù)構(gòu)建的特征詞擴(kuò)展表對(duì)短文本進(jìn)行信息擴(kuò)充以解決特征稀疏等問(wèn)題,然后構(gòu)建基于監(jiān)督學(xué)習(xí)的初始中間過(guò)程的分類器,不斷地迭代訓(xùn)練數(shù)據(jù)樣本中未標(biāo)注部分,再用更新過(guò)的訓(xùn)練樣本集來(lái)構(gòu)建最終的文本分類器,通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法能夠達(dá)到充分利用大量未標(biāo)注樣本來(lái)改善分類器性能的目的。 另外,為了解決傳統(tǒng)基于向量空間模型構(gòu)建短文本分類器時(shí)造成的文本結(jié)構(gòu)信息的缺失以及大量樣本存在的標(biāo)注瓶頸問(wèn)題,提出了一種利用圖結(jié)構(gòu)模型進(jìn)行半監(jiān)督文本分類的方法,將數(shù)量規(guī)模較大的未標(biāo)注樣本與少量的已標(biāo)注樣本相結(jié)合進(jìn)行基于圖結(jié)構(gòu)的自學(xué)習(xí),進(jìn)行基于最大公共子圖的相似度計(jì)算,保留了短文本的結(jié)構(gòu)關(guān)聯(lián)關(guān)系,通過(guò)對(duì)未標(biāo)注樣本的自學(xué)習(xí)來(lái)實(shí)現(xiàn)訓(xùn)練樣本集的擴(kuò)充。最后經(jīng)對(duì)比實(shí)驗(yàn)表明,這種方法能夠獲得較好的分類效果。
【關(guān)鍵詞】:文本分類 短文本 半監(jiān)督學(xué)習(xí) 自訓(xùn)練 圖結(jié)構(gòu)
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1
【目錄】:
- 摘要3-4
- Abstract4-6
- 目錄6-8
- 第一章 緒論8-14
- 1.1 研究背景與意義8-9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-11
- 1.2.1 短文本分類研究現(xiàn)狀9
- 1.2.2 半監(jiān)督學(xué)習(xí)研究現(xiàn)狀9-10
- 1.2.3 研究現(xiàn)狀分析10-11
- 1.3 本文的主要研究?jī)?nèi)容11-12
- 1.4 本文的組織結(jié)構(gòu)12-14
- 第二章 相關(guān)理論14-26
- 2.1 文本分類概述14-19
- 2.1.1 文本分類的過(guò)程14-16
- 2.1.2 常用文本分類方法16-17
- 2.1.3 分類性能評(píng)估指標(biāo)17-19
- 2.2 短文本分類概述19-21
- 2.2.1 中文短文本的定義及特點(diǎn)19-20
- 2.2.2 中文短文本分類的作用20
- 2.2.3 短文本分類的研究方向20-21
- 2.3 半監(jiān)督學(xué)習(xí)理論21-25
- 2.3.1 半監(jiān)督學(xué)習(xí)的定義21-22
- 2.3.2 監(jiān)督學(xué)習(xí)與半監(jiān)督學(xué)習(xí)對(duì)比22-23
- 2.3.3 半監(jiān)督學(xué)習(xí)的常用方法23-25
- 2.4 本章小結(jié)25-26
- 第三章 基于自訓(xùn)練的短文本分類方法26-36
- 3.1 研究思路26-27
- 3.2 基于自訓(xùn)練的短文本分類算法27-32
- 3.2.1 改進(jìn)的短文本特征擴(kuò)展27-29
- 3.2.2 用于構(gòu)建監(jiān)督學(xué)習(xí)的初始分類器的方法29-30
- 3.2.3 構(gòu)建用于半監(jiān)督學(xué)習(xí)的基礎(chǔ)模型30-32
- 3.3 實(shí)驗(yàn)與分析32-35
- 3.3.1 實(shí)驗(yàn)環(huán)境和工具32
- 3.3.2 實(shí)驗(yàn)數(shù)據(jù)32-33
- 3.3.3 實(shí)驗(yàn)結(jié)果分析33-35
- 3.4 本章小結(jié)35-36
- 第四章 基于圖結(jié)構(gòu)半監(jiān)督學(xué)習(xí)的短文本分類36-46
- 4.1 研究思路36
- 4.2 圖結(jié)構(gòu)文本表示模型36-38
- 4.2.1 圖結(jié)構(gòu)的定義37-38
- 4.2.2 構(gòu)建文本圖結(jié)構(gòu)38
- 4.3 利用圖結(jié)構(gòu)進(jìn)行自訓(xùn)練的分類算法38-41
- 4.3.1 算法思想38-39
- 4.3.2 算法流程39-41
- 4.4 實(shí)驗(yàn)結(jié)果及其分析41-44
- 4.4.1 實(shí)驗(yàn)準(zhǔn)備41-42
- 4.4.2 實(shí)驗(yàn)結(jié)果及分析42-44
- 4.5 本章小結(jié)44-46
- 第五章 總結(jié)及未來(lái)展望46-50
- 5.1 總結(jié)46-47
- 5.2 進(jìn)一步工作47-50
- 致謝50-52
- 參考文獻(xiàn)52-58
- 碩士期間科研成果58-59
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 白秋產(chǎn);金春霞;;概念屬性擴(kuò)展的短文本聚類算法[J];長(zhǎng)春師范學(xué)院學(xué)報(bào);2011年10期
2 吳雅娟,柳培林 ,丁子睿;基于統(tǒng)計(jì)分詞的中文文本分類系統(tǒng)[J];電腦知識(shí)與技術(shù);2005年11期
3 侯翠琴;焦李成;;基于圖的Co-Training網(wǎng)頁(yè)分類[J];電子學(xué)報(bào);2009年10期
4 張博鋒;白冰;蘇金樹(shù);;基于自訓(xùn)練EM算法的半監(jiān)督文本分類[J];國(guó)防科技大學(xué)學(xué)報(bào);2007年06期
5 郭泗輝;樊興華;;一種改進(jìn)的貝葉斯網(wǎng)絡(luò)短文本分類算法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年03期
6 馮時(shí);景珊;楊卓;王大玲;;基于LDA模型的中文微博話題意見(jiàn)領(lǐng)袖挖掘[J];東北大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年04期
7 韓紅旗;朱東華;劉嵩;汪雪鋒;;關(guān)聯(lián)詞約束的半監(jiān)督文本分類方法[J];計(jì)算機(jī)工程與應(yīng)用;2010年04期
8 張曉孿;王西鋒;;基于概念圖的漢語(yǔ)語(yǔ)義計(jì)算的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2011年10期
9 寧亞輝;樊興華;吳渝;;基于領(lǐng)域詞語(yǔ)本體的短文本分類[J];計(jì)算機(jī)科學(xué);2009年03期
10 林小俊;張猛;暴筱;李軍;吳璽宏;;基于概念網(wǎng)絡(luò)的短文本分類方法[J];計(jì)算機(jī)工程;2010年21期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 郝秀蘭;文本分類技術(shù)與應(yīng)用研究[D];復(fù)旦大學(xué);2008年
本文關(guān)鍵詞:基于半監(jiān)督學(xué)習(xí)的中文短文本分類研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):280580
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/280580.html