天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于主動(dòng)學(xué)習(xí)的文本分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2022-01-21 14:40
  隨著信息時(shí)代的到來,互聯(lián)網(wǎng)得到了迅速發(fā)展,文本數(shù)據(jù)開始爆發(fā)式增長,豐富的信息背后蘊(yùn)含著巨大的價(jià)值。文本分類技術(shù)可以有效的整理和組織文本,提高信息檢索的效率,挖掘出文本更具價(jià)值的深層信息,而且隨著數(shù)據(jù)收集和存儲技術(shù)的發(fā)展,收集海量文本數(shù)據(jù)已經(jīng)不再是難題。然而,目前文本分類技術(shù)的實(shí)際應(yīng)用仍然局限于大公司或是研究機(jī)構(gòu),這是因?yàn)閭鹘y(tǒng)基于監(jiān)督學(xué)習(xí)的文本分類需要大量已標(biāo)注樣本,而對大量文本數(shù)據(jù)進(jìn)行標(biāo)注的人工成本過高,使用隨機(jī)選取部分?jǐn)?shù)據(jù)獲取標(biāo)記的方法不僅是對數(shù)據(jù)資源的浪費(fèi),也會(huì)影響最終的分類準(zhǔn)確率,因此構(gòu)建一種能夠有效利用未標(biāo)注數(shù)據(jù)集的文本分類系統(tǒng)具有重要的實(shí)際應(yīng)用價(jià)值。為了解決上述問題,本文以主動(dòng)學(xué)習(xí)為切入點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)了一種基于主動(dòng)學(xué)習(xí)的文本分類系統(tǒng),本文完成的主要工作包括:(1)本文基于主動(dòng)學(xué)習(xí)算法,采用RCNN模型作為分類器,提出了一種基于主動(dòng)學(xué)習(xí)的文本分類框架。同時(shí)結(jié)合數(shù)據(jù)挖掘技術(shù)和深度文檔向量模型,改進(jìn)了初始樣本選擇算法,能從未標(biāo)注數(shù)據(jù)集中選取出更能代表樣本空間的樣本,通過對比試驗(yàn)證明改進(jìn)后的初始樣本選擇算法能明顯提升了分類器對未標(biāo)注樣本的判別能力,提高了主動(dòng)學(xué)習(xí)算法的效率。最終實(shí)驗(yàn)結(jié)... 

【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:76 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于主動(dòng)學(xué)習(xí)的文本分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)


圖2-2SVM算法示意圖??

流程圖,文本分類,框架,流程圖


V??圖3-1文本分類框架流程圖??如圖3-1所示,該圖展示了本章所設(shè)計(jì)的基于主動(dòng)學(xué)習(xí)的文本分類框架的完??整處理流程,從圖中可以看出該文本分類框架主要由初始樣本選擇和主動(dòng)學(xué)習(xí)迭??代訓(xùn)練兩部分組成,同時(shí)還需要人工參與框架的訓(xùn)練過程。??初始樣本選擇階段是框架通過初始樣本選擇算法從未標(biāo)注樣本集合選出最??能代表文本數(shù)據(jù)集的部分樣本,并交由研究人員獲取樣本標(biāo)注的過程,后半部分??為基于主動(dòng)學(xué)習(xí)算法的迭代訓(xùn)練流程,而主動(dòng)學(xué)習(xí)算法所采用的初始己標(biāo)注訓(xùn)練??樣本集是由初始樣本選擇階段得到的標(biāo)注樣本集,每輪迭代中根據(jù)分類器對未標(biāo)??注樣本集的預(yù)測結(jié)果從中選取最有價(jià)值樣本交由研究人員標(biāo)注后加入標(biāo)注樣本??集,直到訓(xùn)練完成得到標(biāo)注樣本集和分類模型。綜上,該文本分類框架的數(shù)據(jù)流??通圖如圖3-2所示,通過數(shù)據(jù)流通圖可以清晰地了解框架對文本數(shù)據(jù)集的處理流??程

模型結(jié)構(gòu),文檔


本數(shù)據(jù)集劃分,但是計(jì)算機(jī)不能直接理解由自然語言構(gòu)成的中文語料,因此首先??需要利用文本表示算法獲取文本數(shù)據(jù)集的文檔向量,使計(jì)算機(jī)能夠色接理解并處??理,即本文改進(jìn)的初始選擇算法的流程如圖3-3所示。??文Si集—?文檔向s化—?文■類—??—?艦磁辦??????1____??圖3-3初始樣本選擇算法??由圖3-3可知,本文設(shè)計(jì)的初始選擇算法主要分為文本向量化、文本聚類、??代表性樣本選擇三個(gè)部分,且前一部分的輸出作為下一階段的輸入,最終得到可??用于主動(dòng)學(xué)習(xí)訓(xùn)練的初始標(biāo)注樣本集,下面將介紹每一部分的實(shí)現(xiàn)細(xì)節(jié):??1)文檔的向量表示簡單來說就是將每篇文檔表示計(jì)算機(jī)能夠理解的形式,??通常為包含足夠多文檔主題信息的連續(xù)稠密型向量[33]。目前文本分類相關(guān)技術(shù)??研究中,針對詞向量的研究比較多,而針對文檔向量的研究較少,因?yàn)樵~是中文??文本中最小的包含信息的單位。目前獲取文檔向量的方法通常是利用如??Word2Vec等文本向量化方法獲取單個(gè)詞的向量化表示,在詞向量的基礎(chǔ)上獲取??整篇文檔的向量表示[[|3]15]。然而文檔中通常包含很多個(gè)詞語,通過單個(gè)詞向量獲??取整篇文檔的有效的表達(dá)是目前研究中的難題之一

【參考文獻(xiàn)】:
期刊論文
[1]基于深度主動(dòng)學(xué)習(xí)的磁片表面缺陷檢測[J]. 姚明海,陳志浩.  計(jì)算機(jī)測量與控制. 2018(09)
[2]基于深度學(xué)習(xí)的文本分類研究進(jìn)展[J]. 劉婷婷,朱文東,劉廣一.  電力信息與通信技術(shù). 2018(03)
[3]基于密度最大值的K-means初始聚類中心點(diǎn)算法改進(jìn)[J]. 劉闖,陳桂芬.  數(shù)字技術(shù)與應(yīng)用. 2017(11)
[4]基于樸素貝葉斯的文本分類研究綜述[J]. 賀鳴,孫建軍,成穎.  情報(bào)科學(xué). 2016(07)
[5]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春.  計(jì)算機(jī)科學(xué). 2016(06)
[6]一種基于SVM和主動(dòng)學(xué)習(xí)的圖像檢索方法[J]. 王新建,羅光春,秦科,陳愛國,賴云一.  計(jì)算機(jī)應(yīng)用研究. 2016(12)
[7]基于半監(jiān)督的SVM遷移學(xué)習(xí)文本分類算法[J]. 譚建平,劉波,肖燕珊.  無線互聯(lián)科技. 2016(04)
[8]聚類算法綜述[J]. 伍育紅.  計(jì)算機(jī)科學(xué). 2015(S1)
[9]主動(dòng)學(xué)習(xí)算法綜述[J]. 劉康,錢旭,王自強(qiáng).  計(jì)算機(jī)工程與應(yīng)用. 2012(34)
[10]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權(quán)文.  控制與決策. 2012(02)

碩士論文
[1]文本分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 張琛馨.中山大學(xué) 2015



本文編號:3600454

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3600454.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1d133***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com