基于LDA的弱監(jiān)督文本分類方法
本文選題:文本分類 + 潛在狄利克雷分布 ; 參考:《計算機工程與設(shè)計》2017年01期
【摘要】:針對傳統(tǒng)的文本分類方法需要大量人工標(biāo)注好的訓(xùn)練數(shù)據(jù),且數(shù)據(jù)標(biāo)注的好壞會影響結(jié)果等問題,通過對LDA及其相關(guān)模型的研究,提出一種基于LDA的弱監(jiān)督文本分類算法。無需人工標(biāo)注訓(xùn)練數(shù)據(jù),在處理文本時,引入詞向量,保持文本中的詞序,加入二元語法。實驗結(jié)果表明,該方法節(jié)省了人力、物力,取得了較優(yōu)效果。
[Abstract]:Based on the research of LDA and its correlation model , a weak supervised text classification algorithm based on LDA is proposed for the traditional text classification method , and a weak supervised text classification algorithm based on LDA is proposed .
【作者單位】: 鄭州大學(xué)信息工程學(xué)院;
【基金】:國家社會科學(xué)基金項目(14BYY096) 國家自然科學(xué)基金項目(61402419、61272221) 國家863高技術(shù)研究發(fā)展計劃基金項目(2012AA011101) 計算語言學(xué)教育部重點實驗室(北京大學(xué))開放課題基金項目(201401) 國家973重點基礎(chǔ)研究發(fā)展計劃基金項目(2014CB340504) 河南省高等學(xué)校重點科研基金項目(15A520098)
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳林;楊丹;;獨立于語種的文本分類方法[J];計算機工程與科學(xué);2008年06期
2 張燕平;徐慶鵬;蘇守寶;邢猛;;一種基于貪婪覆蓋的文本分類方法[J];計算機技術(shù)與發(fā)展;2009年01期
3 焦慶爭;蔚承建;;一種基于特征投票的文本分類方法[J];計算機工程;2010年09期
4 孟海東;張煉;呂海林;;基于圖模型的文本分類方法的研究[J];計算機與現(xiàn)代化;2010年09期
5 仲兆滿;李存華;;基于重要事件的文本分類方法研究[J];微電子學(xué)與計算機;2012年03期
6 赫芳;王洋;;網(wǎng)絡(luò)的簡監(jiān)督文本分類方法[J];計算機與網(wǎng)絡(luò);2012年17期
7 朱志寧;萬小容;黃青松;;一種改進(jìn)的基于信噪比的文本分類方法[J];寧波廣播電視大學(xué)學(xué)報;2005年04期
8 朱斐;刁紅軍;呂強;;一種富文本分類方法的設(shè)計和實現(xiàn)[J];計算機應(yīng)用與軟件;2007年12期
9 臺德藝;謝飛;胡學(xué)鋼;;新的基于簇劃分文本分類方法[J];計算機工程與設(shè)計;2009年06期
10 楊林波;王士同;;基于類別分布特征的快速文本分類方法[J];計算機工程與設(shè)計;2009年05期
相關(guān)會議論文 前9條
1 陳克利;宗成慶;王霞;;基于大規(guī)模真實文本的平衡語料分析與文本分類方法[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
2 姚天f ;彭思崴;;漢語主客觀文本分類方法的研究[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
3 李月倫;李湘;常寶寶;袁毓林;;一種基于認(rèn)知情景框架的文本分類方法[A];第五屆全國青年計算語言學(xué)研討會論文集[C];2010年
4 張永;陳思睿;楊志勇;;一種改進(jìn)的文本分類方法的研究[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
5 陳毅恒;秦兵;劉挺;林建國;李生;;基于錯誤預(yù)測的文本分類方法[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
6 宋鑫穎;周志逵;;一種基于SVM的主動學(xué)習(xí)文本分類方法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年
7 盧嬌麗;鄭家恒;;基于粗糙集的文本分類方法研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
8 牛強;王志曉;陳岱;夏士雄;;基于支持向量機的Web文本分類方法[A];2006年全國開放式分布與并行計算學(xué)術(shù)會議論文集(一)[C];2006年
9 張政;周水庚;周傲英;;一種新的基于kNN和Rocchio的文本分類方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
相關(guān)碩士學(xué)位論文 前10條
1 江大鵬;基于詞向量的短文本分類方法研究[D];浙江大學(xué);2015年
2 陳遠(yuǎn)超;基于MapReduce的大數(shù)據(jù)文本分類方法研究[D];浙江師范大學(xué);2015年
3 年素磊;自由文本分類技術(shù)研究[D];南京大學(xué);2014年
4 譚建平;基于半監(jiān)督的SVM遷移學(xué)習(xí)文本分類方法[D];廣東工業(yè)大學(xué);2016年
5 黃旭;基于機器學(xué)習(xí)的漢語短文本分類方法研究與實現(xiàn)[D];黑龍江大學(xué);2016年
6 朱斐;一種富文本分類方法的研究與實現(xiàn)[D];蘇州大學(xué);2006年
7 李萍;基于改進(jìn)詞語權(quán)重的文本分類方法研究[D];東北師范大學(xué);2010年
8 王燕霞;基于相關(guān)主題模型的文本分類方法研究[D];蘇州大學(xué);2010年
9 張建興;一種提取類核的快速文本分類方法[D];蘭州理工大學(xué);2010年
10 陳林;獨立于語種的文本分類方法[D];重慶大學(xué);2007年
,本文編號:1983738
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1983738.html