基于LDA的弱監(jiān)督文本分類方法
本文選題:文本分類 + 潛在狄利克雷分布; 參考:《計(jì)算機(jī)工程與設(shè)計(jì)》2017年01期
【摘要】:針對(duì)傳統(tǒng)的文本分類方法需要大量人工標(biāo)注好的訓(xùn)練數(shù)據(jù),且數(shù)據(jù)標(biāo)注的好壞會(huì)影響結(jié)果等問(wèn)題,通過(guò)對(duì)LDA及其相關(guān)模型的研究,提出一種基于LDA的弱監(jiān)督文本分類算法。無(wú)需人工標(biāo)注訓(xùn)練數(shù)據(jù),在處理文本時(shí),引入詞向量,保持文本中的詞序,加入二元語(yǔ)法。實(shí)驗(yàn)結(jié)果表明,該方法節(jié)省了人力、物力,取得了較優(yōu)效果。
[Abstract]:Based on the research of LDA and its correlation model , a weak supervised text classification algorithm based on LDA is proposed for the traditional text classification method , and a weak supervised text classification algorithm based on LDA is proposed .
【作者單位】: 鄭州大學(xué)信息工程學(xué)院;
【基金】:國(guó)家社會(huì)科學(xué)基金項(xiàng)目(14BYY096) 國(guó)家自然科學(xué)基金項(xiàng)目(61402419、61272221) 國(guó)家863高技術(shù)研究發(fā)展計(jì)劃基金項(xiàng)目(2012AA011101) 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué))開(kāi)放課題基金項(xiàng)目(201401) 國(guó)家973重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃基金項(xiàng)目(2014CB340504) 河南省高等學(xué)校重點(diǎn)科研基金項(xiàng)目(15A520098)
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳林;楊丹;;獨(dú)立于語(yǔ)種的文本分類方法[J];計(jì)算機(jī)工程與科學(xué);2008年06期
2 張燕平;徐慶鵬;蘇守寶;邢猛;;一種基于貪婪覆蓋的文本分類方法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年01期
3 焦慶爭(zhēng);蔚承建;;一種基于特征投票的文本分類方法[J];計(jì)算機(jī)工程;2010年09期
4 孟海東;張煉;呂海林;;基于圖模型的文本分類方法的研究[J];計(jì)算機(jī)與現(xiàn)代化;2010年09期
5 仲兆滿;李存華;;基于重要事件的文本分類方法研究[J];微電子學(xué)與計(jì)算機(jī);2012年03期
6 赫芳;王洋;;網(wǎng)絡(luò)的簡(jiǎn)監(jiān)督文本分類方法[J];計(jì)算機(jī)與網(wǎng)絡(luò);2012年17期
7 朱志寧;萬(wàn)小容;黃青松;;一種改進(jìn)的基于信噪比的文本分類方法[J];寧波廣播電視大學(xué)學(xué)報(bào);2005年04期
8 朱斐;刁紅軍;呂強(qiáng);;一種富文本分類方法的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2007年12期
9 臺(tái)德藝;謝飛;胡學(xué)鋼;;新的基于簇劃分文本分類方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年06期
10 楊林波;王士同;;基于類別分布特征的快速文本分類方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年05期
相關(guān)會(huì)議論文 前9條
1 陳克利;宗成慶;王霞;;基于大規(guī)模真實(shí)文本的平衡語(yǔ)料分析與文本分類方法[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
2 姚天f ;彭思崴;;漢語(yǔ)主客觀文本分類方法的研究[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
3 李月倫;李湘;常寶寶;袁毓林;;一種基于認(rèn)知情景框架的文本分類方法[A];第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2010年
4 張永;陳思睿;楊志勇;;一種改進(jìn)的文本分類方法的研究[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
5 陳毅恒;秦兵;劉挺;林建國(guó);李生;;基于錯(cuò)誤預(yù)測(cè)的文本分類方法[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
6 宋鑫穎;周志逵;;一種基于SVM的主動(dòng)學(xué)習(xí)文本分類方法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
7 盧嬌麗;鄭家恒;;基于粗糙集的文本分類方法研究[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
8 牛強(qiáng);王志曉;陳岱;夏士雄;;基于支持向量機(jī)的Web文本分類方法[A];2006年全國(guó)開(kāi)放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集(一)[C];2006年
9 張政;周水庚;周傲英;;一種新的基于kNN和Rocchio的文本分類方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
相關(guān)碩士學(xué)位論文 前10條
1 江大鵬;基于詞向量的短文本分類方法研究[D];浙江大學(xué);2015年
2 陳遠(yuǎn)超;基于MapReduce的大數(shù)據(jù)文本分類方法研究[D];浙江師范大學(xué);2015年
3 年素磊;自由文本分類技術(shù)研究[D];南京大學(xué);2014年
4 譚建平;基于半監(jiān)督的SVM遷移學(xué)習(xí)文本分類方法[D];廣東工業(yè)大學(xué);2016年
5 黃旭;基于機(jī)器學(xué)習(xí)的漢語(yǔ)短文本分類方法研究與實(shí)現(xiàn)[D];黑龍江大學(xué);2016年
6 朱斐;一種富文本分類方法的研究與實(shí)現(xiàn)[D];蘇州大學(xué);2006年
7 李萍;基于改進(jìn)詞語(yǔ)權(quán)重的文本分類方法研究[D];東北師范大學(xué);2010年
8 王燕霞;基于相關(guān)主題模型的文本分類方法研究[D];蘇州大學(xué);2010年
9 張建興;一種提取類核的快速文本分類方法[D];蘭州理工大學(xué);2010年
10 陳林;獨(dú)立于語(yǔ)種的文本分類方法[D];重慶大學(xué);2007年
,本文編號(hào):1983738
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1983738.html