基于種子詞的無監(jiān)督文本分類
本文選題:話題模型 切入點(diǎn):無監(jiān)督文本分類 出處:《武漢大學(xué)》2017年碩士論文
【摘要】:監(jiān)督型的分類模型通常需要大量標(biāo)注好的文本作為訓(xùn)練數(shù)據(jù),并且分類精度很大程度上取決于標(biāo)注文本的數(shù)量和質(zhì)量。然而,標(biāo)注大量的文本是十分費(fèi)力和耗時的,而且還涉及人為干預(yù)。因此從實(shí)踐的角度來探討減少標(biāo)注文本所帶來的代價(jià)是很重要的。降低標(biāo)簽獲取開銷的一個可能的解決方案,就是在文本分類模型中整合人類的領(lǐng)域知識。我們提出一種新的無監(jiān)督文本分類方法叫作基于種子詞的無監(jiān)督文本分類(Seed Guided Topic Model),以下簡稱STM。在我們的模型中,不需要標(biāo)注整篇文本,取而代之的是只需要標(biāo)注出幾個和類別相關(guān)的詞,又稱為"種子詞"。相較于標(biāo)注整篇文本,這在很大程度上減輕了對人工的需求。STM是基于LDA的模型,"話題"推斷仍是文本分類的基礎(chǔ),不同于LDA只有一種"話題",我們會假設(shè)每篇文本都會包含兩種話題:"類別相關(guān)話題",即與某一文本類別息息相關(guān)的話題;和"一般話題",即話題內(nèi)容并沒有明顯的類別方向。每個"類別相關(guān)話題"關(guān)聯(lián)到一個特定的文本類別,代表這個文本類別的具體談?wù)Z義。"一般話題"則致力于捕捉整個文本集的全局潛在語義信息。通過在兩個一直為文本分類領(lǐng)域廣泛使用的數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),STM被證明始終優(yōu)于現(xiàn)有的無監(jiān)督文本分類器。對于幾個詞頻重疊度較高的類別,STM甚至表現(xiàn)出比SVM這樣監(jiān)督型算法更優(yōu)秀的分類精度,這也間接證明了無監(jiān)督分類模型的良好潛力。進(jìn)一步的實(shí)驗(yàn)表明,STM對調(diào)優(yōu)參數(shù)不敏感,可以在比較廣泛參數(shù)設(shè)置上都保持一個穩(wěn)定的性能,這些優(yōu)點(diǎn)使之成為一種可以被用于實(shí)際環(huán)境中的模型。
[Abstract]:Supervised classification model usually needs a large number of tagged text as training data, and the classification accuracy depends on the quantity and quality of tagged text to a great extent. However, a large number of text tagging is very laborious and time-consuming. And it also involves human intervention. Therefore, it is important to explore the cost of reducing tagged text from a practical point of view. A possible solution to reduce tag acquisition overhead, We propose a new unsupervised text classification method called seed word based unsupervised text categorization (seed Guided Topic Modeler). Instead of tagging the entire text, instead of just tagging a few category-related words, also known as "seed words," instead of tagging the entire text, This largely alleviates the need for labor. STM is based on the LDA model, and topic inference is still the basis for text categorization. Unlike LDA, where there is only one "topic", we assume that each text will contain two topics: "category-related topics", that is, topics that are closely related to a given text category; And "general topic", meaning that the topic content has no obvious category direction. Each category related topic is associated with a specific text category, "General topic" is devoted to capturing the global potential semantic information of the entire text set. STM is experimented with on two data sets that have been widely used in the field of text classification. It has always proved to be superior to existing unsupervised text classifiers. For several categories with high word frequency overlap, STMs show better classification accuracy than supervised algorithms such as SVM. Further experiments show that STM is insensitive to tuning parameters and can maintain a stable performance in a wide range of parameter settings. These advantages make it a model that can be used in real situations.
【學(xué)位授予單位】:武漢大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李盛瑜;何文;;一種對聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期
2 蔣志方;祝翠玲;吳強(qiáng);;一個對不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期
3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計(jì);2007年18期
4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期
5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期
6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期
7 諶志群;;文本趨勢挖掘綜述[J];情報(bào)科學(xué);2010年02期
8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期
9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期
10 陳福海;C++中用>>和<<重載實(shí)現(xiàn)文本文件的方便存取[J];現(xiàn)代計(jì)算機(jī);1997年05期
相關(guān)會議論文 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會議論文集[C];2001年
10 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
相關(guān)重要報(bào)紙文章 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報(bào);2004年
相關(guān)博士學(xué)位論文 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年
3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年
4 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年
5 劉林;面向論壇文本的大學(xué)生情緒識別研究[D];華中師范大學(xué);2016年
6 張博宇;基于局部特征的場景文本分析方法研究[D];哈爾濱工業(yè)大學(xué);2015年
7 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年
8 孫曉華;基于聚類的文本機(jī)會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年
9 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
10 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年
2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年
3 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年
4 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年
5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評估及推薦應(yīng)用[D];華南理工大學(xué);2015年
6 黃晨;基于新詞識別和時間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年
7 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年
8 王s,
本文編號:1655752
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1655752.html