天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于種子詞的無監(jiān)督文本分類

發(fā)布時間:2018-03-23 23:37

  本文選題:話題模型 切入點(diǎn):無監(jiān)督文本分類 出處:《武漢大學(xué)》2017年碩士論文


【摘要】:監(jiān)督型的分類模型通常需要大量標(biāo)注好的文本作為訓(xùn)練數(shù)據(jù),并且分類精度很大程度上取決于標(biāo)注文本的數(shù)量和質(zhì)量。然而,標(biāo)注大量的文本是十分費(fèi)力和耗時的,而且還涉及人為干預(yù)。因此從實(shí)踐的角度來探討減少標(biāo)注文本所帶來的代價(jià)是很重要的。降低標(biāo)簽獲取開銷的一個可能的解決方案,就是在文本分類模型中整合人類的領(lǐng)域知識。我們提出一種新的無監(jiān)督文本分類方法叫作基于種子詞的無監(jiān)督文本分類(Seed Guided Topic Model),以下簡稱STM。在我們的模型中,不需要標(biāo)注整篇文本,取而代之的是只需要標(biāo)注出幾個和類別相關(guān)的詞,又稱為"種子詞"。相較于標(biāo)注整篇文本,這在很大程度上減輕了對人工的需求。STM是基于LDA的模型,"話題"推斷仍是文本分類的基礎(chǔ),不同于LDA只有一種"話題",我們會假設(shè)每篇文本都會包含兩種話題:"類別相關(guān)話題",即與某一文本類別息息相關(guān)的話題;和"一般話題",即話題內(nèi)容并沒有明顯的類別方向。每個"類別相關(guān)話題"關(guān)聯(lián)到一個特定的文本類別,代表這個文本類別的具體談?wù)Z義。"一般話題"則致力于捕捉整個文本集的全局潛在語義信息。通過在兩個一直為文本分類領(lǐng)域廣泛使用的數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),STM被證明始終優(yōu)于現(xiàn)有的無監(jiān)督文本分類器。對于幾個詞頻重疊度較高的類別,STM甚至表現(xiàn)出比SVM這樣監(jiān)督型算法更優(yōu)秀的分類精度,這也間接證明了無監(jiān)督分類模型的良好潛力。進(jìn)一步的實(shí)驗(yàn)表明,STM對調(diào)優(yōu)參數(shù)不敏感,可以在比較廣泛參數(shù)設(shè)置上都保持一個穩(wěn)定的性能,這些優(yōu)點(diǎn)使之成為一種可以被用于實(shí)際環(huán)境中的模型。
[Abstract]:Supervised classification model usually needs a large number of tagged text as training data, and the classification accuracy depends on the quantity and quality of tagged text to a great extent. However, a large number of text tagging is very laborious and time-consuming. And it also involves human intervention. Therefore, it is important to explore the cost of reducing tagged text from a practical point of view. A possible solution to reduce tag acquisition overhead, We propose a new unsupervised text classification method called seed word based unsupervised text categorization (seed Guided Topic Modeler). Instead of tagging the entire text, instead of just tagging a few category-related words, also known as "seed words," instead of tagging the entire text, This largely alleviates the need for labor. STM is based on the LDA model, and topic inference is still the basis for text categorization. Unlike LDA, where there is only one "topic", we assume that each text will contain two topics: "category-related topics", that is, topics that are closely related to a given text category; And "general topic", meaning that the topic content has no obvious category direction. Each category related topic is associated with a specific text category, "General topic" is devoted to capturing the global potential semantic information of the entire text set. STM is experimented with on two data sets that have been widely used in the field of text classification. It has always proved to be superior to existing unsupervised text classifiers. For several categories with high word frequency overlap, STMs show better classification accuracy than supervised algorithms such as SVM. Further experiments show that STM is insensitive to tuning parameters and can maintain a stable performance in a wide range of parameter settings. These advantages make it a model that can be used in real situations.
【學(xué)位授予單位】:武漢大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李盛瑜;何文;;一種對聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期

2 蔣志方;祝翠玲;吳強(qiáng);;一個對不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期

3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計(jì);2007年18期

4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期

5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期

6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期

7 諶志群;;文本趨勢挖掘綜述[J];情報(bào)科學(xué);2010年02期

8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期

9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期

10 陳福海;C++中用>>和<<重載實(shí)現(xiàn)文本文件的方便存取[J];現(xiàn)代計(jì)算機(jī);1997年05期

相關(guān)會議論文 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

相關(guān)重要報(bào)紙文章 前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報(bào);2004年

相關(guān)博士學(xué)位論文 前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年

2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年

3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年

4 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年

5 劉林;面向論壇文本的大學(xué)生情緒識別研究[D];華中師范大學(xué);2016年

6 張博宇;基于局部特征的場景文本分析方法研究[D];哈爾濱工業(yè)大學(xué);2015年

7 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年

8 孫曉華;基于聚類的文本機(jī)會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年

9 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年

10 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年

2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年

3 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年

4 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年

5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評估及推薦應(yīng)用[D];華南理工大學(xué);2015年

6 黃晨;基于新詞識別和時間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年

7 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年

8 王s,

本文編號:1655752


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1655752.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶331ef***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美自拍偷自拍亚洲精品| 欧美乱妇日本乱码特黄大片| 欧美自拍偷自拍亚洲精品| 欧美性高清一区二区三区视频| 久久热麻豆国产精品视频| 久久本道综合色狠狠五月 | 国产又长又粗又爽免费视频| 欧美精品一区二区水蜜桃| 亚洲国产成人av毛片国产| 亚洲精品高清国产一线久久| 日本欧美一区二区三区高清| 大香蕉久久精品一区二区字幕| 人妻熟女欲求不满一区二区| 国产日韩在线一二三区| 91精品国产品国语在线不卡 | 一区二区在线激情视频| 日韩欧美综合在线播放| 亚洲最新中文字幕在线视频| 色丁香之五月婷婷开心| 精品国产亚洲av久一区二区三区| 精品推荐久久久国产av| 空之色水之色在线播放| 国内女人精品一区二区三区| 日韩欧美国产高清在线| 国产成人精品资源在线观看| 成人精品视频在线观看不卡| 久久精品a毛片看国产成人| 在线九月婷婷丁香伊人| 久久99午夜福利视频| 亚洲一区二区三区国产| 男女午夜在线免费观看视频| 这里只有九九热精品视频| 亚洲国产av在线观看一区| 性欧美唯美尤物另类视频| 九九热精彩视频在线播放| 丰满人妻熟妇乱又乱精品古代| 在线日本不卡一区二区| 国产乱淫av一区二区三区| 亚洲av熟女国产一区二区三区站| 欧美日韩无卡一区二区| 欧美精品一区二区水蜜桃|