天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多示例多標簽分類的Web文本挖掘研究

發(fā)布時間:2018-06-20 11:41

  本文選題:多示例學(xué)習(xí) + 最小二乘雙支持向量機; 參考:《天津理工大學(xué)》2017年碩士論文


【摘要】:隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)信息資源增長迅猛,對海量數(shù)據(jù)的分類提出了進一步的要求。文本分類作為文本挖掘最重要的研究方向,在現(xiàn)實生活中有著廣泛的應(yīng)用。研究如何對文本進行有效的表示、有效的查找信息成為現(xiàn)在文本挖掘領(lǐng)域迫在眉睫的研究課題,F(xiàn)實生活中多示例多標簽文本大量存在,對文本分類研究提出了新的挑戰(zhàn)。傳統(tǒng)的文本分類基本是單示例單標簽分類,無法對多語義、多類別的文本進行準確的處理,本文提出多示例多標簽學(xué)習(xí)對多標簽文本進行準確有效的分類。本文主要研究了以下幾個方面的內(nèi)容:(1)使用多示例多標簽學(xué)習(xí)框架進行中文文本分類。多示例學(xué)習(xí)和多標簽學(xué)習(xí)分別是針對語義歧義和多類別學(xué)習(xí)問題提出的,多示例多標簽學(xué)習(xí)(MIML)主要針對圖像分類、網(wǎng)頁檢索等的研究領(lǐng)域并取得了很好的成果,本文將多示例多標簽學(xué)習(xí)(MIML)方法應(yīng)用于中文文本分類,針對中文特有的結(jié)構(gòu)及文本的多類別特征,改進MIML學(xué)習(xí)框架,使之更適用于中文文本分類,為中文文本分類提出了一種新的思路。(2)文本表示作為文本分類的一個關(guān)鍵步驟,對于后續(xù)分類器的學(xué)習(xí)性能有很大的影響。本文針對中文文本語義豐富的特點使用多示例句子包進行文本表示。目前主流的文本表示方法有VSM,這種方法以詞作為文本切分粒度,對特征項進行了獨立性假設(shè),詞間的語義信息丟失。針對語義缺失問題,本文引入多示例文本表示,使用多示例包對文本進行處理,使用句子作為文本表示的最小單位,使詞間的語義信息得以保留。數(shù)據(jù)表示階段使用多示例句子包的形式進行文本表示,避免基于語義獨立性假設(shè)帶來的語義損失,并進一步優(yōu)化處理使其成為主題包,縮短了文本處理的時間。(3)在文本分類階段使用改進的LSTSVM多標簽分類器進行分類。對于使用多示例主題包表示的文本,基于退化策略將多示例多標簽數(shù)據(jù)通過聚類處理成為單示例多標簽學(xué)習(xí),使用改進的最小二乘雙支持向量機(LSTSVM)多標簽分類器對文本進行分類。最小二乘雙支持向量機把一個大型QPP問題轉(zhuǎn)化成兩個小型QPP問題,計算速度得到了提升并降低了計算復(fù)雜度。(4)根據(jù)改進的算法設(shè)計構(gòu)造多示例多標簽文本分類系統(tǒng),使用reuter-21578新聞?wù)Z料、Emotion數(shù)據(jù)集和同濟大學(xué)的中文語料庫數(shù)據(jù)集對改進的算法進行實驗驗證和結(jié)果分析,實驗結(jié)果表明改進的算法在評價指標上優(yōu)于目前存在的多標簽分類算法。
[Abstract]:With the rapid development of network technology and the rapid growth of Internet information resources, the classification of massive data has been further required. Text classification, as the most important research direction of text mining, is widely used in real life. How to effectively represent text and find information effectively becomes an urgent research topic in the field of text mining. In real life, there are a lot of multi-example and multi-label text, which brings a new challenge to the research of text classification. Traditional text categorization is a single example and single label classification, which can not deal with multi-semantic and multi-category text accurately. This paper proposes multi-example multi-label learning to classify multi-label text accurately and effectively. This paper mainly studies the following aspects: 1) using multi-example multi-label learning framework to classify Chinese text. Multi-example learning and multi-label learning are proposed for semantic ambiguity and multi-class learning respectively. Multi-example multi-label learning (MIMLL) mainly focuses on image classification, web search and other research areas, and has achieved good results. In this paper, multi-example multi-label learning (MIML) method is applied to Chinese text classification, and the MIML learning framework is improved to make it more suitable for Chinese text classification. As a key step of text categorization, a new approach to Chinese text categorization is proposed, which has great influence on the learning performance of subsequent classifiers. In view of the rich semantic characteristics of Chinese text, this paper uses multiple sample sentence packets for text representation. At present, VSM is the main text representation method, which takes words as the granularity of text segmentation, and assumes the independence of feature items, and the semantic information between words is lost. In this paper, we introduce multi-sample text representation, use multi-sample packages to process the text, and use sentences as the smallest unit of text representation, so that the semantic information between words can be preserved. The data presentation phase uses multiple sample sentence packages for text representation to avoid semantic loss based on semantic independence assumptions and to further optimize processing to make it a topic package. The text processing time is shortened. 3) the improved LSTSVM multi-label classifier is used in the text classification stage. For text represented by multi-sample topic packages, multi-sample multi-tag data is clustered into single-sample multi-tag learning based on degradation strategy. An improved least squares double support vector machine (LSTSVM) multi-label classifier is used to classify text. The least square double support vector machine transforms a large QPP problem into two small QPP problems. The computational speed is improved and the computational complexity is reduced. (4) based on the improved algorithm, a multi-example multi-label text classification system is designed and constructed. Using the reuter-21578 news corpus and the Chinese corpus data set of Tongji University, the improved algorithm is verified and analyzed. The experimental results show that the improved algorithm is superior to the existing multi-label classification algorithm in evaluation index.
【學(xué)位授予單位】:天津理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1;TP393.09

【相似文獻】

相關(guān)期刊論文 前10條

1 陳朵玲,胡肖鋒;基于Web文本挖掘技術(shù)的企業(yè)競爭情報系統(tǒng)研究[J];情報雜志;2005年06期

2 孫鐵利;王圓;;一個基于人工神經(jīng)網(wǎng)絡(luò)的Web文本過濾系統(tǒng)[J];計算機時代;2006年06期

3 李光敏;許新山;熊旭輝;;Web文本情感分析研究綜述[J];現(xiàn)代情報;2014年05期

4 劉明吉;饒一梅;王秀峰;黃亞樓;;基于模糊近似度的Web文本過濾模型[J];計算機科學(xué);2001年12期

5 王序臻;;Web文本層次分類方法研究[J];溫州職業(yè)技術(shù)學(xué)院學(xué)報;2008年03期

6 鄒志華;田生偉;禹龍;馮冠軍;;改進的維吾爾語Web文本后綴樹聚類[J];中文信息學(xué)報;2013年02期

7 王景中;郭兆亮;;基于分層的中文Web文本內(nèi)容過濾研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2012年11期

8 曹建芳;王鴻斌;;一種新的基于SVM-KNN的Web文本分類算法[J];計算機與數(shù)字工程;2010年04期

9 李澤峰;王煜;;基于RBF神經(jīng)網(wǎng)絡(luò)和關(guān)聯(lián)規(guī)則的Web文本分類規(guī)則獲取方法[J];圖書情報工作;2006年10期

10 王健;韓廣琳;;基于統(tǒng)計的Web文本自動摘要技術(shù)分析[J];福建電腦;2007年08期

相關(guān)會議論文 前3條

1 劉斕冰;魏桂英;;Web文本信息挖掘技術(shù)[A];全國第十屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)年會論文集[C];2006年

2 于海燕;陳曉江;馮健;房鼎益;;Web文本內(nèi)容過濾方法的研究[A];2006年全國開放式分布與并行計算學(xué)術(shù)會議論文集(一)[C];2006年

3 袁志堅;賈焰;;基于誤差反饋的高速Web文本流快速近似分類[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年

相關(guān)博士學(xué)位論文 前2條

1 閆季鴻;基于Web文本和知識圖譜的實體摘要[D];華東師范大學(xué);2016年

2 王占一;Web文本挖掘中若干問題的研究[D];北京郵電大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 夏彬彬;基于Web文本挖掘的情感分析研究[D];桂林電子科技大學(xué);2016年

2 陳利鵬;Web文本分類關(guān)鍵技術(shù)研究與應(yīng)用[D];西安電子科技大學(xué);2015年

3 邱超;基于Web文本的文物知識圖譜自動生成方法研究[D];西北大學(xué);2016年

4 王麗輝;基于多示例多標簽分類的Web文本挖掘研究[D];天津理工大學(xué);2017年

5 于帥;中文Web文本情感傾向性分析技術(shù)的研究[D];哈爾濱工程大學(xué);2013年

6 尹麗玲;基于人工免疫算法的Web文本挖掘研究[D];哈爾濱工程大學(xué);2010年

7 郭凱;面向Web文本的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究與實現(xiàn)[D];西安電子科技大學(xué);2009年

8 鄧琨;基于Rough集的Web文本分類及其信息抽取研究[D];南昌大學(xué);2007年

9 桂海霞;利用表格等信息的Web文本分類研究與實現(xiàn)[D];安徽理工大學(xué);2008年

10 張諶奇;支持向量機在Web文本分類中的分析與應(yīng)用[D];暨南大學(xué);2008年



本文編號:2044137

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2044137.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶37dfb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com