文本挖掘中若干關(guān)鍵技術(shù)研究

發(fā)布時間：2020-11-05 21:13

　　隨著計算機、傳感、通信等技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)作為全球信息資源網(wǎng)絡(luò),日益融入到人們的工作和生活中,文本作為信息的主要載體,也因此呈現(xiàn)爆炸式增長。文本挖掘旨在從豐富的文本信息中獲取有用知識,已成為學(xué)術(shù)界前沿研究領(lǐng)域之一。文本分類技術(shù)和文本摘要技術(shù)是文本挖掘研究的重要分支,廣泛用于網(wǎng)絡(luò)監(jiān)測、垃圾郵件過濾、信息檢索等應(yīng)用中。傳統(tǒng)文本分類算法僅使用全標(biāo)注文本樣本學(xué)習(xí)分類模型,然而實際應(yīng)用中標(biāo)注文本真實類別的代價十分昂貴,大量文本都是未標(biāo)注,或僅可標(biāo)注是否為正例樣本。因此,研究僅采用正例與未標(biāo)注文本進行學(xué)習(xí)的文本分類算法有著重要的意義。文本摘要技術(shù)對大量的文本快速地壓縮、提煉,生成文章的主旨,幫助人們快速獲取信息,其中句子排序在文檔摘要句子提取中起著關(guān)鍵作用。本文圍繞正例與未標(biāo)注文本分類問題展開研究,同時對文檔摘要中句子排序技術(shù)進行了探索。主要工作如下:(1)針對現(xiàn)有兩階段策略對正例與未標(biāo)注文本學(xué)習(xí)時,第一階段從未標(biāo)注樣本抽取可靠負(fù)例數(shù)量較少,質(zhì)量較低的問題,提出基于概率密度估計的正例和未標(biāo)注學(xué)習(xí)方法。利用正例和負(fù)例文檔共享盡可能少的特征項這一特點,充分利用未標(biāo)注文本的信息,基于概率密度估計,盡可能多地從未標(biāo)注文本中抽取可靠正例和可靠負(fù)例,為驗證該算法的有效性,以抽取的可靠負(fù)例文本,以及已有的標(biāo)注的正例文本作為訓(xùn)練集,構(gòu)造分類器。在真實數(shù)據(jù)集上Reuters-21578和20-Newsgroups的實驗結(jié)果表明,本文提出的算法可以有效提取可靠負(fù)例,在第二步中構(gòu)建的分類器性能穩(wěn)定,在多數(shù)情況下分類性能優(yōu)于現(xiàn)有的兩階段算法,甚至于當(dāng)標(biāo)注的正例很少的情況下都具有良好的分類性能。(2)基于統(tǒng)計學(xué)習(xí)模型的正例與未標(biāo)注貝葉斯文本分類算法需要人為提供正例先驗概率或者基于“完全樣本隨機選擇”假設(shè),對正例先驗概率進行估計,這些做法都不符合實際應(yīng)用,針對此問題,提出基于最大期望估計(EM)的正例和未標(biāo)注貝葉斯分類算法。該算法將每一個樣本的產(chǎn)生建模為一個隨機過程,并用EM算法估計參數(shù)的極大似然估計值,然后利用所獲參數(shù)值構(gòu)造分類器,進而對未標(biāo)注樣本進行分類。該算法不需要用戶給定正例的先驗概率或基于“完全隨機選擇”假設(shè)模型進行參數(shù)估計。在Reuters-21578以及20-Newsgroups語料庫上實驗結(jié)果顯示,本研究提出的算法性能優(yōu)于現(xiàn)有的PNB算法。(3)研究了針對網(wǎng)絡(luò)式文本的正例和未標(biāo)注文本分類算法。處理網(wǎng)絡(luò)式文本需要同時考慮單個文本的內(nèi)部特征以及多個文本間的聯(lián)系特征�，F(xiàn)有的正例和未標(biāo)注文本分類算法在標(biāo)注文本數(shù)目較大的數(shù)據(jù)集上性能表現(xiàn)良好,但是當(dāng)已標(biāo)注的文本數(shù)量較小時性能較差。針對該問題,提出基于非負(fù)矩陣分解的正例和未標(biāo)注網(wǎng)絡(luò)式文本學(xué)習(xí)算法,對樣本的實例-特征矩陣以及網(wǎng)絡(luò)拓?fù)渚仃囘M行分解,同時將監(jiān)督式信息通過一致性約束加入到目標(biāo)函數(shù)的優(yōu)化中。本研究主要對標(biāo)注文本極其稀少的網(wǎng)絡(luò)式文本進行正例和未標(biāo)注學(xué)習(xí)。在基準(zhǔn)網(wǎng)絡(luò)式數(shù)據(jù)集Cora、CiteSeer、PubMed等5個數(shù)據(jù)集上的實驗結(jié)果表明本文提出的算法能夠提升分類性能。(4)研究了多文檔自動摘要技術(shù)。多文檔自動摘要的目的是產(chǎn)生一個簡明的包含一組源文件主要信息的摘要。句子排序是多文檔自動摘要中最重要的問題。針對現(xiàn)有排序算法對句子進行排序時僅考慮句子內(nèi)部特征,忽略句子外部聯(lián)系特征的問題,提出一種基于圖的排序方法,在對句子排序中考慮句子-句子,句子-詞語,詞語-詞語間的聯(lián)系特征信息。在DUC和TAC數(shù)據(jù)集上的實驗結(jié)果表明該方法的有效性。
【學(xué)位單位】：西北農(nóng)林科技大學(xué)
【學(xué)位級別】：博士
【學(xué)位年份】：2016
【中圖分類】：TP391.1
【部分圖文】：

文本挖掘,步驟,生活實踐,形式多樣

文本挖掘的步驟

數(shù)據(jù)集,均值,K值

圖 3-1 Acq 數(shù)據(jù)集在不同的 K 值下的 F1 均值Fig. 3-1 Average F1 in Different K for Acq Collection

數(shù)據(jù)集,均值,K值

圖 3-1 Acq 數(shù)據(jù)集在不同的 K 值下的 F1 均值Fig. 3-1 Average F1 in Different K for Acq Collection
【相似文獻】

相關(guān)期刊論文前10條

1 張雯雯;許鑫;;文本挖掘工具述評[J];圖書情報工作;2012年08期

2 邢鴻飛;;文本挖掘口角升溫[J];世界科學(xué);2013年05期

3 蔣良孝,蔡之華;文本挖掘及其應(yīng)用[J];現(xiàn)代計算機(專業(yè)版);2003年02期

4 諶志群;張國煊;;文本挖掘研究進展[J];模式識別與人工智能;2005年01期

5 王娜;李云松;;基于概念格的文本挖掘[J];計算機技術(shù)與發(fā)展;2006年01期

6 黃維金;顧益軍;;刑偵檔案文本挖掘系統(tǒng)平臺中的文本精煉初探[J];中國人民公安大學(xué)學(xué)報(自然科學(xué)版);2006年02期

7 張燕;寒楓;楚紅濤;;文本挖掘簡述[J];中國電力教育;2006年S3期

8 韓春;田大鋼;;對股票市場信息的文本挖掘[J];中國高新技術(shù)企業(yè);2008年23期

9 程志;黃榮懷;;文本挖掘及其教育應(yīng)用[J];現(xiàn)代遠距離教育;2008年02期

10 鞏知樂;張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期

相關(guān)博士學(xué)位論文前10條

1 曹奇敏;網(wǎng)絡(luò)信息文本挖掘若干問題研究[D];北京理工大學(xué);2015年

2 陳虹樞;基于主題模型的專利文本挖掘方法及應(yīng)用研究[D];北京理工大學(xué);2015年

3 李梅;文本挖掘中若干關(guān)鍵技術(shù)研究[D];西北農(nóng)林科技大學(xué);2016年

4 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年

5 周雪忠;文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D];浙江大學(xué);2004年

6 王明春;基于粗糙集的數(shù)據(jù)及文本挖掘方法研究[D];天津大學(xué);2005年

7 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年

8 文翰;面向信息檢索的Web文本挖掘方法研究[D];華南理工大學(xué);2012年

9 卜東波;聚類/分類理論研究及其在文本挖掘中的應(yīng)用[D];中國科學(xué)院研究生院（計算技術(shù)研究所）;2000年

10 陳曉云;文本挖掘若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2005年

相關(guān)碩士學(xué)位論文前10條

1 任振宇;基于網(wǎng)絡(luò)新聞文本挖掘的英語寫作訓(xùn)練應(yīng)用[D];華南理工大學(xué);2015年

2 劉超;基于文本挖掘的輕量級搜索引擎[D];西南大學(xué);2015年

3 張磊;基于文本挖掘的項目風(fēng)險分析方法研究[D];山東大學(xué);2015年

4 梁楠;基于文本挖掘的律師推薦方法研究與應(yīng)用[D];電子科技大學(xué);2015年

5 滕家雨;云框架下的文本挖掘算法并行化研究[D];中國礦業(yè)大學(xué);2015年

6 唐東;基于XML和SVM的Web文本挖掘系統(tǒng)研究[D];電子科技大學(xué);2014年

7 秦輝;基于文本挖掘的分布式網(wǎng)絡(luò)監(jiān)控系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2014年

8 諶語;文本挖掘關(guān)鍵技術(shù)的研究及模擬實現(xiàn)[D];電子科技大學(xué);2014年

9 靳旭東;基于社會網(wǎng)絡(luò)分析下文本挖掘的微博營銷[D];蘭州財經(jīng)大學(xué);2015年

10 何敏;基于MapReduce的文本挖掘研究[D];電子科技大學(xué);2015年

本文編號：2872196

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xxkjbs/2872196.html

上一篇：大尺寸低紋理零構(gòu)件的三維測量關(guān)鍵技術(shù)研究
下一篇：單小區(qū)多用戶通信系統(tǒng)中基于能量效率的無線資源管理研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

文本挖掘中若干關(guān)鍵技術(shù)研究