天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類博士論文 >

文本挖掘中若干關(guān)鍵技術(shù)研究

發(fā)布時(shí)間:2020-11-05 21:13
   隨著計(jì)算機(jī)、傳感、通信等技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)作為全球信息資源網(wǎng)絡(luò),日益融入到人們的工作和生活中,文本作為信息的主要載體,也因此呈現(xiàn)爆炸式增長(zhǎng)。文本挖掘旨在從豐富的文本信息中獲取有用知識(shí),已成為學(xué)術(shù)界前沿研究領(lǐng)域之一。文本分類技術(shù)和文本摘要技術(shù)是文本挖掘研究的重要分支,廣泛用于網(wǎng)絡(luò)監(jiān)測(cè)、垃圾郵件過(guò)濾、信息檢索等應(yīng)用中。傳統(tǒng)文本分類算法僅使用全標(biāo)注文本樣本學(xué)習(xí)分類模型,然而實(shí)際應(yīng)用中標(biāo)注文本真實(shí)類別的代價(jià)十分昂貴,大量文本都是未標(biāo)注,或僅可標(biāo)注是否為正例樣本。因此,研究?jī)H采用正例與未標(biāo)注文本進(jìn)行學(xué)習(xí)的文本分類算法有著重要的意義。文本摘要技術(shù)對(duì)大量的文本快速地壓縮、提煉,生成文章的主旨,幫助人們快速獲取信息,其中句子排序在文檔摘要句子提取中起著關(guān)鍵作用。本文圍繞正例與未標(biāo)注文本分類問(wèn)題展開(kāi)研究,同時(shí)對(duì)文檔摘要中句子排序技術(shù)進(jìn)行了探索。主要工作如下:(1)針對(duì)現(xiàn)有兩階段策略對(duì)正例與未標(biāo)注文本學(xué)習(xí)時(shí),第一階段從未標(biāo)注樣本抽取可靠負(fù)例數(shù)量較少,質(zhì)量較低的問(wèn)題,提出基于概率密度估計(jì)的正例和未標(biāo)注學(xué)習(xí)方法。利用正例和負(fù)例文檔共享盡可能少的特征項(xiàng)這一特點(diǎn),充分利用未標(biāo)注文本的信息,基于概率密度估計(jì),盡可能多地從未標(biāo)注文本中抽取可靠正例和可靠負(fù)例,為驗(yàn)證該算法的有效性,以抽取的可靠負(fù)例文本,以及已有的標(biāo)注的正例文本作為訓(xùn)練集,構(gòu)造分類器。在真實(shí)數(shù)據(jù)集上Reuters-21578和20-Newsgroups的實(shí)驗(yàn)結(jié)果表明,本文提出的算法可以有效提取可靠負(fù)例,在第二步中構(gòu)建的分類器性能穩(wěn)定,在多數(shù)情況下分類性能優(yōu)于現(xiàn)有的兩階段算法,甚至于當(dāng)標(biāo)注的正例很少的情況下都具有良好的分類性能。(2)基于統(tǒng)計(jì)學(xué)習(xí)模型的正例與未標(biāo)注貝葉斯文本分類算法需要人為提供正例先驗(yàn)概率或者基于“完全樣本隨機(jī)選擇”假設(shè),對(duì)正例先驗(yàn)概率進(jìn)行估計(jì),這些做法都不符合實(shí)際應(yīng)用,針對(duì)此問(wèn)題,提出基于最大期望估計(jì)(EM)的正例和未標(biāo)注貝葉斯分類算法。該算法將每一個(gè)樣本的產(chǎn)生建模為一個(gè)隨機(jī)過(guò)程,并用EM算法估計(jì)參數(shù)的極大似然估計(jì)值,然后利用所獲參數(shù)值構(gòu)造分類器,進(jìn)而對(duì)未標(biāo)注樣本進(jìn)行分類。該算法不需要用戶給定正例的先驗(yàn)概率或基于“完全隨機(jī)選擇”假設(shè)模型進(jìn)行參數(shù)估計(jì)。在Reuters-21578以及20-Newsgroups語(yǔ)料庫(kù)上實(shí)驗(yàn)結(jié)果顯示,本研究提出的算法性能優(yōu)于現(xiàn)有的PNB算法。(3)研究了針對(duì)網(wǎng)絡(luò)式文本的正例和未標(biāo)注文本分類算法。處理網(wǎng)絡(luò)式文本需要同時(shí)考慮單個(gè)文本的內(nèi)部特征以及多個(gè)文本間的聯(lián)系特征,F(xiàn)有的正例和未標(biāo)注文本分類算法在標(biāo)注文本數(shù)目較大的數(shù)據(jù)集上性能表現(xiàn)良好,但是當(dāng)已標(biāo)注的文本數(shù)量較小時(shí)性能較差。針對(duì)該問(wèn)題,提出基于非負(fù)矩陣分解的正例和未標(biāo)注網(wǎng)絡(luò)式文本學(xué)習(xí)算法,對(duì)樣本的實(shí)例-特征矩陣以及網(wǎng)絡(luò)拓?fù)渚仃囘M(jìn)行分解,同時(shí)將監(jiān)督式信息通過(guò)一致性約束加入到目標(biāo)函數(shù)的優(yōu)化中。本研究主要對(duì)標(biāo)注文本極其稀少的網(wǎng)絡(luò)式文本進(jìn)行正例和未標(biāo)注學(xué)習(xí)。在基準(zhǔn)網(wǎng)絡(luò)式數(shù)據(jù)集Cora、CiteSeer、PubMed等5個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文提出的算法能夠提升分類性能。(4)研究了多文檔自動(dòng)摘要技術(shù)。多文檔自動(dòng)摘要的目的是產(chǎn)生一個(gè)簡(jiǎn)明的包含一組源文件主要信息的摘要。句子排序是多文檔自動(dòng)摘要中最重要的問(wèn)題。針對(duì)現(xiàn)有排序算法對(duì)句子進(jìn)行排序時(shí)僅考慮句子內(nèi)部特征,忽略句子外部聯(lián)系特征的問(wèn)題,提出一種基于圖的排序方法,在對(duì)句子排序中考慮句子-句子,句子-詞語(yǔ),詞語(yǔ)-詞語(yǔ)間的聯(lián)系特征信息。在DUC和TAC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該方法的有效性。
【學(xué)位單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2016
【中圖分類】:TP391.1
【部分圖文】:

文本挖掘,步驟,生活實(shí)踐,形式多樣


文本挖掘的步驟

數(shù)據(jù)集,均值,K值


圖 3-1 Acq 數(shù)據(jù)集在不同的 K 值下的 F1 均值Fig. 3-1 Average F1 in Different K for Acq Collection

數(shù)據(jù)集,均值,K值


圖 3-1 Acq 數(shù)據(jù)集在不同的 K 值下的 F1 均值Fig. 3-1 Average F1 in Different K for Acq Collection
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張?chǎng)?許鑫;;文本挖掘工具述評(píng)[J];圖書情報(bào)工作;2012年08期

2 邢鴻飛;;文本挖掘口角升溫[J];世界科學(xué);2013年05期

3 蔣良孝,蔡之華;文本挖掘及其應(yīng)用[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2003年02期

4 諶志群;張國(guó)煊;;文本挖掘研究進(jìn)展[J];模式識(shí)別與人工智能;2005年01期

5 王娜;李云松;;基于概念格的文本挖掘[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年01期

6 黃維金;顧益軍;;刑偵檔案文本挖掘系統(tǒng)平臺(tái)中的文本精煉初探[J];中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年02期

7 張燕;寒楓;楚紅濤;;文本挖掘簡(jiǎn)述[J];中國(guó)電力教育;2006年S3期

8 韓春;田大鋼;;對(duì)股票市場(chǎng)信息的文本挖掘[J];中國(guó)高新技術(shù)企業(yè);2008年23期

9 程志;黃榮懷;;文本挖掘及其教育應(yīng)用[J];現(xiàn)代遠(yuǎn)距離教育;2008年02期

10 鞏知樂(lè);張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期


相關(guān)博士學(xué)位論文 前10條

1 曹奇敏;網(wǎng)絡(luò)信息文本挖掘若干問(wèn)題研究[D];北京理工大學(xué);2015年

2 陳虹樞;基于主題模型的專利文本挖掘方法及應(yīng)用研究[D];北京理工大學(xué);2015年

3 李梅;文本挖掘中若干關(guān)鍵技術(shù)研究[D];西北農(nóng)林科技大學(xué);2016年

4 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年

5 周雪忠;文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D];浙江大學(xué);2004年

6 王明春;基于粗糙集的數(shù)據(jù)及文本挖掘方法研究[D];天津大學(xué);2005年

7 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年

8 文翰;面向信息檢索的Web文本挖掘方法研究[D];華南理工大學(xué);2012年

9 卜東波;聚類/分類理論研究及其在文本挖掘中的應(yīng)用[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2000年

10 陳曉云;文本挖掘若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2005年


相關(guān)碩士學(xué)位論文 前10條

1 任振宇;基于網(wǎng)絡(luò)新聞文本挖掘的英語(yǔ)寫作訓(xùn)練應(yīng)用[D];華南理工大學(xué);2015年

2 劉超;基于文本挖掘的輕量級(jí)搜索引擎[D];西南大學(xué);2015年

3 張磊;基于文本挖掘的項(xiàng)目風(fēng)險(xiǎn)分析方法研究[D];山東大學(xué);2015年

4 梁楠;基于文本挖掘的律師推薦方法研究與應(yīng)用[D];電子科技大學(xué);2015年

5 滕家雨;云框架下的文本挖掘算法并行化研究[D];中國(guó)礦業(yè)大學(xué);2015年

6 唐東;基于XML和SVM的Web文本挖掘系統(tǒng)研究[D];電子科技大學(xué);2014年

7 秦輝;基于文本挖掘的分布式網(wǎng)絡(luò)監(jiān)控系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年

8 諶語(yǔ);文本挖掘關(guān)鍵技術(shù)的研究及模擬實(shí)現(xiàn)[D];電子科技大學(xué);2014年

9 靳旭東;基于社會(huì)網(wǎng)絡(luò)分析下文本挖掘的微博營(yíng)銷[D];蘭州財(cái)經(jīng)大學(xué);2015年

10 何敏;基于MapReduce的文本挖掘研究[D];電子科技大學(xué);2015年



本文編號(hào):2872196

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2872196.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶38c77***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com