基于大規(guī)模文本數(shù)據(jù)集的相似檢測(cè)關(guān)鍵技術(shù)研究
本文選題:大數(shù)據(jù) + 相似檢測(cè) ; 參考:《吉林大學(xué)》2016年博士論文
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)及相關(guān)產(chǎn)業(yè)的迅猛發(fā)展,數(shù)據(jù)正以前所未有的規(guī)模急速增加,數(shù)據(jù)是與自然資源、人力資源一樣重要的戰(zhàn)略資源;掌控?cái)?shù)據(jù)資源的能力是國(guó)家數(shù)字主動(dòng)權(quán)的體現(xiàn)。因此數(shù)據(jù)的收集、存儲(chǔ)、處理、分析以及由此產(chǎn)生的信息服務(wù)正成為全球信息技術(shù)發(fā)展的主流,大數(shù)據(jù)研究和應(yīng)用已成為產(chǎn)業(yè)升級(jí)與新產(chǎn)業(yè)崛起的重要推動(dòng)力量。作為一種商業(yè)資本和戰(zhàn)略資源,大數(shù)據(jù)在帶給推動(dòng)力的同時(shí),也帶來(lái)了挑戰(zhàn);如何在海量數(shù)據(jù)中探尋有價(jià)值的資源,是擺在研究者面前的首要任務(wù)。然而,海量信息中也夾雜了大量重復(fù)或相似內(nèi)容,這些內(nèi)容的存在,不但浪費(fèi)了大量存儲(chǔ)資源,降低網(wǎng)絡(luò)的傳輸速度,也直接影響搜索引擎的整體性能,加重了用戶尋找有價(jià)值資源的負(fù)擔(dān)。大數(shù)據(jù)處理目標(biāo)是以有效的信息技術(shù)手段和計(jì)算方法,挖掘和提取數(shù)據(jù)中的深度價(jià)值資源,為行業(yè)提供高附加值的應(yīng)用和服務(wù)。因此,如何有效管理和利用海量信息,使用合適的技術(shù),篩選掉其中無(wú)用或不相關(guān)的內(nèi)容,快速高效地發(fā)掘出潛在價(jià)值的知識(shí)與信息,并進(jìn)行合理分類、準(zhǔn)確定位,是當(dāng)前大數(shù)據(jù)處理中亟需解決的問(wèn)題。因此,本論文針對(duì)大規(guī)模文本數(shù)據(jù)的相似檢測(cè)問(wèn)題,圍繞數(shù)據(jù)的分類與挖掘、特征提取、相似檢測(cè)、Map Reduce計(jì)算模型等相關(guān)理論和關(guān)鍵技術(shù)的研究,設(shè)計(jì)了以關(guān)聯(lián)規(guī)則和樸素貝葉斯為基礎(chǔ)的多重置信門(mén)限值分類分類方法;提出基于互信息的詞頻文本特征提取方案;構(gòu)建了并行化的大規(guī)模文本相似檢測(cè)平臺(tái)。本研究在理論上具有創(chuàng)新性,實(shí)踐上有可行性。具體來(lái)說(shuō),主要工作與創(chuàng)新體現(xiàn)在以下方面:1.針對(duì)相似檢測(cè)的背景知識(shí),研究針對(duì)文本分類的相關(guān)理論與技術(shù)。文本分類的任務(wù)是在給定的分類體系下,根據(jù)每類樣本的數(shù)據(jù)信息,建立相應(yīng)的類別判定公式和類別判定規(guī)則,并總結(jié)出分類規(guī)律。這樣,當(dāng)需要為待分類文本確定其類別時(shí),根據(jù)已總結(jié)的類別判定公式和類別判定規(guī)則,就能夠把待分類文本劃分到相應(yīng)的類別中去。分類過(guò)程包括:文本預(yù)處理、特征選擇、特征加權(quán)、文本表示和分類算法等關(guān)鍵技術(shù);論文在對(duì)上述過(guò)程進(jìn)行深入的研究后,重點(diǎn)研究分類器的設(shè)計(jì)與實(shí)現(xiàn)、分類評(píng)價(jià)標(biāo)準(zhǔn)等;上述過(guò)程的研究,為文本相似檢測(cè)奠定理論基礎(chǔ)。2.針對(duì)相似檢測(cè)過(guò)程分類精確率低等問(wèn)題,結(jié)合樸素貝葉斯分類和關(guān)聯(lián)規(guī)則挖掘,提出了一種具有多重門(mén)限值的分類方法。該方法應(yīng)用于大規(guī)模文本數(shù)據(jù)集的分類過(guò)程,能有效地提高文檔分類精確度。由于貝葉斯分類優(yōu)點(diǎn)在于計(jì)算過(guò)程簡(jiǎn)單,但忽略了文本詞組間的相互聯(lián)系,所以可采用關(guān)聯(lián)規(guī)則挖掘方法,為有關(guān)系的文本類設(shè)定合適置信門(mén)限值,分類器將為文檔分類的執(zhí)行獲得較高的精確率,從而彌補(bǔ)了貝葉斯分類的缺點(diǎn)。該方法首先通過(guò)算法將預(yù)處理的文本數(shù)據(jù)庫(kù)轉(zhuǎn)變成關(guān)聯(lián)規(guī)則,在排序規(guī)則集中,對(duì)訓(xùn)練數(shù)據(jù)集的分類從第一條規(guī)則開(kāi)始判斷,若第一條規(guī)則分類精確率比指定規(guī)則的置信門(mén)限值高,則從訓(xùn)練數(shù)據(jù)集中刪除通過(guò)指定規(guī)則分類的數(shù)據(jù),并且保存這一規(guī)則到規(guī)則集中去,創(chuàng)建關(guān)聯(lián)分類器;否則,這一規(guī)則將從分類器中刪除。該過(guò)程一直重復(fù)進(jìn)行下去,直到所有排序的規(guī)則都被識(shí)別后,獲得所有支持度大于最小支持度的關(guān)聯(lián)規(guī)則。實(shí)驗(yàn)驗(yàn)證表明,該方法相比較于單獨(dú)分類器的分類結(jié)果,能夠獲得較高的分類精確率和召回率。3.針對(duì)在相似檢測(cè)過(guò)程中,提取特征向量精度低、特征子集數(shù)量大的問(wèn)題,提出了基于互信息的詞頻文本特征提取方法。該方法以輸入類別集合、各個(gè)類別中文本和每個(gè)文本詞條在類別中出現(xiàn)次數(shù)為初始條件,首先,對(duì)輸入類別的文本進(jìn)行分詞建立索引,然后對(duì)文本中詞條循環(huán)讀取,在訓(xùn)練集內(nèi)的每個(gè)類別文本中計(jì)算特征詞出現(xiàn)次數(shù)大于或等于某個(gè)值的文本數(shù);接著,計(jì)算特征詞相對(duì)于每個(gè)類別的特征頻率和每個(gè)文本中出現(xiàn)的平均次數(shù);最后,在各個(gè)類別中計(jì)算詞條互信息值,將值最大的詞條放入特征集合中,直到特征詞個(gè)數(shù)達(dá)到閾值后,完成對(duì)文本特征的提取。通過(guò)在Sogou T語(yǔ)料庫(kù)上測(cè)試和驗(yàn)證,該方法不僅能夠獲取較小特征子集,而且保持了較高分類精度。4.針對(duì)大規(guī)模文本數(shù)據(jù)相似檢測(cè)過(guò)程中,數(shù)據(jù)量大、并行設(shè)計(jì)方法復(fù)雜且效率低的問(wèn)題,提出了云平臺(tái)下的大規(guī)模文本相似檢測(cè)方法。該方法借鑒Sim Hash算法,使用段落加權(quán)長(zhǎng)句的方法來(lái)獲得段落指紋,然后利用Map Reduce計(jì)算模型計(jì)算相似度。具體來(lái)說(shuō),首先采用特征提取方法獲得文本的段落指紋,將該指紋作為關(guān)鍵字排序并建立索引;其次用待檢測(cè)文本的段落指紋在已有的文本庫(kù)中進(jìn)行索引,檢索出可能重復(fù)或相似的文本;最后,根據(jù)檢索的結(jié)果,與待檢測(cè)文本執(zhí)行相互的具體相似度計(jì)算,根據(jù)計(jì)算結(jié)果,決定待檢測(cè)文本是否與已有文本近似。通過(guò)搭建Hadoop實(shí)驗(yàn)平臺(tái),采用三種不同規(guī)模的網(wǎng)頁(yè)數(shù)據(jù)集來(lái)驗(yàn)證所設(shè)計(jì)方案的可行性,在數(shù)據(jù)集上分別執(zhí)行運(yùn)算時(shí)間和加速度比測(cè)試,實(shí)驗(yàn)數(shù)據(jù)表明,經(jīng)過(guò)Map Reduce并行化設(shè)計(jì)后,相似檢測(cè)的執(zhí)行時(shí)間和效率得到顯著的改善,特別是隨著數(shù)據(jù)規(guī)模的增大和Hadoop集群中機(jī)器數(shù)量的增多,算法效率提升更明顯,針對(duì)大規(guī)模數(shù)據(jù)集的相似檢測(cè)優(yōu)勢(shì)更加突出。
[Abstract]:......
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 董璇;蔡立軍;;基于不平衡類數(shù)據(jù)集分類的空間插值方法[J];計(jì)算機(jī)仿真;2012年12期
2 張諍;王惠文;;大規(guī)模復(fù)雜數(shù)據(jù)集的約簡(jiǎn)方法[J];計(jì)算機(jī)工程;2010年23期
3 ;拒絕數(shù)字化[J];每周電腦報(bào);1999年03期
4 呂海燕;李華偉;呂紅;方霞;;元數(shù)據(jù)注冊(cè)系統(tǒng)中數(shù)據(jù)集分類在衛(wèi)生信息系統(tǒng)中的應(yīng)用[J];計(jì)算技術(shù)與自動(dòng)化;2011年03期
5 顧靜秋;吳華瑞;朱華吉;;數(shù)據(jù)集濃縮研究綜述[J];計(jì)算機(jī)應(yīng)用與軟件;2012年10期
6 趙成龍;陳樂(lè)義;張冉;李紅;;一種快速有效處理數(shù)據(jù)集分類問(wèn)題的新算法[J];山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年04期
7 張宏基;李文中;陸桑璐;;基于異步信息的匿名移動(dòng)數(shù)據(jù)集的用戶身份識(shí)別[J];計(jì)算機(jī)科學(xué);2013年11期
8 李芳芳;田志軍;;數(shù)據(jù)庫(kù)快速查詢方法研究與應(yīng)用[J];微電子學(xué)與計(jì)算機(jī);2012年03期
9 趙國(guó)強(qiáng);王會(huì)進(jìn);;一種用于大規(guī)模數(shù)據(jù)集的決策樹(shù)采樣策略[J];微型機(jī)與應(yīng)用;2010年21期
10 李浩;梅清;鄭祥穩(wěn);;ADO.NET中的數(shù)據(jù)集訪問(wèn)技巧[J];軟件導(dǎo)刊;2006年13期
相關(guān)會(huì)議論文 前8條
1 許曉峰;金澈清;高明;周傲英;;面向大型數(shù)據(jù)集合的關(guān)鍵分類查找算法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
2 馬垣;崔麗;劉鴻雁;梁材;;關(guān)系中的概念與命題[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
3 郭景峰;杜京;馬倩;鄒曉紅;;一種基于數(shù)據(jù)集性質(zhì)的快速等差模式聚類算法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
4 向堅(jiān);俞堅(jiān);葉綠;;一種高效的大規(guī)模RFID數(shù)據(jù)集合清理方法[A];第六屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集(3)[C];2008年
5 盧建松;曹慶華;傅翠嬌;;探究Delphi平臺(tái)下處理.NET Web Service返回?cái)?shù)據(jù)集的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
6 張路;袁曉潔;劉芳;竇志成;;大規(guī)模數(shù)據(jù)集的分布式索引機(jī)制研究[A];2008年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2008年
7 于愛(ài)榮;劉曉明;曹雷;王俊;;NET Web Services數(shù)據(jù)集在Delphi中的處理與研究[A];中國(guó)航空學(xué)會(huì)信號(hào)與信息處理專業(yè)全國(guó)第八屆學(xué)術(shù)會(huì)議論文集[C];2004年
8 王加陽(yáng);;動(dòng)態(tài)約簡(jiǎn)抽樣分析[A];2006年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2006年
相關(guān)重要報(bào)紙文章 前1條
1 李開(kāi)鵬 溫德成;SPSS:質(zhì)量信息管理的助手[N];中國(guó)質(zhì)量報(bào);2005年
相關(guān)博士學(xué)位論文 前7條
1 王海濤;基于大規(guī)模文本數(shù)據(jù)集的相似檢測(cè)關(guān)鍵技術(shù)研究[D];吉林大學(xué);2016年
2 申彥;大規(guī)模數(shù)據(jù)集高效數(shù)據(jù)挖掘算法研究[D];江蘇大學(xué);2013年
3 唐勤;非均衡數(shù)據(jù)分類算法及其在助學(xué)貸款風(fēng)險(xiǎn)管理中的應(yīng)用研究[D];華中科技大學(xué);2012年
4 谷瓊;面向非均衡數(shù)據(jù)集的機(jī)器學(xué)習(xí)及在地學(xué)數(shù)據(jù)處理中的應(yīng)用[D];中國(guó)地質(zhì)大學(xué);2009年
5 于澝;基于一維SOM神經(jīng)網(wǎng)絡(luò)的聚類及數(shù)據(jù)分析方法研究[D];天津大學(xué);2009年
6 彭濤;基于特征和實(shí)例的海量數(shù)據(jù)約簡(jiǎn)方法研究[D];華中科技大學(xué);2011年
7 於躍成;基于半監(jiān)督學(xué)習(xí)的分布式和演化聚類研究[D];南京航空航天大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 李建勛;基于模糊聚類分析的數(shù)據(jù)異常知識(shí)發(fā)現(xiàn)方法[D];哈爾濱工業(yè)大學(xué);2015年
2 俞闖;半監(jiān)督學(xué)習(xí)中不平衡數(shù)據(jù)集分類研究[D];大連理工大學(xué);2015年
3 周維潔;基于智能手機(jī)的車輛彎道識(shí)別與相對(duì)定位的研究[D];黑龍江大學(xué);2015年
4 楊寶栓;基于顯露模式的早期網(wǎng)癮行為檢測(cè)模型的研究與實(shí)現(xiàn)[D];東北大學(xué);2013年
5 孫渤禹;面向失衡數(shù)據(jù)集分類問(wèn)題的研究與應(yīng)用[D];哈爾濱理工大學(xué);2014年
6 李豐;面向動(dòng)態(tài)數(shù)據(jù)集重發(fā)布的隱私保護(hù)研究[D];復(fù)旦大學(xué);2009年
7 姚冰;一種改進(jìn)的非平衡數(shù)據(jù)集支持向量機(jī)分類算法[D];吉林大學(xué);2010年
8 郝姝雯;基于支持向量機(jī)的不平衡數(shù)據(jù)集分類算法研究[D];哈爾濱工程大學(xué);2011年
9 王喜紅;基于數(shù)據(jù)集的數(shù)據(jù)交換技術(shù)研究[D];東北石油大學(xué);2012年
10 李思本;面向失衡數(shù)據(jù)集的預(yù)測(cè)方法研究[D];哈爾濱理工大學(xué);2015年
,本文編號(hào):1768575
本文鏈接:http://sikaile.net/guanlilunwen/renliziyuanguanlilunwen/1768575.html