天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

暗網(wǎng)數(shù)據(jù)源分類算法的研究和實(shí)現(xiàn)

發(fā)布時(shí)間:2019-11-07 10:48
【摘要】:Web按照信息隱藏深度分為暗網(wǎng)(Deep Web)和淺層網(wǎng)(Visible Web)。傳統(tǒng)搜索引擎(如BaiDu,Google等)僅能索引到淺層網(wǎng)的頁(yè)面上信息;暗網(wǎng)即指在線填寫表單并提交至后臺(tái)服務(wù)器才能獲得的頁(yè)面。據(jù)BrightPlant的調(diào)查得知暗網(wǎng)所蘊(yùn)含的信息量是淺層網(wǎng)幾百倍,同時(shí)信息的質(zhì)量,領(lǐng)域?qū)I(yè)主題性都優(yōu)于淺層網(wǎng);谶@些特點(diǎn),暗網(wǎng)數(shù)據(jù)適合進(jìn)行相關(guān)的信息采集和利用。但是,實(shí)際利用中,由于暗網(wǎng)信息分布廣泛,規(guī)模大及其相關(guān)業(yè)務(wù)變化迅速等特性,因此,有效數(shù)據(jù)集成分類、挖掘知識(shí)并加以利用還需要有大量的研究工作,,其中,海量暗網(wǎng)數(shù)據(jù)準(zhǔn)確的分類是這些研究工作中重要研究?jī)?nèi)容。 本文主要關(guān)注暗網(wǎng)數(shù)據(jù)源的分類,目前有對(duì)暗網(wǎng)數(shù)據(jù)進(jìn)行集成利用的網(wǎng)站都是采用手工方式進(jìn)行分類,由于手工方式成本高,更新慢并且涵蓋的類別有限,所以如何擺脫手工分類的弊端,對(duì)各個(gè)數(shù)據(jù)源自動(dòng)別類,規(guī)劃所屬的類別,從而將暗網(wǎng)資源有效的進(jìn)行整合一直是現(xiàn)在研究者的熱門研究課題。目前對(duì)暗網(wǎng)數(shù)據(jù)源分類相關(guān)的研究都是基于表單文本特征,并假設(shè)文本特征之間沒(méi)有關(guān)聯(lián)。這與實(shí)際情況不符,并且相關(guān)的分類算法沒(méi)有考慮訓(xùn)練樣本的分布情況,對(duì)一種分類算法在訓(xùn)練樣本豐富時(shí)能取得較好的分類效果,但是對(duì)訓(xùn)練樣本稀疏情況下并不一定能取得很好的分類效果,針對(duì)以上的不足,本文提出如下的改進(jìn)方法。 本文首先研究了Web和搜索引擎相關(guān)內(nèi)容,為暗網(wǎng)數(shù)據(jù)源分類提供了理論基礎(chǔ)和本論文研究?jī)r(jià)值的參考。對(duì)現(xiàn)有的暗網(wǎng)數(shù)據(jù)源分類算法加以研究,提出了暗網(wǎng)數(shù)據(jù)源分類算法應(yīng)該針對(duì)不同的訓(xùn)練樣本分布情況提出不同的分類策略,即考慮暗網(wǎng)數(shù)據(jù)源樣本豐富和稀疏兩種情況,解決了分類模型的適用性問(wèn)題。 通過(guò)統(tǒng)計(jì)觀察得知,不同領(lǐng)域類別的數(shù)據(jù)源所包含的控件類型總體分布存在很大差異,而同一類別的數(shù)據(jù)源在結(jié)構(gòu)上有極大的相似性,本文提出在暗網(wǎng)數(shù)據(jù)源特征提取階段同時(shí)提取數(shù)據(jù)源文本信息和數(shù)據(jù)源結(jié)構(gòu)信息的特征提取方法,以充分利用數(shù)據(jù)源結(jié)構(gòu)信息與領(lǐng)域類別之間的聯(lián)系。 在數(shù)據(jù)源接口豐富的情況下,本文引入數(shù)據(jù)挖掘思想,挖掘特征之間的頻繁模式,挖掘特征之間的聯(lián)系,克服了現(xiàn)有分類算法基于特征之間無(wú)關(guān)聯(lián)的假設(shè),提出了改進(jìn)的貝葉斯分類模型,并且在TEL-8數(shù)據(jù)集上對(duì)提出的分類算法加以驗(yàn)證,通過(guò)與采用傳統(tǒng)貝葉斯模型在相同實(shí)驗(yàn)數(shù)據(jù)下得出的實(shí)驗(yàn)結(jié)果在Recall,Precison和F-measure指標(biāo)上進(jìn)行對(duì)比,證明本文提出的算法的有效性。 在數(shù)據(jù)源接口稀疏的情況下,本文引入語(yǔ)義詞典,客服了由于訓(xùn)練集稀疏造成的數(shù)據(jù)源接口特征不足的弊端,提出了基于概念的特征空間模型,最后提出了改進(jìn)的基于語(yǔ)義的KNN分類模型,并且在相同的實(shí)驗(yàn)條件下驗(yàn)證本文所提出的分類算法的有效性和準(zhǔn)確性。
【圖文】:

樹(shù)形圖,節(jié)點(diǎn)類型,決策樹(shù)


機(jī)分類方法可以很好的避免局部最優(yōu)問(wèn)題,能很好的得到數(shù)據(jù)的內(nèi)在特征,對(duì)稀疏數(shù)據(jù)不敏感,所以其分類效果的準(zhǔn)確性較好,并且其根本思想是去解決一個(gè)二次規(guī)劃問(wèn)題,得到基于全局的最優(yōu)解,支持向量機(jī)分類方法是文本分類方法中效果最好的分類方法之一。決策樹(shù)(Dicision Tree)分類方法是基于一個(gè)特殊的樹(shù)結(jié)構(gòu)的決策圖,利用類似于樹(shù)形圖形或決策模型來(lái)進(jìn)行目標(biāo)規(guī)劃。決策樹(shù)被廣泛的應(yīng)用到了運(yùn)籌學(xué)領(lǐng)域,以幫助決策者獲得一個(gè)最可能達(dá)到的策略。決策樹(shù)的結(jié)構(gòu)反映了對(duì)象與對(duì)象屬性之間的映射關(guān)系,樹(shù)中的每個(gè)節(jié)點(diǎn)代表了一個(gè)對(duì)象,不同的分路代表了不同的屬性值范圍。在決策樹(shù)的表示中,通常采用三種不同的符號(hào)來(lái)表示不同類型的節(jié)點(diǎn)。如圖 2-5 利用矩形框來(lái)表示決策節(jié)點(diǎn),圓圈來(lái)表示機(jī)會(huì)節(jié)點(diǎn),三角形表示終結(jié)點(diǎn)。

示意圖,神經(jīng)網(wǎng)絡(luò),基本結(jié)構(gòu),示意圖


圖 2-5 決策樹(shù)節(jié)點(diǎn)類型 的決策流程如下:根據(jù)已經(jīng)存在的條件繪制決策樹(shù)圖,將標(biāo)注在概率枝上面,在對(duì)應(yīng)的狀態(tài)節(jié)點(diǎn)上標(biāo)注期望值,比將期望值小的方案減掉即剩下最優(yōu)的決策方案。其優(yōu)點(diǎn)是夠在相對(duì)較短的時(shí)間內(nèi)對(duì)大數(shù)據(jù)源做出可行而較優(yōu)的方案別數(shù)據(jù)分布不均勻,決策樹(shù)中的信息增益結(jié)果偏向那些擁而是得分類結(jié)果出現(xiàn)錯(cuò)誤偏差。絡(luò)(Artificial Neural Network, ANN)分類方法是計(jì)算機(jī)的很好例子,其根據(jù)生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能來(lái)建立神經(jīng)元和神經(jīng)元之間的關(guān)系構(gòu)成了神經(jīng)網(wǎng)絡(luò),大量的人的計(jì)算工作,不同的節(jié)點(diǎn)代表了不同的輸出函數(shù),即激勵(lì)自適應(yīng)系統(tǒng)。圖 2-6 描述了神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。
【學(xué)位授予單位】:成都理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前8條

1 徐群叁;周鳳翔;宋麗華;;基于粗糙集理論的關(guān)聯(lián)規(guī)則挖掘[J];福建電腦;2006年08期

2 賈君枝;董剛;;FrameNet、WordNet、VerbNet比較研究[J];情報(bào)科學(xué);2007年11期

3 高凡;網(wǎng)絡(luò)信息檢索的發(fā)展方向[J];情報(bào)理論與實(shí)踐;2004年02期

4 顏躍進(jìn),李舟軍,陳火旺;基于FP-Tree有效挖掘最大頻繁項(xiàng)集[J];軟件學(xué)報(bào);2005年02期

5 馬軍;宋玲;韓曉暉;閆潑;;基于網(wǎng)頁(yè)上下文的Deep Web數(shù)據(jù)庫(kù)分類[J];軟件學(xué)報(bào);2008年02期

6 朱紅蕾,李明;關(guān)聯(lián)規(guī)則挖掘的維護(hù)算法研究[J];微機(jī)發(fā)展;2004年02期

7 饒洋輝;葉良;程潔;;WordNet在文本聚類中的應(yīng)用研究[J];現(xiàn)代圖書情報(bào)技術(shù);2009年10期

8 宋中山;挖掘大型數(shù)據(jù)庫(kù)中的Apriori算法及其改進(jìn)[J];中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年01期

相關(guān)博士學(xué)位論文 前1條

1 周子力;基于WordNet的本體構(gòu)建及其在安全領(lǐng)域應(yīng)用關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2009年

相關(guān)碩士學(xué)位論文 前2條

1 楊溥;搜索引擎中爬蟲(chóng)的若干問(wèn)題研究[D];北京郵電大學(xué);2009年

2 華慧;基于頻繁模式和語(yǔ)義處理的Deep Web數(shù)據(jù)源分類研究[D];蘇州大學(xué);2010年



本文編號(hào):2557243

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2557243.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶51435***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com