天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

暗網(wǎng)數(shù)據(jù)源分類算法的研究和實現(xiàn)

發(fā)布時間:2019-11-07 10:48
【摘要】:Web按照信息隱藏深度分為暗網(wǎng)(Deep Web)和淺層網(wǎng)(Visible Web)。傳統(tǒng)搜索引擎(如BaiDu,Google等)僅能索引到淺層網(wǎng)的頁面上信息;暗網(wǎng)即指在線填寫表單并提交至后臺服務器才能獲得的頁面。據(jù)BrightPlant的調(diào)查得知暗網(wǎng)所蘊含的信息量是淺層網(wǎng)幾百倍,同時信息的質(zhì)量,領域?qū)I(yè)主題性都優(yōu)于淺層網(wǎng);谶@些特點,暗網(wǎng)數(shù)據(jù)適合進行相關的信息采集和利用。但是,實際利用中,由于暗網(wǎng)信息分布廣泛,規(guī)模大及其相關業(yè)務變化迅速等特性,因此,有效數(shù)據(jù)集成分類、挖掘知識并加以利用還需要有大量的研究工作,,其中,海量暗網(wǎng)數(shù)據(jù)準確的分類是這些研究工作中重要研究內(nèi)容。 本文主要關注暗網(wǎng)數(shù)據(jù)源的分類,目前有對暗網(wǎng)數(shù)據(jù)進行集成利用的網(wǎng)站都是采用手工方式進行分類,由于手工方式成本高,更新慢并且涵蓋的類別有限,所以如何擺脫手工分類的弊端,對各個數(shù)據(jù)源自動別類,規(guī)劃所屬的類別,從而將暗網(wǎng)資源有效的進行整合一直是現(xiàn)在研究者的熱門研究課題。目前對暗網(wǎng)數(shù)據(jù)源分類相關的研究都是基于表單文本特征,并假設文本特征之間沒有關聯(lián)。這與實際情況不符,并且相關的分類算法沒有考慮訓練樣本的分布情況,對一種分類算法在訓練樣本豐富時能取得較好的分類效果,但是對訓練樣本稀疏情況下并不一定能取得很好的分類效果,針對以上的不足,本文提出如下的改進方法。 本文首先研究了Web和搜索引擎相關內(nèi)容,為暗網(wǎng)數(shù)據(jù)源分類提供了理論基礎和本論文研究價值的參考。對現(xiàn)有的暗網(wǎng)數(shù)據(jù)源分類算法加以研究,提出了暗網(wǎng)數(shù)據(jù)源分類算法應該針對不同的訓練樣本分布情況提出不同的分類策略,即考慮暗網(wǎng)數(shù)據(jù)源樣本豐富和稀疏兩種情況,解決了分類模型的適用性問題。 通過統(tǒng)計觀察得知,不同領域類別的數(shù)據(jù)源所包含的控件類型總體分布存在很大差異,而同一類別的數(shù)據(jù)源在結(jié)構(gòu)上有極大的相似性,本文提出在暗網(wǎng)數(shù)據(jù)源特征提取階段同時提取數(shù)據(jù)源文本信息和數(shù)據(jù)源結(jié)構(gòu)信息的特征提取方法,以充分利用數(shù)據(jù)源結(jié)構(gòu)信息與領域類別之間的聯(lián)系。 在數(shù)據(jù)源接口豐富的情況下,本文引入數(shù)據(jù)挖掘思想,挖掘特征之間的頻繁模式,挖掘特征之間的聯(lián)系,克服了現(xiàn)有分類算法基于特征之間無關聯(lián)的假設,提出了改進的貝葉斯分類模型,并且在TEL-8數(shù)據(jù)集上對提出的分類算法加以驗證,通過與采用傳統(tǒng)貝葉斯模型在相同實驗數(shù)據(jù)下得出的實驗結(jié)果在Recall,Precison和F-measure指標上進行對比,證明本文提出的算法的有效性。 在數(shù)據(jù)源接口稀疏的情況下,本文引入語義詞典,客服了由于訓練集稀疏造成的數(shù)據(jù)源接口特征不足的弊端,提出了基于概念的特征空間模型,最后提出了改進的基于語義的KNN分類模型,并且在相同的實驗條件下驗證本文所提出的分類算法的有效性和準確性。
【圖文】:

樹形圖,節(jié)點類型,決策樹


機分類方法可以很好的避免局部最優(yōu)問題,能很好的得到數(shù)據(jù)的內(nèi)在特征,對稀疏數(shù)據(jù)不敏感,所以其分類效果的準確性較好,并且其根本思想是去解決一個二次規(guī)劃問題,得到基于全局的最優(yōu)解,支持向量機分類方法是文本分類方法中效果最好的分類方法之一。決策樹(Dicision Tree)分類方法是基于一個特殊的樹結(jié)構(gòu)的決策圖,利用類似于樹形圖形或決策模型來進行目標規(guī)劃。決策樹被廣泛的應用到了運籌學領域,以幫助決策者獲得一個最可能達到的策略。決策樹的結(jié)構(gòu)反映了對象與對象屬性之間的映射關系,樹中的每個節(jié)點代表了一個對象,不同的分路代表了不同的屬性值范圍。在決策樹的表示中,通常采用三種不同的符號來表示不同類型的節(jié)點。如圖 2-5 利用矩形框來表示決策節(jié)點,圓圈來表示機會節(jié)點,三角形表示終結(jié)點。

示意圖,神經(jīng)網(wǎng)絡,基本結(jié)構(gòu),示意圖


圖 2-5 決策樹節(jié)點類型 的決策流程如下:根據(jù)已經(jīng)存在的條件繪制決策樹圖,將標注在概率枝上面,在對應的狀態(tài)節(jié)點上標注期望值,比將期望值小的方案減掉即剩下最優(yōu)的決策方案。其優(yōu)點是夠在相對較短的時間內(nèi)對大數(shù)據(jù)源做出可行而較優(yōu)的方案別數(shù)據(jù)分布不均勻,決策樹中的信息增益結(jié)果偏向那些擁而是得分類結(jié)果出現(xiàn)錯誤偏差。絡(Artificial Neural Network, ANN)分類方法是計算機的很好例子,其根據(jù)生物神經(jīng)網(wǎng)絡的結(jié)構(gòu)和功能來建立神經(jīng)元和神經(jīng)元之間的關系構(gòu)成了神經(jīng)網(wǎng)絡,大量的人的計算工作,不同的節(jié)點代表了不同的輸出函數(shù),即激勵自適應系統(tǒng)。圖 2-6 描述了神經(jīng)網(wǎng)絡的基本結(jié)構(gòu)。
【學位授予單位】:成都理工大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.3

【參考文獻】

相關期刊論文 前8條

1 徐群叁;周鳳翔;宋麗華;;基于粗糙集理論的關聯(lián)規(guī)則挖掘[J];福建電腦;2006年08期

2 賈君枝;董剛;;FrameNet、WordNet、VerbNet比較研究[J];情報科學;2007年11期

3 高凡;網(wǎng)絡信息檢索的發(fā)展方向[J];情報理論與實踐;2004年02期

4 顏躍進,李舟軍,陳火旺;基于FP-Tree有效挖掘最大頻繁項集[J];軟件學報;2005年02期

5 馬軍;宋玲;韓曉暉;閆潑;;基于網(wǎng)頁上下文的Deep Web數(shù)據(jù)庫分類[J];軟件學報;2008年02期

6 朱紅蕾,李明;關聯(lián)規(guī)則挖掘的維護算法研究[J];微機發(fā)展;2004年02期

7 饒洋輝;葉良;程潔;;WordNet在文本聚類中的應用研究[J];現(xiàn)代圖書情報技術(shù);2009年10期

8 宋中山;挖掘大型數(shù)據(jù)庫中的Apriori算法及其改進[J];中南民族大學學報(自然科學版);2003年01期

相關博士學位論文 前1條

1 周子力;基于WordNet的本體構(gòu)建及其在安全領域應用關鍵技術(shù)研究[D];華東師范大學;2009年

相關碩士學位論文 前2條

1 楊溥;搜索引擎中爬蟲的若干問題研究[D];北京郵電大學;2009年

2 華慧;基于頻繁模式和語義處理的Deep Web數(shù)據(jù)源分類研究[D];蘇州大學;2010年



本文編號:2557243

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2557243.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶51435***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com