暗網(wǎng)資源挖掘的關(guān)鍵技術(shù)研究
本文關(guān)鍵詞: 暗網(wǎng) 查詢接口 更多鏈接發(fā)現(xiàn) 出處:《西安電子科技大學(xué)》2013年碩士論文 論文類型:學(xué)位論文
【摘要】:進(jìn)入21世紀(jì)后,科技發(fā)展日新月異,互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,特別是Web2.0技術(shù)的引入使得互聯(lián)網(wǎng)應(yīng)用滲透到社會生活的各領(lǐng)域。人們從互聯(lián)網(wǎng)上獲取信息的手段通常是使用瀏覽器,而瀏覽器搜索的基礎(chǔ)是搜索引擎,搜索引擎是指自動從互聯(lián)網(wǎng)搜集信息,經(jīng)相關(guān)整理后給用戶進(jìn)行查詢的系統(tǒng)。搜索引擎索引的資源通過搜索程序檢索信息,這些搜索程序就像蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,被稱為網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲根據(jù)網(wǎng)頁中的超鏈接關(guān)系抓取資源,這些資源被稱為淺層網(wǎng)絡(luò)資源。然而,互聯(lián)網(wǎng)中還存在很多資源無法通過網(wǎng)絡(luò)爬蟲直接獲取,這些資源隱藏在Web數(shù)據(jù)庫中,只能通過與數(shù)據(jù)庫相關(guān)的查詢接口提交查詢的方式訪問,這些資源被稱為暗網(wǎng)資源。如果搜索引擎能夠?qū)ζ溥M(jìn)行檢索,將對提高搜索引擎的資源覆蓋率有重要的現(xiàn)實(shí)意義。 本文針對暗網(wǎng)(Hidden Web)資源挖掘進(jìn)行了深入研究,分析暗網(wǎng)資源挖掘中的難點(diǎn)問題并提出了解決這些問題的算法。本文的主要工作包括以下幾個部分: (1)對暗網(wǎng)查詢接口識別和分類的分析與研究; (2)設(shè)計(jì)了暗網(wǎng)查詢接口的查詢構(gòu)造方法; (3)設(shè)計(jì)并實(shí)現(xiàn)了算法來驗(yàn)證構(gòu)造的URL鏈接的有效性,,URL鏈接的有效性基于該URL對應(yīng)的頁面信息的有效性; (4)設(shè)計(jì)并實(shí)現(xiàn)了更多鏈接發(fā)現(xiàn)算法。
[Abstract]:In 21th century, with the rapid development of science and technology and the rapid development of Internet technology, especially the introduction of Web2.0 technology, Internet applications infiltrate into various fields of social life. People usually use browsers to obtain information from the Internet. The foundation of browser search is search engine. Search engine is a system that automatically collects information from the Internet and queries users after related collation. The resources of search engine index retrieve information through search program. These search programs are like spiders crawling around the web, known as web crawlers, which grab resources based on hyperlinks in a Web page, which are called shallow web resources. There are still many resources in the Internet that can not be directly obtained by the web crawler. These resources are hidden in the Web database and can only be accessed by submitting the query through the query interface related to the database. These resources are called dark web resources. If search engines can search them, it will be of great practical significance to improve the resource coverage of search engines. In this paper, we deeply study the hidden network resource mining, analyze the difficult problems in the dark network resource mining and propose the algorithms to solve these problems. The main work of this paper includes the following parts:. 1) the analysis and research on the identification and classification of the dark network query interface; 2) the query construction method of the dark network query interface is designed. 3) the algorithm is designed and implemented to verify the validity of the constructed URL link. The validity of the URL link is based on the page information corresponding to the URL. 4) more link discovery algorithms are designed and implemented.
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉芳;;查詢自動生成器在Web數(shù)據(jù)庫發(fā)現(xiàn)中的應(yīng)用[J];信息技術(shù);2009年06期
2 寇月;李冬;申德榮;于戈;聶鐵錚;;D-EEM:一種基于DOM樹的Deep Web實(shí)體抽取機(jī)制[J];計(jì)算機(jī)研究與發(fā)展;2010年05期
3 王芳;于浩;譚紅葉;趙鐵軍;;基于鏈接分塊的相關(guān)鏈接提取方法[J];計(jì)算機(jī)工程與應(yīng)用;2006年31期
4 李道國;苗奪謙;張東星;張紅云;;粒度計(jì)算研究綜述[J];計(jì)算機(jī)科學(xué);2005年09期
5 陳珂;陳小英;徐科;;Hidden Web信息獲取[J];計(jì)算機(jī)時代;2007年05期
6 孔波;劉小茂;張鈞;;基于中心距離比值的增量支持向量機(jī)[J];計(jì)算機(jī)應(yīng)用;2006年06期
7 孔銳,張冰;一種快速支持向量機(jī)增量學(xué)習(xí)算法[J];控制與決策;2005年10期
8 鄭冬冬;崔志明;;Deep Web爬蟲爬行策略研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年17期
9 程偉;石揚(yáng);張燕平;;粒度計(jì)算的三種主要方法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年03期
10 高嶺;趙朋朋;崔志明;;Deep Web查詢接口的自動判定[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年05期
相關(guān)博士學(xué)位論文 前1條
1 黃健斌;基于條件概率圖模型的Deep Web數(shù)據(jù)抽取與集成研究[D];西安電子科技大學(xué);2007年
相關(guān)碩士學(xué)位論文 前1條
1 黃黎;基于知識模型推理的Deep Web數(shù)據(jù)源分類研究[D];蘇州大學(xué);2009年
本文編號:1554986
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1554986.html