關(guān)于中國Deep Web的規(guī)模、分布和結(jié)構(gòu)
本文關(guān)鍵詞: DeepWeb Web數(shù)據(jù)庫 查詢接口 出處:《小型微型計(jì)算機(jī)系統(tǒng)》2007年10期 論文類型:期刊論文
【摘要】:隨著Web數(shù)據(jù)庫的廣泛應(yīng)用,Web正在加速的"深化",大量的高質(zhì)量的信息隱藏在Deep Web中.基于IP采樣的方法,對(duì)1,000,000個(gè)IP樣本進(jìn)行了分析統(tǒng)計(jì),揭示了2006年初中國Deep Web的規(guī)模、分布和結(jié)構(gòu).主要結(jié)論包括有:1中國Deep Web查詢接口往往位于站點(diǎn)淺層,94.6%的Deep Web查詢接口出現(xiàn)在站點(diǎn)的前3層;2中國Deep Web大約有24,000個(gè)站點(diǎn),28,000個(gè)Web數(shù)據(jù)庫和74,000個(gè)查詢接口;3中國Deep Web大部分是非結(jié)構(gòu)化的,其中64%是非結(jié)構(gòu)化的Web數(shù)據(jù)庫;4中國Deep Web分布于多種不同的主題領(lǐng)域;5目前主要的中文搜索引擎已覆蓋國內(nèi)Deep Web大約二分之一的頁面.
[Abstract]:With the wide application of Web database, a lot of high quality information is hiding in Deep Web. Based on IP sampling method, 1,000. An analysis of #number0# IP samples reveals the size of China's Deep Web in early 2006. Distribution and structure. The main conclusions include: 1 Chinese Deep Web query interface is often located in the shallow layer of the site, 94.6% of the Deep Web query interface appears in the first three layers of the site; 2China Deep Web has about 24,000 sites with 28,000 Web databases and 74,000 query interfaces; 3Chinese Deep Web is mostly unstructured, of which 64% are unstructured Web databases; 4Chinese Deep Web is distributed in many different subject areas; At present, the main Chinese search engine has covered about 1/2 pages of Deep Web in China.
【作者單位】: 蘇州大學(xué)智能信息處理及應(yīng)用研究所 蘇州大學(xué)智能信息處理及應(yīng)用研究所 蘇州大學(xué)智能信息處理及應(yīng)用研究所 蘇州大學(xué)智能信息處理及應(yīng)用研究所
【基金】:2005年度教育部科研重點(diǎn)項(xiàng)目(205059)資助 教育部“高校博士學(xué)科點(diǎn)科研基金項(xiàng)目”(20040285016)資助 江蘇省高技術(shù)研究計(jì)劃項(xiàng)目(BG2005019)資助.
【分類號(hào)】:TP393.092
【正文快照】: 1引言隨著Web數(shù)據(jù)庫的廣泛應(yīng)用,Web正在加速的“深化”[1].Internet上有大量頁面是由后臺(tái)數(shù)據(jù)庫動(dòng)態(tài)產(chǎn)生,這部分信息不能直接通過靜態(tài)鏈接獲取,只能通過填寫表單提交查詢來獲取,由于傳統(tǒng)的網(wǎng)絡(luò)爬蟲(Crawler)不具有填寫表單的能力,爬不出這些頁面.因此,現(xiàn)有的搜索引擎搜索不出
【共引文獻(xiàn)】
相關(guān)期刊論文 前8條
1 孟濤,閆宏飛,李曉明;一種評(píng)價(jià)搜索引擎信息覆蓋率的模型及其驗(yàn)證[J];電子學(xué)報(bào);2003年08期
2 王繼民;國內(nèi)綜合性搜索引擎時(shí)新性的計(jì)算[J];計(jì)算機(jī)工程與應(yīng)用;2003年21期
3 丁國棟,王斌,白碩;Web超鏈挖掘:中國境內(nèi)Web圖結(jié)構(gòu)研究[J];計(jì)算機(jī)工程;2005年14期
4 程沖,黃水清;利用正則表達(dá)式解析新聞網(wǎng)頁的算法研究[J];農(nóng)業(yè)圖書情報(bào)學(xué)刊;2005年04期
5 馮是聰,王繼民;關(guān)于“中文網(wǎng)頁自動(dòng)分類競(jìng)賽”結(jié)果的分析[J];中文信息學(xué)報(bào);2003年05期
6 胡駿;李星;;校園網(wǎng)信息資源搜索引擎的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年24期
7 葛蓉;網(wǎng)絡(luò)自組織性的研究與應(yīng)用[J];圖書情報(bào)工作;2005年05期
8 楊海東;葉小嶺;張穎超;;基于Hash算法實(shí)現(xiàn)搜索引擎中重復(fù)WEB頁面的消除[J];微計(jì)算機(jī)信息;2006年27期
相關(guān)博士學(xué)位論文 前1條
1 劉文捷;網(wǎng)格環(huán)境下主動(dòng)式安全系統(tǒng)的通信機(jī)制研究[D];哈爾濱工程大學(xué);2006年
相關(guān)碩士學(xué)位論文 前1條
1 王默;基于個(gè)性化的石油專業(yè)網(wǎng)絡(luò)信息檢索技術(shù)研究[D];西南石油大學(xué);2006年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張大吉;;面向電子商務(wù)的Deep Web數(shù)據(jù)集成研究[J];寧波大學(xué)學(xué)報(bào)(理工版);2008年02期
2 都藝兵;林培光;;基于Deep Web的圖書搜索引擎系統(tǒng)設(shè)計(jì)[J];計(jì)算機(jī)與數(shù)字工程;2009年09期
3 安清波;ASP編程中的WEB數(shù)據(jù)庫操作[J];軟件工程師;2000年11期
4 陳士川,蔣蕾,曹雪花;遠(yuǎn)程輔助教學(xué)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];信息技術(shù);2004年08期
5 鄭秀琴;Web數(shù)據(jù)庫安全機(jī)制解析與應(yīng)用[J];電腦知識(shí)與技術(shù);2005年12期
6 溫智斌;RDS技術(shù)初探[J];電子與電腦;1999年10期
7 吳國鳳,韓巍;一種基于XML的Web數(shù)據(jù)庫訪問方法[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年05期
8 楊成,王恒山,張乾宇;Web數(shù)據(jù)庫在線維護(hù)方法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2004年09期
9 倪朔東;;ASP訪問WEB數(shù)據(jù)庫在動(dòng)態(tài)網(wǎng)站中的應(yīng)用[J];電腦與電信;2007年05期
10 馮壯;劉姝;;基于WEB技術(shù)的網(wǎng)絡(luò)教學(xué)平臺(tái)[J];科技信息(科學(xué)教研);2007年19期
相關(guān)會(huì)議論文 前7條
1 胡新保;唐立旭;王羽;;靜態(tài)化Web數(shù)據(jù)庫動(dòng)態(tài)頁面[A];全國計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用年會(huì)論文集(2001)[C];2001年
2 劉曉云;杜習(xí)英;;Web客戶機(jī)/服務(wù)器方式的數(shù)據(jù)庫應(yīng)用[A];全國第十四屆計(jì)算機(jī)科學(xué)及其在儀器儀表中的應(yīng)用學(xué)術(shù)交流會(huì)論文集[C];2001年
3 蔡彪;廖聞劍;彭艷兵;;Deep Web數(shù)據(jù)集成和關(guān)鍵技術(shù)綜述[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年
4 鮮學(xué)豐;方巍;趙朋朋;崔志明;胡鵬昱;;一種Deep Web數(shù)據(jù)源質(zhì)量評(píng)估模型[A];2008年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2008年
5 虞秀本;;基于PHP技術(shù)的煙草網(wǎng)絡(luò)辦公自動(dòng)化系統(tǒng)[A];第三屆廣西青年學(xué)術(shù)年會(huì)論文集(自然科學(xué)篇)[C];2004年
6 嚴(yán)伸境;王豪浩;林華;聶雄;;基于ASP技術(shù)的汽車信息網(wǎng)站的設(shè)計(jì)[A];廣西計(jì)算機(jī)學(xué)會(huì)——2004年學(xué)術(shù)年會(huì)論文集[C];2004年
7 黃錦輝;任永杰;孟小鋒;;Chiql在因特網(wǎng)上的應(yīng)用[A];第十五屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集[C];1998年
相關(guān)重要報(bào)紙文章 前6條
1 上海市桂林路418號(hào)華騰公司EC部 吳德柱;Web數(shù)據(jù)庫記錄[N];計(jì)算機(jī)世界;2000年
2 江蘇 王漢洲;溝通無極限[N];中國電腦教育報(bào);2002年
3 中國科學(xué)技術(shù)大學(xué)信息管理與決策科學(xué)系 張斯成;用ASP構(gòu)建音樂服務(wù)器[N];計(jì)算機(jī)世界;2000年
4 慰鵬飛;走進(jìn)編程之網(wǎng)絡(luò)篇(二)[N];江蘇經(jīng)濟(jì)報(bào);2001年
5 丁一;“活的老鼠”不好抓[N];計(jì)算機(jī)世界;2001年
6 ;HP測(cè)試個(gè)人移動(dòng)導(dǎo)航工具[N];計(jì)算機(jī)世界;2003年
相關(guān)博士學(xué)位論文 前1條
1 朱征宇;Web資源組織與服務(wù)性能研究[D];重慶大學(xué);2003年
相關(guān)碩士學(xué)位論文 前10條
1 蔡麗麗;基于Web的網(wǎng)上測(cè)試系統(tǒng)[D];電子科技大學(xué);2004年
2 葛平升;Web數(shù)據(jù)庫技術(shù)應(yīng)用研究與實(shí)現(xiàn)[D];西北工業(yè)大學(xué);2002年
3 陳丹;基于WEB數(shù)據(jù)庫的相關(guān)技術(shù)研究與實(shí)踐[D];哈爾濱理工大學(xué);2001年
4 蔡池蘭;基于Web數(shù)據(jù)庫的工程試驗(yàn)數(shù)據(jù)信息獲取系統(tǒng)的開發(fā)[D];武漢理工大學(xué);2004年
5 李琳;網(wǎng)絡(luò)化學(xué)生成績(jī)查詢系統(tǒng)的開發(fā)及應(yīng)用[D];武漢理工大學(xué);2003年
6 閆忠華;基于Web技術(shù)的高校設(shè)備物資管理系統(tǒng)[D];大連理工大學(xué);2002年
7 柳巧玲;國貿(mào)Intranet商務(wù)信息管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京工業(yè)大學(xué);2002年
8 趙保平;基于WEB的數(shù)據(jù)庫訪問技術(shù)[D];中國原子能科學(xué)研究院;2000年
9 董寧威;基于XML的WEB數(shù)據(jù)庫信息發(fā)布系統(tǒng)的研究與設(shè)計(jì)[D];蘇州大學(xué);2001年
10 薛曉英;基于Web的稅務(wù)稽查系統(tǒng)研究與設(shè)計(jì)[D];南京理工大學(xué);2003年
,本文編號(hào):1446909
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1446909.html