DeepWeb可配置聚焦爬蟲設(shè)計與實現(xiàn)
本文關(guān)鍵詞:DeepWeb可配置聚焦爬蟲設(shè)計與實現(xiàn)
更多相關(guān)文章: 聚焦爬蟲 Deep Web 大數(shù)據(jù)
【摘要】:大數(shù)據(jù)時代如何精確而有效地抓取用戶所需要的數(shù)據(jù)成為了一個至關(guān)重要的問題,提出一種可配置的聚焦網(wǎng)絡(luò)爬蟲框架,基于配置文件的設(shè)置,構(gòu)建一個數(shù)據(jù)采集精確、可控性強(qiáng)的聚焦網(wǎng)絡(luò)爬蟲。在此基礎(chǔ)上改進(jìn)聚焦爬蟲工作流程,實現(xiàn)Deep Web表單自動提交以及Deep Web數(shù)據(jù)抓取。實驗通過高能物理研究所網(wǎng)站與手機(jī)騰訊微博的數(shù)據(jù)爬取以及爬蟲在高能物理研究所大數(shù)據(jù)平臺上的實際運(yùn)行效果說明了爬蟲設(shè)計的有效性與實用性。
【作者單位】: 中國科學(xué)院高能物理研究所;中國科學(xué)院大學(xué);
【關(guān)鍵詞】: 聚焦爬蟲 Deep Web 大數(shù)據(jù)
【分類號】:TP393.092;TP391.3
【正文快照】: 今天我們的世界已經(jīng)進(jìn)入了以數(shù)據(jù)為中心的范式上——“大數(shù)據(jù)”時代。數(shù)據(jù)量的爆炸性劇增,數(shù)以億計、十億計的計算機(jī)和移動設(shè)備不斷產(chǎn)生著海量的信息:以社交網(wǎng)絡(luò)新浪微博為例,截至2012年底,其注冊用戶總數(shù)達(dá)到了5.03億,每日活躍用戶數(shù)達(dá)到了4 620萬人,用戶每日發(fā)微博總量超過1
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 趙永鑫;雷霖;;Heritrix在電子信息垂直搜索平臺中的應(yīng)用[J];成都大學(xué)學(xué)報(自然科學(xué)版);2013年02期
2 李曉明,鳳旺森;兩種對URL的散列效果很好的函數(shù)[J];軟件學(xué)報;2004年02期
3 劉高軍;夏景隆;;基于Heritrix的網(wǎng)絡(luò)爬蟲研究與應(yīng)用[J];軟件導(dǎo)刊;2013年05期
4 朱敏;羅省賢;;基于Heritrix的面向特定主題的聚焦爬蟲研究[J];計算機(jī)技術(shù)與發(fā)展;2012年02期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張智江;王志軍;張尼;;一種可應(yīng)用于大流量環(huán)境的雙層散列算法研究[J];電信科學(xué);2011年S1期
2 何淑慶;李村合;張培穎;;URL分級散列在分布式搜索引擎中的應(yīng)用[J];電子技術(shù)應(yīng)用;2006年07期
3 吳翠雁;黃建波;李浩;袁華;;基于主動哈希和多級緩存的域名解析策略[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2009年01期
4 李華波;吳禮發(fā);賴海光;鄭成輝;黃康宇;;有效的爬行Ajax頁面的網(wǎng)絡(luò)爬行算法[J];電子科技大學(xué)學(xué)報;2013年01期
5 孫小華;王福順;楊會英;趙艷;王風(fēng)國;;基于智能手機(jī)的農(nóng)業(yè)信息服務(wù)系統(tǒng)研究[J];科技和產(chǎn)業(yè);2013年06期
6 趙永鑫;雷霖;;Heritrix在電子信息垂直搜索平臺中的應(yīng)用[J];成都大學(xué)學(xué)報(自然科學(xué)版);2013年02期
7 徐鳳剛;許俊奎;潘清;;可擴(kuò)展Hash方法的一種改進(jìn)算法[J];計算機(jī)工程與應(yīng)用;2006年04期
8 萬源;萬方;王大震;;一種并行Crawler系統(tǒng)中的URL分配算法設(shè)計[J];計算機(jī)工程與應(yīng)用;2006年S1期
9 丁振國;趙大勇;;基于雙數(shù)組有限狀態(tài)機(jī)的URL訪問控制算法[J];計算機(jī)工程與應(yīng)用;2007年36期
10 馬如林;蔣華;張慶霞;;基于貝葉斯方法和信息指紋的博客評論過濾[J];計算機(jī)工程與應(yīng)用;2008年24期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 黃高平;蘇金樹;陳曙輝;;一種基于高速鏈路的Hash算法[A];2006年全國理論計算機(jī)科學(xué)學(xué)術(shù)年會論文集[C];2006年
2 鄒永斌;陳興蜀;王文賢;;一個高性能Web資源收集系統(tǒng)的設(shè)計與實現(xiàn)[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
3 張智江;王志軍;張尼;;一種可應(yīng)用于大流量環(huán)境下的雙層散列算法研究[A];中國通信學(xué)會信息通信網(wǎng)絡(luò)技術(shù)委員會2011年年會論文集(下冊)[C];2011年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 吳麗輝;個性化的Web信息采集技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2005年
2 謝鯤;布魯姆過濾器查詢算法及其應(yīng)用研究[D];湖南大學(xué);2007年
3 楊希;智能網(wǎng)絡(luò)磁盤(IND)存儲管理方法研究[D];中南大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 司賀華;網(wǎng)絡(luò)內(nèi)容審計系統(tǒng)關(guān)鍵技術(shù)研究與實現(xiàn)[D];哈爾濱工程大學(xué);2010年
2 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)研究[D];西安電子科技大學(xué);2009年
3 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年
4 張立;文本搜索引擎的探究與設(shè)計[D];華南理工大學(xué);2011年
5 魏一帆;分布式信息采集系統(tǒng)Web劃分技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年
6 孫守興;基于可擴(kuò)展哈希算法的并行爬蟲動態(tài)負(fù)載均衡實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2010年
7 王先平;面向海量URL數(shù)據(jù)存取的快速文件系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2010年
8 耿樂群;基于主動搜索的論壇內(nèi)容監(jiān)管技術(shù)研究[D];哈爾濱工程大學(xué);2011年
9 郭林;面向XML文檔的數(shù)據(jù)挖掘技術(shù)研究[D];大連理工大學(xué);2005年
10 劉壁松;策略可擴(kuò)展的搜索引擎研究和實現(xiàn)[D];清華大學(xué);2005年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 秦海峰;許南山;山嵐;;基于P2P架構(gòu)的搜索引擎技術(shù)探究[J];福建電腦;2008年07期
2 李勇;韓亮;;主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究[J];計算機(jī)工程與科學(xué);2008年03期
3 白萬民;蘇希樂;;Heritrix在垂直搜索引擎中的應(yīng)用[J];計算機(jī)時代;2011年09期
4 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機(jī)應(yīng)用;2005年09期
5 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計算機(jī)應(yīng)用與軟件;2009年01期
6 劉杰;;垂直搜索引擎的應(yīng)用研究[J];企業(yè)技術(shù)開發(fā);2011年13期
7 楊頌;歐陽柳波;;基于Heritrix的面向電子商務(wù)網(wǎng)站增量爬蟲研究[J];軟件導(dǎo)刊;2010年07期
8 楊定中;趙剛;王泰;;網(wǎng)絡(luò)爬蟲在Web信息搜索與數(shù)據(jù)挖掘中應(yīng)用[J];計算機(jī)工程與設(shè)計;2009年24期
9 沈賀丹;潘亞楠;邵良杉;;關(guān)于搜索引擎的研究綜述[J];計算機(jī)技術(shù)與發(fā)展;2006年04期
10 嚴(yán)莉莉;王倩倩;孟杰;張燕平;;基于聚類的個性化元搜索引擎設(shè)計[J];計算機(jī)技術(shù)與發(fā)展;2007年04期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 段曉飛;張素智;馬紅;;基于Deep Web的模式匹配算法研究[J];鄭州輕工業(yè)學(xué)院學(xué)報(自然科學(xué)版);2008年03期
2 侯毅;;基于Deep Web的主題搜索引擎的系統(tǒng)設(shè)計[J];數(shù)字技術(shù)與應(yīng)用;2011年02期
3 王賢;蘇曉珂;黃青松;;基于Zipf Estimator的Deep Web最佳查詢詞選擇[J];計算機(jī)技術(shù)與發(fā)展;2007年03期
4 方麗;李錫輝;;基于Deep Web挖掘的搜索策略[J];福建電腦;2008年03期
5 茅琴嬌;馮博琴;潘善亮;;Deep web站點(diǎn)查詢界面的潛在語義分析(英文)[J];Journal of Southeast University(English Edition);2008年03期
6 馬也;張崢;張輝;;基于決策樹的查詢接口識別技術(shù)[J];微計算機(jī)信息;2008年33期
7 金靈芝;王小玲;朱守中;;Deep Web數(shù)據(jù)源自動分類[J];微計算機(jī)信息;2009年12期
8 金庫;聶培堯;林培光;;一種Web數(shù)據(jù)庫大小估算新方法[J];信息技術(shù)與信息化;2010年02期
9 郭少杰;陳雅冰;;Deep Web技術(shù)在科學(xué)數(shù)據(jù)共享平臺中的應(yīng)用[J];廣東科技;2010年14期
10 劉偉;孟小峰;凌妍妍;;一種基于圖模型的Web數(shù)據(jù)庫采樣方法[J];軟件學(xué)報;2008年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 余偉;李石君;洪輝;田建偉;;基于覆蓋關(guān)系的Deep Web數(shù)據(jù)源排名[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年
2 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
3 梁浩;左萬利;任斐;赫楓齡;;基于啟發(fā)式信息的Deep Web查詢接口屬性抽取[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
4 王英;左萬利;王鑫;彭濤;;Deep Web查詢轉(zhuǎn)換研究[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
5 閆中敏;李慶忠;彭朝暉;董永權(quán);丁艷輝;張永新;徐秀星;;DWDIS:面向分析的Deep Web數(shù)據(jù)集成系統(tǒng)[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年
6 王英;左萬利;彭濤;赫楓齡;彭釗;;應(yīng)用領(lǐng)域本體知識庫自動填充Deep Web入口表單[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年
7 朱命冬;申德榮;寇月;聶鐵錚;于戈;;一種應(yīng)用于Deep Web環(huán)境下的重復(fù)記錄識別模型[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
8 陶然;江錦華;吳羽;陳剛;;基于樹合并的Deep Web查詢接口集成[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
9 艾靜;王仲遠(yuǎn);孟小峰;;C-Rank:一種Deep Web數(shù)據(jù)記錄可信度評估方法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(A輯)[C];2009年
10 凌妍妍;劉偉;王仲遠(yuǎn);艾靜;孟小峰;;Deep Web數(shù)據(jù)集成中的實體識別方法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 田建偉;面向領(lǐng)域的高質(zhì)量Deep Web數(shù)據(jù)集成技術(shù)研究[D];武漢大學(xué);2010年
2 潘鵬;Deep Web查詢中的不確定性問題研究[D];山東大學(xué);2010年
3 王英;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)研究[D];吉林大學(xué);2010年
4 吳春明;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)及其在農(nóng)業(yè)領(lǐng)域的應(yīng)用[D];西南大學(xué);2011年
5 董永權(quán);Deep Web數(shù)據(jù)集成關(guān)鍵問題研究[D];山東大學(xué);2010年
6 陳珂銳;基于本體演化的Deep Web數(shù)據(jù)抽取與注釋[D];吉林大學(xué);2011年
7 寇月;Deep Web實體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年
8 梁浩;Deep Web信息集成架構(gòu)及相關(guān)問題研究[D];吉林大學(xué);2010年
9 黃健斌;基于條件概率圖模型的Deep Web數(shù)據(jù)抽取與集成研究[D];西安電子科技大學(xué);2007年
10 趙朋朋;Deep Web信息集成若干關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陳文;Deep Web入口識別和個性化搜索研究與設(shè)計[D];江蘇大學(xué);2010年
2 劉冬蘭;Deep Web數(shù)據(jù)抽取中自適應(yīng)包裝器問題研究[D];山東大學(xué);2013年
3 李秀蘭;基于結(jié)果模式的Deep Web語義標(biāo)注研究[D];蘭州理工大學(xué);2011年
4 劉凱;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)研究[D];長春工業(yè)大學(xué);2012年
5 李英軍;Deep Web自適應(yīng)跨領(lǐng)域查詢策略研究[D];東北大學(xué);2011年
6 謝瑩;Deep Web查詢結(jié)果抽取及注釋[D];吉林大學(xué);2010年
7 李三義;基于模型匹配的Deep Web數(shù)據(jù)庫分類[D];吉林大學(xué);2010年
8 張成奇;支持Ajax的Deep Web爬蟲設(shè)計與實現(xiàn)[D];上海交通大學(xué);2010年
9 杜鑫;Deep Web數(shù)據(jù)源發(fā)現(xiàn)與采樣研究[D];山東大學(xué);2011年
10 朱旭東;基于本體學(xué)習(xí)的Deep Web語義標(biāo)注關(guān)鍵問題研究[D];蘇州大學(xué);2012年
本文關(guān)鍵詞:DeepWeb可配置聚焦爬蟲設(shè)計與實現(xiàn)
更多相關(guān)文章: 聚焦爬蟲 Deep Web 大數(shù)據(jù)
,
本文編號:512034
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/512034.html