Ajax友好的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)
本文關(guān)鍵詞:LUCENE實現(xiàn)的基于RSS的博客搜索引擎,由筆耕文化傳播整理發(fā)布。
《暨南大學(xué)》 2011年
Ajax友好的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)
張媚
【摘要】:隨著以用戶為核心的新一代Web應(yīng)用模式——Web2.0如火如荼,Ajax技術(shù)獲得了廣泛應(yīng)用,比如網(wǎng)易博客、卓越亞馬遜、Google等。Ajax采用JavaScript驅(qū)動的異步請求/響應(yīng)機(jī)制,而傳統(tǒng)爬蟲缺乏對Javascript語義上的理解,無法模擬觸發(fā)Javascript的異步調(diào)用并解析返回的異步數(shù)據(jù)。此外在Ajax的應(yīng)用中,Javascript會對DOM結(jié)構(gòu)進(jìn)行大量地變動,通過DOM操作動態(tài)更新頁面內(nèi)容,而傳統(tǒng)網(wǎng)絡(luò)爬蟲默認(rèn)頁面的DOM結(jié)構(gòu)是相對靜態(tài)不變的。Ajax技術(shù)的應(yīng)用給傳統(tǒng)網(wǎng)絡(luò)爬蟲造成很大障礙,必然影響搜索引擎的信息采集。 針對上述問題,本文通過HTTP請求,獲取網(wǎng)頁源代碼信息。構(gòu)建DOM樹并對頁面進(jìn)行分析處理,去掉噪聲信息。通過遍歷DOM樹提取其中JavaScript腳本代碼和文件。構(gòu)建瀏覽器內(nèi)置對象,然后利用開源的腳本解析引擎Rhino跟蹤執(zhí)行這些JavaScript代碼,從而實現(xiàn)Ajax頁面內(nèi)動態(tài)加載的超鏈接地址的獲取。并進(jìn)一步對解析后的頁面采用XPath表達(dá)式快速定位需要抓取的內(nèi)容,生成抽取規(guī)則,以XML格式存儲抽取規(guī)則和數(shù)據(jù),并使用XSLT進(jìn)行轉(zhuǎn)換最終以HTML頁面的形式呈現(xiàn)。最終解決Ajax網(wǎng)站中URL獲取以及動態(tài)內(nèi)容的獲取。 本文實現(xiàn)了Ajax友好的網(wǎng)絡(luò)爬蟲系統(tǒng),提出瀏覽器內(nèi)置對象的本地構(gòu)建,利用Rhino解析JavaScript腳本中的Ajax調(diào)用,獲得其異步請求返回的數(shù)據(jù),為Ajax友好的網(wǎng)絡(luò)爬蟲提供了新的解決方案。最后通過實驗,證明本文研究的可行性。
【關(guān)鍵詞】:
【學(xué)位授予單位】:暨南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【引證文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 王益強(qiáng);趙靜;;網(wǎng)頁文本數(shù)據(jù)自動采集方法綜述[J];信息與電腦(理論版);2012年09期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 高龍;搜索引擎中通用爬蟲系統(tǒng)的研究與設(shè)計[D];吉林大學(xué);2013年
2 鐘少君;面向Ajax的搜索引擎技術(shù)研究[D];浙江大學(xué);2012年
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 王映,于滿泉,李盛韜,王斌,余智華;JavaScript引擎在動態(tài)網(wǎng)頁采集技術(shù)中的應(yīng)用[J];計算機(jī)應(yīng)用;2004年02期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 羅兵;支持AJAX的互聯(lián)網(wǎng)搜索引擎爬蟲設(shè)計與實現(xiàn)[D];浙江大學(xué);2007年
2 曾偉輝;支持AJAX的網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2009年
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王晶;陳衛(wèi)衛(wèi);;AJAX搜索引擎研究[J];電腦知識與技術(shù);2009年19期
2 周思思;袁曉紅;;社交網(wǎng)絡(luò)信息采集技術(shù)研究與實現(xiàn)[J];電子世界;2012年04期
3 陳源恩;陳志偉;曾文華;;腳本語言在核磁共振譜儀軟件系統(tǒng)中的應(yīng)用[J];福建電腦;2010年01期
4 陳健瑜;;網(wǎng)頁動態(tài)頁面采集關(guān)鍵技術(shù)研究[J];硅谷;2009年12期
5 李華波;吳禮發(fā);賴海光;鄭成輝;黃康宇;;有效的爬行Ajax頁面的網(wǎng)絡(luò)爬行算法[J];電子科技大學(xué)學(xué)報;2013年01期
6 林振洲;;VFP技術(shù)在網(wǎng)頁數(shù)據(jù)采集中的應(yīng)用——以高校數(shù)字資源建設(shè)為例[J];計算機(jī)光盤軟件與應(yīng)用;2013年14期
7 王娟;唐寶珍;;基于興趣的輕博客網(wǎng)站拓?fù)涮匦苑治鯷J];電腦知識與技術(shù);2013年22期
8 陸亮;李東;;支持AJAX的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[J];智能計算機(jī)與應(yīng)用;2013年06期
9 李政;孟德光;董艷英;魯艷麗;姚素玲;;網(wǎng)絡(luò)課程通用術(shù)語查詢系統(tǒng)設(shè)計[J];河北科技師范學(xué)院學(xué)報;2006年03期
10 段青玲;楊仁剛;朱楊;;一種表單Ajax信息項提取方法[J];計算機(jī)工程;2011年03期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 李蕊;魏更宇;王樅;張冬梅;;Rhino解析引擎的分析與改進(jìn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 李衛(wèi)國;水稻生長模擬與決策支持系統(tǒng)的研究[D];南京農(nóng)業(yè)大學(xué);2005年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李東東;不同區(qū)域濕地信息提取的遙感技術(shù)應(yīng)用研究[D];太原理工大學(xué);2011年
2 王佳;支持Ajax技術(shù)的主題網(wǎng)絡(luò)爬蟲系統(tǒng)研究與實現(xiàn)[D];北京交通大學(xué);2011年
3 管翠花;支持Ajax技術(shù)的Deep Web網(wǎng)絡(luò)爬蟲模型研究[D];大連海事大學(xué);2011年
4 李蕊;基于網(wǎng)絡(luò)爬蟲技術(shù)的多源下載系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2011年
5 鐘啟瑩;分布式網(wǎng)絡(luò)信息采集系統(tǒng)的設(shè)計與實現(xiàn)[D];華南理工大學(xué);2011年
6 鄭炯;WEB應(yīng)用安全漏洞挖掘的研究與實現(xiàn)[D];電子科技大學(xué);2011年
7 張亮;基于Ajax_REST架構(gòu)Web服務(wù)的研究與應(yīng)用[D];東北石油大學(xué);2011年
8 王巖;可爬取Ajax數(shù)據(jù)的搜索引擎爬蟲研究與設(shè)計[D];長春理工大學(xué);2011年
9 桂許軍;基于JavaEE平臺與Lucene的信息文檔搜索引擎系統(tǒng)的設(shè)計與實現(xiàn)[D];西南交通大學(xué);2011年
10 楊哲;基于Groovy的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D];西南交通大學(xué);2010年
【同被引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 印鑒,陳憶群,張鋼;搜索引擎技術(shù)研究與發(fā)展[J];計算機(jī)工程;2005年14期
2 王映,于滿泉,李盛韜,王斌,余智華;JavaScript引擎在動態(tài)網(wǎng)頁采集技術(shù)中的應(yīng)用[J];計算機(jī)應(yīng)用;2004年02期
3 梁正友;張林才;;基于Rabin指紋方法的URL去重算法[J];計算機(jī)應(yīng)用;2008年S2期
4 馬成前;毛許光;;網(wǎng)頁查重算法Shingling和Simhash研究[J];計算機(jī)與數(shù)字工程;2009年01期
5 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機(jī)應(yīng)用研究;2007年10期
6 郭浩;陸余良;劉金紅;;一種基于狀態(tài)轉(zhuǎn)換圖的Ajax爬行算法[J];計算機(jī)應(yīng)用研究;2009年11期
7 李曉明,鳳旺森;兩種對URL的散列效果很好的函數(shù)[J];軟件學(xué)報;2004年02期
8 李若鵬;李翔;林祥;李建華;;基于DK算法的互聯(lián)網(wǎng)熱點主動發(fā)現(xiàn)研究與實現(xiàn)[J];計算機(jī)技術(shù)與發(fā)展;2008年09期
9 曾偉輝;李淼;曾偉輝;;深層網(wǎng)絡(luò)爬蟲研究綜述[J];計算機(jī)系統(tǒng)應(yīng)用;2008年05期
10 李曉明,劉建國;搜索引擎技術(shù)及趨勢[J];中國計算機(jī)用戶;2000年09期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 吳麗輝;個性化的Web信息采集技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2005年
2 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學(xué);2010年
2 王曉地;Web信息采集技術(shù)研究與實現(xiàn)[D];華南理工大學(xué);2010年
3 王佳;支持Ajax技術(shù)的主題網(wǎng)絡(luò)爬蟲系統(tǒng)研究與實現(xiàn)[D];北京交通大學(xué);2011年
4 管翠花;支持Ajax技術(shù)的Deep Web網(wǎng)絡(luò)爬蟲模型研究[D];大連海事大學(xué);2011年
5 梁萍;搜索引擎中網(wǎng)絡(luò)爬蟲及結(jié)果聚類的研究與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2011年
6 劉壁松;策略可擴(kuò)展的搜索引擎研究和實現(xiàn)[D];清華大學(xué);2005年
7 張曉峰;并行網(wǎng)頁抓取系統(tǒng)設(shè)計[D];北京交通大學(xué);2007年
8 譚龍遠(yuǎn);基于領(lǐng)域的網(wǎng)絡(luò)爬蟲技術(shù)的研究與實現(xiàn)[D];武漢理工大學(xué);2009年
9 李春生;基于WEB信息采集的分布式網(wǎng)絡(luò)爬蟲搜索引擎的研究[D];吉林大學(xué);2009年
10 龔勇;搜索引擎中網(wǎng)絡(luò)爬蟲的研究[D];武漢理工大學(xué);2010年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 查志華;李偉;;搜索引擎的技術(shù)現(xiàn)狀及發(fā)展趨勢[J];兵團(tuán)教育學(xué)院學(xué)報;2006年03期
2 彭建榮;羅永會;;搜索引擎的基本原理及發(fā)展趨勢[J];電腦知識與技術(shù);2006年02期
3 劉林,汪濤,樊孝忠;主題爬蟲的解決方案[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2004年S1期
4 宋暉,張嶺,葉允明,馬范援;基于標(biāo)記樹對象抽取技術(shù)的Hidden Web獲取研究[J];計算機(jī)工程與應(yīng)用;2002年23期
5 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計算機(jī)工程與應(yīng)用;2003年10期
6 王麗坤;王宏;陸玉昌;;文本挖掘及其關(guān)鍵技術(shù)與方法[J];計算機(jī)科學(xué);2002年12期
7 印鑒,陳憶群,張鋼;搜索引擎技術(shù)研究與發(fā)展[J];計算機(jī)工程;2005年14期
8 陳珂;陳小英;徐科;;Hidden Web信息獲取[J];計算機(jī)時代;2007年05期
9 王映,于滿泉,李盛韜,王斌,余智華;JavaScript引擎在動態(tài)網(wǎng)頁采集技術(shù)中的應(yīng)用[J];計算機(jī)應(yīng)用;2004年02期
10 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機(jī)應(yīng)用;2005年09期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 曾偉輝;李淼;;基于JavaScript切片的AJAX框架網(wǎng)絡(luò)爬蟲技術(shù)研究[J];計算機(jī)系統(tǒng)應(yīng)用;2009年07期
2 鄭力明;易平;;基于HTMLParser信息提取的網(wǎng)絡(luò)爬蟲設(shè)計[J];微計算機(jī)信息;2009年15期
3 陳麗君;;深層網(wǎng)網(wǎng)絡(luò)爬蟲設(shè)計[J];計算機(jī)與信息技術(shù);2009年Z2期
4 陳哲;;垂直搜索中網(wǎng)頁抓取技術(shù)的研究[J];科技信息;2009年22期
5 賀財平;覃事剛;劉建勛;;Web服務(wù)搜索引擎的設(shè)計與實現(xiàn)[J];計算機(jī)應(yīng)用與軟件;2011年01期
6 劉明輝;張志平;張新民;;網(wǎng)絡(luò)資源聚合方法探析[J];機(jī)械管理開發(fā);2008年05期
7 王舜燕;李蕾;吳兵華;;基于ID3分類算法的深度網(wǎng)絡(luò)爬蟲設(shè)計[J];現(xiàn)代圖書情報技術(shù);2008年06期
8 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計算機(jī)科學(xué)與探索;2011年01期
9 王芳;陳海建;;深入解析Web主題爬蟲的關(guān)鍵性原理[J];微型電腦應(yīng)用;2011年07期
10 陳汶濱;夏學(xué)梅;;基于聚焦爬蟲的手機(jī)天氣預(yù)報系統(tǒng)[J];今日科苑;2009年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
2 彭亮;卓新建;黃瑋;范文慶;;基于網(wǎng)絡(luò)爬蟲的XSS漏洞掃描系統(tǒng)的設(shè)計與實現(xiàn)[A];第十三屆中國科協(xié)年會第11分會場-中國智慧城市論壇論文集[C];2011年
3 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年
4 鄒永斌;陳興蜀;王文賢;;一個高性能Web資源收集系統(tǒng)的設(shè)計與實現(xiàn)[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
5 侯丹青;李舟軍;鄒蘊珂;;一種跨站腳本漏洞檢測系統(tǒng)的設(shè)計與實現(xiàn)[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集(第二十四卷)[C];2009年
6 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
7 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機(jī)學(xué)術(shù)會議論文集[C];2010年
8 王棟;李妍;曹文;;基于AJAX技術(shù)的礦區(qū)環(huán)保信息系統(tǒng)的研究[A];煤礦節(jié)能減排與生態(tài)建設(shè)論壇論文集[C];2009年
9 何松;侯思祖;蘇貴波;李璇;;Ajax結(jié)合WebGIS在電力通信網(wǎng)資源管理中研究與應(yīng)用[A];2007年河北省電子學(xué)會、河北省計算機(jī)學(xué)會、河北省自動化學(xué)會、河北省人工智能學(xué)會、河北省計算機(jī)輔助設(shè)計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學(xué)術(shù)年會論文集[C];2007年
10 李楠;馬世龍;;一種基于Ajax的動態(tài)樹型結(jié)構(gòu)的設(shè)計與實現(xiàn)[A];2007中國控制與決策學(xué)術(shù)年會論文集[C];2007年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 Victor;[N];人民郵電;2004年
2 伍裕標(biāo);[N];中國電腦教育報;2003年
3 王猛祥 徐明華;[N];中國計算機(jī)報;2004年
4 商建剛;[N];中國計算機(jī)報;2001年
5 甘肅 吳建蓉;[N];電腦報;2001年
6 河北 王皓玉;[N];電腦報;2004年
7 陳翔;[N];中國計算機(jī)報;2004年
8 記者 郭麗君;[N];光明日報;2010年
9 記者 邵素宏;[N];人民郵電;2010年
10 馬季;[N];人民日報海外版;2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 詹騫;基于Ajax/REST的GIS WEB服務(wù)研究與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2008年
2 鄧春燕;基于RIA的全景虛擬野外地質(zhì)信息系統(tǒng)[D];吉林大學(xué);2010年
3 王開宇;Web系統(tǒng)建模及其性能分析[D];燕山大學(xué);2010年
4 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
5 陶亮;面向水利信息網(wǎng)格的混合式SOA應(yīng)用技術(shù)研究[D];武漢大學(xué);2009年
6 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張媚;Ajax友好的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];暨南大學(xué);2011年
2 管翠花;支持Ajax技術(shù)的Deep Web網(wǎng)絡(luò)爬蟲模型研究[D];大連海事大學(xué);2011年
3 曾偉輝;支持AJAX的網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2009年
4 羅兵;支持AJAX的互聯(lián)網(wǎng)搜索引擎爬蟲設(shè)計與實現(xiàn)[D];浙江大學(xué);2007年
5 劉雙林;LUCENE實現(xiàn)的基于RSS的博客搜索引擎[D];哈爾濱工程大學(xué);2009年
6 王佳;支持Ajax技術(shù)的主題網(wǎng)絡(luò)爬蟲系統(tǒng)研究與實現(xiàn)[D];北京交通大學(xué);2011年
7 劉凡凡;支持AJAX的定址網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D];北京郵電大學(xué);2013年
8 李松;利用Nutch研究與實現(xiàn)支持Ajax動態(tài)網(wǎng)頁的網(wǎng)絡(luò)爬蟲系統(tǒng)[D];內(nèi)蒙古師范大學(xué);2013年
9 趙茉莉;網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2013年
10 芮虎;比價購物平臺中網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D];華東理工大學(xué);2013年
本文關(guān)鍵詞:LUCENE實現(xiàn)的基于RSS的博客搜索引擎,由筆耕文化傳播整理發(fā)布。
,本文編號:142837
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/142837.html