搜索引擎中基于狀態(tài)的Ajax動態(tài)網(wǎng)頁提取研究
本文關(guān)鍵詞:搜索引擎中基于狀態(tài)的Ajax動態(tài)網(wǎng)頁提取研究 出處:《計算機應(yīng)用與軟件》2013年07期 論文類型:期刊論文
更多相關(guān)文章: Ajax技術(shù) 動態(tài)網(wǎng)頁 提取 DOM樹 狀態(tài)
【摘要】:Ajax(Asynchronous JavaScript and XML)動態(tài)網(wǎng)頁的提取是目前搜索引擎研究的熱點和難點。在分析已有Ajax動態(tài)網(wǎng)頁提取方法的局限后,針對使用最廣泛的基于DOM(Document Object Model)樹的提取方法存在空間浪費和信息丟失的問題,引入狀態(tài)S的形式化定義,提出基于狀態(tài)的頁面元素、事件與函數(shù)綁定關(guān)系的提取算法AjaxCrawling,并說明算法提取得到的資源庫在搜索引擎中的有效性。通過比較實驗,得出AjaxCrawling具有保證提取到的信息的完整性和節(jié)約存儲空間的優(yōu)勢。
[Abstract]:Ajax(Asynchronous JavaScript and. Dynamic web page extraction is a hot and difficult point in search engine research. After analyzing the limitations of existing Ajax dynamic web page extraction methods. In order to solve the problem of space waste and information loss in the most widely used extraction method based on DOM(Document Object Model tree, the formal definition of state S is introduced. This paper proposes a state-based page element, event and function binding extraction algorithm Ajax Crawling, and explains the effectiveness of the resource library extracted by the algorithm in the search engine. It is concluded that AjaxCrawling has the advantages of ensuring the integrity of extracted information and saving storage space.
【作者單位】: 四川托普信息技術(shù)職業(yè)學(xué)院計算機系;
【分類號】:TP393.092
【正文快照】: 0引言隨著Web 2.0的發(fā)展,許多網(wǎng)站采用了動態(tài)腳本的方式與用戶進行交互,在這些動態(tài)交互的應(yīng)用中,Ajax是目前廣泛采用的實現(xiàn)技術(shù)。Ajax的使用使得搜索引擎中傳統(tǒng)的爬蟲機制失效了,傳統(tǒng)的網(wǎng)絡(luò)爬蟲不能提取到Ajax動態(tài)腳本所生成的內(nèi)容,從而嚴重影響到搜索引擎的查詢結(jié)果。如圖1
【參考文獻】
相關(guān)期刊論文 前5條
1 梅林;;增加動態(tài)網(wǎng)頁對搜索引擎可見度的策略[J];甘肅科技;2008年01期
2 王遠定;梁久禎;;利用關(guān)鍵詞倒排表實時檢索中文網(wǎng)頁[J];計算機工程與應(yīng)用;2010年28期
3 郭浩;陸余良;劉金紅;;一種基于狀態(tài)轉(zhuǎn)換圖的Ajax爬行算法[J];計算機應(yīng)用研究;2009年11期
4 邵輝;李芳;;基于樹模型算法的動態(tài)網(wǎng)頁信息抽取研究和實現(xiàn)[J];計算機應(yīng)用與軟件;2007年10期
5 趙思佳;尹婷;;基于規(guī)則引擎的個性化主題網(wǎng)頁爬蟲的研究[J];計算機技術(shù)與發(fā)展;2011年03期
相關(guān)會議論文 前1條
1 夏冰;高軍;王騰蛟;楊冬青;;一種高效的動態(tài)腳本網(wǎng)站有效頁面獲取方法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(A輯)[C];2009年
【共引文獻】
相關(guān)期刊論文 前4條
1 楊俊峰;黎建輝;楊風(fēng)雷;;深層網(wǎng)站Ajax頁面數(shù)據(jù)采集研究綜述[J];計算機應(yīng)用研究;2013年06期
2 劉兆偉;黃永峰;;面向主題搜索引擎的實現(xiàn)與優(yōu)化[J];數(shù)據(jù)通信;2011年04期
3 夏天;;Ajax站點數(shù)據(jù)采集研究綜述[J];現(xiàn)代圖書情報技術(shù);2010年03期
4 陳錦偉;徐勇;;基于Heritrix的網(wǎng)頁內(nèi)容過濾抓取[J];現(xiàn)代計算機(專業(yè)版);2012年21期
相關(guān)碩士學(xué)位論文 前10條
1 高暉;面向Web2.0社區(qū)的爬蟲關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
2 邱偉林;面向領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)[D];大連海事大學(xué);2011年
3 管翠花;支持Ajax技術(shù)的Deep Web網(wǎng)絡(luò)爬蟲模型研究[D];大連海事大學(xué);2011年
4 任昌;基于多特征融合的網(wǎng)頁對象自動定位技術(shù)研究[D];中北大學(xué);2011年
5 劉燁輝;基于知識的應(yīng)用生命周期管理研究[D];中南大學(xué);2011年
6 祝美蓮;半結(jié)構(gòu)化網(wǎng)頁的信息抽取技術(shù)研究[D];中國石油大學(xué);2011年
7 王星;新聞網(wǎng)頁抽取技術(shù)的研究與實現(xiàn)[D];河北工業(yè)大學(xué);2011年
8 陳飛;實時垂直搜索引擎的爬蟲技術(shù)研究[D];大連理工大學(xué);2011年
9 曹曉龍;個性化搜索引擎及其關(guān)鍵技術(shù)研究[D];江南大學(xué);2012年
10 許龍龍;基于Ajax技術(shù)的J2EE應(yīng)用框架的研究與實現(xiàn)[D];西北大學(xué);2010年
【二級參考文獻】
相關(guān)期刊論文 前10條
1 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計算機研究與發(fā)展;2000年05期
2 王繼成,蕭嶸,孫正興,張福炎;Web信息檢索研究進展[J];計算機研究與發(fā)展;2001年02期
3 宋佳;諸云強;劉潤達;;一種基于Lucene改進的全文檢索工具包[J];計算機工程與應(yīng)用;2008年04期
4 鄧攀;劉功申;;一種高效的倒排索引存儲結(jié)構(gòu)[J];計算機工程與應(yīng)用;2008年31期
5 譚新良;蔡代純;;基于XML文檔檢索的搜索引擎設(shè)計[J];計算機科學(xué);2007年03期
6 王李軍;陶明亮;張曙;莫琪葉;;面向業(yè)務(wù)規(guī)則引擎研究[J];計算機工程;2007年24期
7 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計算機應(yīng)用與軟件;2009年01期
8 鄧長壽,趙秉巖;下一代Web搜索引擎探討[J];情報科學(xué);2005年03期
9 劉漢興;劉財興;;主題爬蟲的搜索策略研究[J];計算機工程與設(shè)計;2008年12期
10 陸宜梅;;Web搜索技術(shù)現(xiàn)狀分析[J];沈陽大學(xué)學(xué)報;2006年02期
相關(guān)博士學(xué)位論文 前1條
1 杜亞軍;搜索引擎智能行為的研究及實現(xiàn)[D];西南交通大學(xué);2005年
相關(guān)碩士學(xué)位論文 前1條
1 米嘉;大規(guī)模中文文本檢索中的高性能索引研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2005年
【相似文獻】
相關(guān)期刊論文 前10條
1 黃建招;李鋒;;淺析網(wǎng)頁制作中從ASP到ASP.NET的遷移[J];計算機與網(wǎng)絡(luò);2008年11期
2 陳瑞紅;張霽明;;動態(tài)網(wǎng)站設(shè)計探討[J];湖北生態(tài)工程職業(yè)技術(shù)學(xué)院學(xué)報;2009年03期
3 歐毓毅,鄭志雄;企業(yè)MIS中的動態(tài)網(wǎng)頁生成技術(shù)[J];微計算機信息;2000年05期
4 雨來;;在單機上建網(wǎng)站[J];電腦采購周刊;2000年34期
5 王楠;;讓你的主頁出點彩——主頁制作特效[J];電腦界(應(yīng)用文萃);2000年08期
6 呂律,劉光昌;基于模板類的動態(tài)網(wǎng)頁的實現(xiàn)[J];計算機應(yīng)用與軟件;2004年12期
7 黃偉;遠程教育中動態(tài)網(wǎng)頁的腳本語言設(shè)計[J];大眾科技;2005年04期
8 黃禮超;;校園網(wǎng)網(wǎng)頁設(shè)計[J];科學(xué)咨詢(決策管理);2006年06期
9 辛衛(wèi)紅;;《網(wǎng)頁制作》課程教學(xué)新探[J];今日科苑;2008年14期
10 楊傲;;實用動態(tài)網(wǎng)頁技術(shù)分析[J];經(jīng)營管理者;2009年12期
相關(guān)會議論文 前10條
1 于平福;劉凱龍;;基于ASP的農(nóng)業(yè)網(wǎng)站動態(tài)網(wǎng)頁的設(shè)計研究[A];山西省科學(xué)技術(shù)情報學(xué)會學(xué)術(shù)年會論文集[C];2004年
2 黃明迪;;利用ASP自行構(gòu)建動態(tài)校園網(wǎng)[A];教育技術(shù)應(yīng)用與整合研究論文[C];2005年
3 黃明迪;;利用ASP自行構(gòu)建動態(tài)校園網(wǎng)[A];中國教育技術(shù)協(xié)會2004年年會論文集[C];2004年
4 葛斌;;動態(tài)與靜態(tài)相互結(jié)合的網(wǎng)頁設(shè)計方法[A];計算機模擬與信息技術(shù)會議論文集[C];2001年
5 鐘淑瑛;李陶深;張敏;;一種基于PCA技術(shù)的入侵檢測特征提取方法[A];廣西計算機學(xué)會2005年學(xué)術(shù)年會論文集[C];2005年
6 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁信息提取方法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
8 磨科鵬;;網(wǎng)絡(luò)技術(shù)員應(yīng)知的Web服務(wù)安全原理[A];全國計算機安全學(xué)術(shù)交流會論文集(第二十四卷)[C];2009年
9 辛毅;方濱興;賀龍濤;云曉春;李志東;;基于通信特征分析的蠕蟲檢測和特征提取方法的研究[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
10 王敏;;基于JSP技術(shù)的某市環(huán)保網(wǎng)站的設(shè)計與實現(xiàn)[A];2007中國環(huán)境科學(xué)學(xué)會學(xué)術(shù)年會優(yōu)秀論文集(下卷)[C];2007年
相關(guān)重要報紙文章 前10條
1 鄒肇輝 何艷陽;動態(tài)網(wǎng)頁打造利器——JSP[N];電腦報;2005年
2 丁一;“活的老鼠”不好抓[N];計算機世界;2001年
3 北京 董智勇;動態(tài)網(wǎng)頁新技術(shù)[N];中國電腦教育報;2001年
4 北京郵電大學(xué) 張劍;通過DOM操作數(shù)據(jù)(上)[N];計算機世界;2001年
5 方正技術(shù)研究院 XML中國論壇網(wǎng)(www.xml.net.cn) 李超;應(yīng)用程序接口DOM & SAX[N];網(wǎng)絡(luò)世界;2001年
6 陶秋豐;萬事俱備,,只欠東風(fēng)[N];電腦報;2007年
7 李明(Lawrence Lee);動態(tài)網(wǎng)絡(luò)催生CDN 2.0[N];計算機世界;2007年
8 慰鵬飛;走進編程之網(wǎng)絡(luò)篇(四)[N];江蘇經(jīng)濟報;2001年
9 2SKY;給網(wǎng)站添加調(diào)查功能[N];電腦報;2004年
10 飄零雪;動靜態(tài)網(wǎng)頁輕松轉(zhuǎn)換[N];電腦報;2003年
相關(guān)博士學(xué)位論文 前2條
1 涂浩;蠕蟲自動防御的關(guān)鍵問題研究[D];華中科技大學(xué);2008年
2 唐勇;基于網(wǎng)絡(luò)的攻擊特征自動提取技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 張彪;視頻搜索引擎中的文本抽取系統(tǒng)的設(shè)計與實現(xiàn)[D];首都師范大學(xué);2009年
2 于勇進;基于ASP技術(shù)的畢業(yè)生就業(yè)信息網(wǎng)站的構(gòu)建與實現(xiàn)[D];吉林大學(xué);2004年
3 潘敏;動態(tài)網(wǎng)頁防篡改方法與技術(shù)研究[D];南昌航空大學(xué);2012年
4 段國云;基于環(huán)結(jié)構(gòu)的動態(tài)網(wǎng)頁防篡改系統(tǒng)的設(shè)計與實現(xiàn)[D];湖南大學(xué);2012年
5 翟修樹;基于學(xué)科專題學(xué)習(xí)網(wǎng)站的設(shè)計與構(gòu)建[D];山東師范大學(xué);2006年
6 李魁;大規(guī)模Web論壇采集技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2006年
7 崔玫;《電子線路》網(wǎng)絡(luò)課程的設(shè)計與開發(fā)研究[D];東南大學(xué);2005年
8 張凈;Web信息自動抽取技術(shù)的研究與實現(xiàn)[D];武漢理工大學(xué);2009年
9 柴晟;基于XML的Web組件[D];四川大學(xué);2004年
10 成光;基于XML/XSLT的動態(tài)網(wǎng)頁自動生成系統(tǒng)研究與實現(xiàn)[D];蘇州大學(xué);2006年
本文編號:1431390
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1431390.html