基于切片的Web資源爬蟲的設(shè)計(jì)與優(yōu)化研究
本文關(guān)鍵詞:基于切片的Web資源爬蟲的設(shè)計(jì)與優(yōu)化研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:在手機(jī)等移動(dòng)設(shè)備越來(lái)越普遍的現(xiàn)在,移動(dòng)學(xué)習(xí)在漸漸成為我們學(xué)習(xí)的重要方法之一。移動(dòng)學(xué)習(xí)資源的質(zhì)量以及數(shù)量是至關(guān)重要的,在豐富的互聯(lián)網(wǎng)大背景之下,我們可以借助于網(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)中抓取豐富的學(xué)習(xí)資源,對(duì)之加以改造,可以加工成適合于移動(dòng)學(xué)習(xí)的學(xué)習(xí)資源。由于移動(dòng)學(xué)習(xí)時(shí)間的片段性和即時(shí)性、地點(diǎn)的不確定性、等特點(diǎn),在使用網(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)中抓取資源的時(shí)候,要盡可能多的抓取圖片、視頻、音頻、Flash等多媒體資源,同時(shí)也要保證資源跟學(xué)習(xí)主題的相關(guān)性。在我們已有的基礎(chǔ)教育平臺(tái)中的網(wǎng)絡(luò)爬蟲可以實(shí)現(xiàn)基本的數(shù)據(jù)的抓取,要實(shí)現(xiàn)針對(duì)于移動(dòng)學(xué)習(xí)資源的抓取還需要對(duì)爬蟲進(jìn)行進(jìn)一步改造。本文中主要對(duì)爬蟲進(jìn)行了以下的改進(jìn):1.對(duì)移動(dòng)學(xué)習(xí)所需資源進(jìn)行分析,確定了在爬蟲中需要采集的資源類型以及這些資源在網(wǎng)頁(yè)中的表現(xiàn)形式;2.對(duì)標(biāo)準(zhǔn)的網(wǎng)頁(yè)DOM樹結(jié)構(gòu)進(jìn)行擴(kuò)展,并根據(jù)鏈接在網(wǎng)頁(yè)中語(yǔ)義上聚集成塊的特點(diǎn),對(duì)網(wǎng)頁(yè)中的鏈接在擴(kuò)展的DOM樹的基礎(chǔ)之上進(jìn)行分塊,并根據(jù)噪音鏈接的特點(diǎn)對(duì)其進(jìn)行過(guò)濾,并抽取相關(guān)的鏈接;3.對(duì)網(wǎng)頁(yè)中經(jīng)過(guò)上述過(guò)濾后的相關(guān)鏈接從源碼表現(xiàn)、頁(yè)面表現(xiàn)、指向內(nèi)容類型三個(gè)維度對(duì)鏈接進(jìn)行分類,將鏈接分為普通鏈接和多媒體鏈接兩大類,并根據(jù)這兩大類鏈接的不同特點(diǎn)分析其相關(guān)文本所處的位置,設(shè)計(jì)不同的策略從鏈接所處頁(yè)面內(nèi)部擴(kuò)展DOM樹結(jié)構(gòu)以及頁(yè)面和其他頁(yè)面之間的相關(guān)鏈接關(guān)系兩方面抽取鏈接的相關(guān)文本。
【關(guān)鍵詞】:擴(kuò)展DOM樹 鏈接分類 鏈接過(guò)濾 鏈接相關(guān)文本抽取
【學(xué)位授予單位】:南京師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1;G434
【目錄】:
- 摘要3-4
- Abstract4-7
- 第一章 緒論7-12
- 1.1 研究背景與意義7-9
- 1.2 主題爬蟲相關(guān)研究9
- 1.3 研究?jī)?nèi)容與目標(biāo)9-10
- 1.3.1 研究目標(biāo)10
- 1.3.2 研究?jī)?nèi)容10
- 1.4 本文內(nèi)容結(jié)構(gòu)10-12
- 第二章 網(wǎng)頁(yè)資源抽取算法概述12-18
- 2.1 網(wǎng)頁(yè)分塊技術(shù)12-15
- 2.1.1 基于網(wǎng)頁(yè)標(biāo)簽分布規(guī)律的網(wǎng)頁(yè)分塊12
- 2.1.2 基于網(wǎng)頁(yè)DOM樹結(jié)構(gòu)的網(wǎng)頁(yè)分塊12-14
- 2.1.3 基于視覺(jué)特征的頁(yè)面分塊算法14-15
- 2.2 網(wǎng)頁(yè)鏈接抽取算法15-16
- 2.2.1 基于網(wǎng)頁(yè)分塊的鏈接抽取算法15
- 2.2.2 基于鏈接屬性的鏈接抽取算法15-16
- 2.3 網(wǎng)頁(yè)鏈接的相關(guān)文本抽取算法16-17
- 2.4 基于擴(kuò)展DOM樹與頁(yè)面間聯(lián)系的鏈接及鏈接相關(guān)文本抽取算法17-18
- 第三章 基于擴(kuò)展DOM樹的網(wǎng)頁(yè)鏈接抽取18-32
- 3.1 爬蟲抓取對(duì)象的選擇18-20
- 3.2 相關(guān)鏈接以及噪音鏈接的確定20-21
- 3.3 基于鏈接的網(wǎng)頁(yè)分塊21-28
- 3.3.0 網(wǎng)頁(yè)預(yù)處理工具選擇21-23
- 3.3.1 網(wǎng)頁(yè)預(yù)處理23-24
- 3.3.2 擴(kuò)展DOM樹24-28
- 3.4 基于鏈接特點(diǎn)的噪音鏈接過(guò)濾28-31
- 3.4.1 基于DOM結(jié)構(gòu)的鏈接分塊28-29
- 3.4.2 基于分塊和鏈接特點(diǎn)的鏈接過(guò)濾29-31
- 3.5 本章小結(jié)31-32
- 第四章 基于擴(kuò)展DOM樹與網(wǎng)頁(yè)外部聯(lián)系的鏈接相關(guān)文本抽取32-42
- 4.1 基于三個(gè)維度的網(wǎng)頁(yè)鏈接分析32-34
- 4.2 鏈接相關(guān)文本分析34-39
- 4.2.1 過(guò)往研究中鏈接相關(guān)文本分析34-36
- 4.2.2 基于鏈接類型的鏈接相關(guān)文本分析36-39
- 4.3 抽取鏈接相關(guān)文本算法39-41
- 4.4 本章小結(jié)41-42
- 第五章 實(shí)驗(yàn)驗(yàn)證42-47
- 5.1 實(shí)驗(yàn)方案設(shè)計(jì)42-44
- 5.1.1 Web資源抽取算法流程42-43
- 5.1.2 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備43-44
- 5.1.3 實(shí)驗(yàn)方案設(shè)計(jì)44
- 5.2 噪音過(guò)濾算法的結(jié)果與分析44-45
- 5.2.1 實(shí)驗(yàn)結(jié)果與分析44-45
- 5.2.2 待改進(jìn)之處45
- 5.3 鏈接相關(guān)文本抽取算法的結(jié)果與分析45-46
- 5.3.1 實(shí)驗(yàn)結(jié)果與分析45-46
- 5.3.2 待改進(jìn)之處46
- 5.4 本章小結(jié)46-47
- 第六章 總結(jié)與展望47-48
- 6.1 研究工作總結(jié)47
- 6.2 研究展望47-48
- 參考文獻(xiàn)48-50
- 致謝50
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 項(xiàng)鎮(zhèn);網(wǎng)頁(yè)設(shè)計(jì)新概念[J];江西教育學(xué)院學(xué)報(bào)(自然科學(xué));2001年06期
2 王海燕;張正凱;任建浩;;從審美角度淺談網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)[J];中國(guó)電化教育;2004年09期
3 賈海龍,任玉珍;網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)[J];新鄉(xiāng)師范高等?茖W(xué)校學(xué)報(bào);2005年05期
4 劉肖冰;淺談網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)[J];安陽(yáng)師范學(xué)院學(xué)報(bào);2005年05期
5 孫迎春;;網(wǎng)頁(yè)設(shè)計(jì)研究[J];南平師專學(xué)報(bào);2005年03期
6 文濤;網(wǎng)頁(yè)的視覺(jué)傳達(dá)設(shè)計(jì)與分析[J];沈陽(yáng)教育學(xué)院學(xué)報(bào);2005年01期
7 張秀虎;;淺談網(wǎng)頁(yè)的訪問(wèn)權(quán)限[J];教育信息化;2005年17期
8 魏娜;;淺談網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)[J];新課程研究(職業(yè)教育);2007年09期
9 方園;;淺析藝術(shù)設(shè)計(jì)在網(wǎng)頁(yè)中的運(yùn)用[J];湖北經(jīng)濟(jì)學(xué)院學(xué)報(bào)(人文社會(huì)科學(xué)版);2007年02期
10 趙鋒;;《計(jì)算機(jī)網(wǎng)頁(yè)設(shè)計(jì)》課程分析[J];淮北職業(yè)技術(shù)學(xué)院學(xué)報(bào);2007年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 吳建軍;;談網(wǎng)頁(yè)設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國(guó)測(cè)繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會(huì)優(yōu)秀論文選編[C];2005年
2 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁(yè)篩選系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁(yè)相關(guān)度研究[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁(yè)信息的一種網(wǎng)頁(yè)結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁(yè)信息傳達(dá)中的應(yīng)用研究[A];2006年中國(guó)機(jī)械工程學(xué)會(huì)年會(huì)暨中國(guó)工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會(huì)論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁(yè)文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁(yè)信息結(jié)構(gòu)的網(wǎng)頁(yè)體裁聚類分析[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
8 羅陽(yáng);季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
9 于滿泉;譚松波;許洪波;;網(wǎng)頁(yè)內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 本報(bào)記者 曾居仁 通訊員 郝金榮;貴州“萬(wàn)村千鄉(xiāng)”網(wǎng)頁(yè)工程開(kāi)辟為農(nóng)服務(wù)新渠道[N];中國(guó)氣象報(bào);2012年
2 壯壯;批量保存網(wǎng)頁(yè)信息[N];電腦報(bào);2004年
3 羅震宇 嚴(yán)小斌;一種新型WEB開(kāi)發(fā)技術(shù)的探討[N];中國(guó)冶金報(bào);2011年
4 錢鵬;網(wǎng)盡Web頁(yè)中的好東東[N];電腦報(bào);2004年
5 星之海洋;邁出網(wǎng)頁(yè)制作的第一步[N];電腦報(bào);2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報(bào);2001年
7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國(guó)證券報(bào);2004年
8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國(guó)電腦教育報(bào);2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報(bào);2013年
10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請(qǐng)上網(wǎng)賬號(hào)[N];電腦報(bào);2002年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陳潔;基于概念融合的網(wǎng)頁(yè)篩選技術(shù)研究[D];北京郵電大學(xué);2013年
2 龔昌盛;基于語(yǔ)義標(biāo)注的網(wǎng)頁(yè)廣告加載模型研究[D];武漢大學(xué);2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年
4 黃華軍;網(wǎng)頁(yè)信息隱藏與隱秘信息檢測(cè)研究[D];湖南大學(xué);2007年
5 徐晴陽(yáng);基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年
6 曹魯慧;Web個(gè)人信息集成問(wèn)題研究[D];山東大學(xué);2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測(cè)研究[D];大連理工大學(xué);2012年
8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年
9 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
10 宗校軍;中文網(wǎng)頁(yè)定題采集及分類研究[D];華中科技大學(xué);2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 敖志敏;基于網(wǎng)頁(yè)相似度的搜索算法改進(jìn)的研究[D];上海師范大學(xué);2015年
2 楊尋;地域文化的視覺(jué)元素在旅游網(wǎng)頁(yè)設(shè)計(jì)中的應(yīng)用研究[D];西南交通大學(xué);2015年
3 張W
本文編號(hào):378114
本文鏈接:http://sikaile.net/jiaoyulunwen/xuekejiaoyulunwen/378114.html