面向Web2.0社區(qū)的爬蟲關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:基于Web2.0的綜合搜索引擎,由筆耕文化傳播整理發(fā)布。
《浙江大學(xué)》 2011年
面向Web2.0社區(qū)的爬蟲關(guān)鍵技術(shù)研究
高暉
【摘要】:Web 2.0社區(qū)是當(dāng)前最為熱門的互聯(lián)網(wǎng)應(yīng)用,SNS、微博、在線問(wèn)答、貼吧等都是其典型代表。這類網(wǎng)站的特點(diǎn)是用戶參與網(wǎng)站內(nèi)容的創(chuàng)建與編輯,改變了以往信息單向發(fā)布的模式;此外,大量運(yùn)用Ajax等富客戶端技術(shù)提升用戶體驗(yàn),網(wǎng)頁(yè)加載形式不同于以往的一次性加載,需要依賴于用戶的交互操作才能形成最終視圖。 由于Web 2.0社區(qū)內(nèi)容構(gòu)成渠道更為多樣化,信息的實(shí)效性和發(fā)布模式的不確定性較之傳統(tǒng)網(wǎng)站大為增強(qiáng),信息質(zhì)量良莠不齊,客戶端動(dòng)態(tài)內(nèi)容難于自動(dòng)獲取等,都給傳統(tǒng)搜索引擎帶來(lái)了挑戰(zhàn),現(xiàn)有爬蟲技術(shù)需要在實(shí)時(shí)搜索和客戶端動(dòng)態(tài)內(nèi)容索引方面進(jìn)行改進(jìn),才能夠適應(yīng)Web 2.0社區(qū)所帶來(lái)的互聯(lián)網(wǎng)新浪潮。 在實(shí)時(shí)爬蟲方面,本文著重研究基于發(fā)布模式預(yù)測(cè)的爬蟲調(diào)度策略,通過(guò)對(duì)本地索引質(zhì)量標(biāo)準(zhǔn)的改進(jìn),引入社區(qū)網(wǎng)頁(yè)內(nèi)容權(quán)重評(píng)價(jià)體系,將其與索引時(shí)延因素結(jié)合作為新的度量標(biāo)準(zhǔn),從而將爬蟲調(diào)度問(wèn)題歸約為本地索引質(zhì)量?jī)?yōu)化問(wèn)題,利用網(wǎng)站歷史發(fā)布數(shù)據(jù)挖掘出最優(yōu)的爬行計(jì)劃。 在Ajax爬蟲方面,由于Ajax單個(gè)頁(yè)面中包含多個(gè)狀態(tài),’本文援引了經(jīng)典的狀態(tài)轉(zhuǎn)換圖模型對(duì)Ajax網(wǎng)站進(jìn)行建模,并且引入基于XPath特征的無(wú)效元素檢測(cè)、基于XHR監(jiān)聽(tīng)的異步請(qǐng)求優(yōu)化等手段,改進(jìn)原有算法無(wú)關(guān)狀態(tài)多、狀態(tài)爆炸、識(shí)別重復(fù)狀態(tài)困難、性能低下等缺陷,相比傳統(tǒng)爬蟲又在網(wǎng)頁(yè)召回率方面獲得了大幅提升。 最后,本文提出了面向Web 2.0社區(qū)的爬蟲原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),通過(guò)將其成功應(yīng)用于校內(nèi)新聞搜索引擎,驗(yàn)證了本文觀點(diǎn)的正確性和有效性。
【關(guān)鍵詞】:
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類號(hào)】:TP391.3
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條
1 郭浩;陸余良;劉金紅;;一種基于狀態(tài)轉(zhuǎn)換圖的Ajax爬行算法[J];計(jì)算機(jī)應(yīng)用研究;2009年11期
2 程陳;齊開(kāi)悅;陳劍波;;基于Web2.0的綜合搜索引擎[J];計(jì)算機(jī)應(yīng)用與軟件;2010年01期
3 鄭興華;;小議Web2.0時(shí)代的搜索引擎[J];情報(bào)探索;2008年11期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條
1 李冰巖;黃地龍;郝園;;基于Web的搜索引擎算法的研究[J];電腦與電信;2010年05期
2 安嵐;;傳播中的選擇:一次對(duì)中國(guó)電影史的檢閱[J];電影文學(xué);2012年15期
3 于瑞華;;基于WEB2.0的電影營(yíng)銷策略研究[J];電影文學(xué);2012年15期
4 陸亮;李東;;支持AJAX的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[J];智能計(jì)算機(jī)與應(yīng)用;2013年06期
5 楊俊峰;黎建輝;楊風(fēng)雷;;深層網(wǎng)站Ajax頁(yè)面數(shù)據(jù)采集研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2013年06期
6 陳莉莉;張麗;劉正龍;;搜索引擎中基于狀態(tài)的Ajax動(dòng)態(tài)網(wǎng)頁(yè)提取研究[J];計(jì)算機(jī)應(yīng)用與軟件;2013年07期
7 夏天;;Ajax站點(diǎn)數(shù)據(jù)采集研究綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2010年03期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 黃衛(wèi)平;個(gè)性化搜索引擎的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2011年
2 管翠花;支持Ajax技術(shù)的Deep Web網(wǎng)絡(luò)爬蟲模型研究[D];大連海事大學(xué);2011年
3 劉燁輝;基于知識(shí)的應(yīng)用生命周期管理研究[D];中南大學(xué);2011年
4 相志洪;基于Web2.0的農(nóng)村科技信息推送系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];天津大學(xué);2011年
5 陳飛;實(shí)時(shí)垂直搜索引擎的爬蟲技術(shù)研究[D];大連理工大學(xué);2011年
6 張婷;分布式網(wǎng)絡(luò)搜索引擎的研究與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2011年
7 許龍龍;基于Ajax技術(shù)的J2EE應(yīng)用框架的研究與實(shí)現(xiàn)[D];西北大學(xué);2010年
8 陳飛;互聯(lián)網(wǎng)“人肉搜索”倫理審視[D];重慶師范大學(xué);2010年
9 樂(lè)齊菁;電信運(yùn)行維護(hù)知識(shí)庫(kù)系統(tǒng)的分析和設(shè)計(jì)[D];南京理工大學(xué);2012年
10 劉凡凡;支持AJAX的定址網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條
1 盧亮;;搜索引擎的Web 2.0[J];互聯(lián)網(wǎng)天地;2005年12期
2 張自然;金燕;;Web2.0環(huán)境下的網(wǎng)絡(luò)信息檢索[J];情報(bào)資料工作;2007年05期
3 屈長(zhǎng)青,李艷芳;元搜索引擎的關(guān)鍵技術(shù)[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2004年05期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 宋春陽(yáng);金可音;;Web搜索引擎技術(shù)綜述[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2008年05期
2 趙力;;網(wǎng)站全文搜索引擎技術(shù)的初步研究及應(yīng)用[J];科技信息;2009年11期
3 劉波,代亞非,杜躍進(jìn);遠(yuǎn)程協(xié)同教學(xué)系統(tǒng)中課程搜索子系統(tǒng)設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2000年06期
4 嚴(yán)良達(dá);;基于Lucene搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];寧波職業(yè)技術(shù)學(xué)院學(xué)報(bào);2009年02期
5 寧彬;;Web數(shù)據(jù)挖掘綜述[J];華南金融電腦;2006年02期
6 陳學(xué)鋒,周亞敏,敖青云,白英彩;分布式實(shí)時(shí)網(wǎng)絡(luò)監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2002年06期
7 蔣霞東;Web搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];河海大學(xué)常州分校學(xué)報(bào);2003年01期
8 梁延華,王振興;Web搜索引擎評(píng)估技術(shù)研究[J];信息工程大學(xué)學(xué)報(bào);2004年01期
9 李俊青;季文天;彭菊萍;;局域網(wǎng)FTP搜索引擎的建立[J];計(jì)算機(jī)與信息技術(shù);2007年09期
10 李文奇,張忠能;當(dāng)前幾種Web查詢語(yǔ)言的分析與比較[J];計(jì)算機(jī)應(yīng)用研究;2003年05期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
2 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年
3 殷華蓓;李通;唐常杰;張?zhí)鞈c;左志松;;從Web文件中挖掘個(gè)性化導(dǎo)航知識(shí)[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
4 石晶;龔震宇;裘杭萍;;基于Web挖掘的個(gè)性化服務(wù)技術(shù)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
5 李利波;劉明利;;一種改進(jìn)的無(wú)回溯反向Web服務(wù)動(dòng)態(tài)組合方法[A];2011年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2011年
6 游爭(zhēng)光;劉建勛;唐明董;;分布式Web服務(wù)測(cè)試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年
7 ;基于廣義對(duì)話的Web用戶的聚類(英文)[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
8 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
9 袁柳;李戰(zhàn)懷;;基于語(yǔ)義搜索的Web服務(wù)匹配[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
10 胡建強(qiáng);周斌;尹剛;鄒鵬;;基于角色的Web服務(wù)訪問(wèn)控制技術(shù)研究[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 邊歆;[N];網(wǎng)絡(luò)世界;2009年
2 本報(bào)記者 邊歆;[N];網(wǎng)絡(luò)世界;2010年
3 ;[N];人民郵電;2010年
4 ;[N];網(wǎng)絡(luò)世界;2009年
5 趙曉濤;[N];網(wǎng)絡(luò)世界;2008年
6 本報(bào)記者 趙曉濤;[N];網(wǎng)絡(luò)世界;2008年
7 彭敏;[N];電腦商報(bào);2009年
8 本報(bào)記者 毛江華;[N];計(jì)算機(jī)世界;2009年
9 閆冰;[N];網(wǎng)絡(luò)世界;2009年
10 趙曉濤;[N];網(wǎng)絡(luò)世界;2009年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
2 劉鐵江;組合Web服務(wù)選擇、部署與執(zhí)行的關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2011年
3 劉馨月;Web挖掘中的鏈接分析與話題檢測(cè)研究[D];大連理工大學(xué);2012年
4 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年
5 毛一梅;基于服務(wù)質(zhì)量的Web服務(wù)關(guān)鍵技術(shù)研究[D];東華大學(xué);2009年
6 王澤來(lái);基于Web服務(wù)集成的物流應(yīng)急關(guān)鍵技術(shù)研究[D];天津大學(xué);2012年
7 張建武;面向Web應(yīng)用的安全評(píng)測(cè)技術(shù)研究[D];北京郵電大學(xué);2012年
8 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年
9 魏登萍;語(yǔ)義Web服務(wù)發(fā)現(xiàn)中匹配策略的研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
10 黃雪娟;語(yǔ)義Web服務(wù)及其合成方法的研究[D];武漢大學(xué);2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 黃華;基于搜索引擎和語(yǔ)義的Web服務(wù)發(fā)現(xiàn)研究[D];武漢理工大學(xué);2011年
2 侯曉帆;基于云計(jì)算的Web教育爬蟲[D];東北師范大學(xué);2011年
3 歐建斌;基于Web挖掘與信息分類的個(gè)性化搜索引擎研究[D];暨南大學(xué);2010年
4 唐黎;Deep Web頁(yè)面結(jié)構(gòu)分析與核心內(nèi)容提取研究[D];重慶大學(xué);2011年
5 龐永杰;基于Web的社會(huì)網(wǎng)絡(luò)搜索中人名同一性判斷方法研究[D];華中科技大學(xué);2011年
6 吳新勇;基于需求群組的Web服務(wù)調(diào)度模型研究[D];上海交通大學(xué);2011年
7 王偉;搜索引擎下Web分類技術(shù)研究[D];內(nèi)蒙古科技大學(xué);2011年
8 周浩;面向網(wǎng)絡(luò)輿情分析的Web數(shù)據(jù)源獲取關(guān)鍵技術(shù)研究[D];西安理工大學(xué);2010年
9 徐衛(wèi);Web新聞熱點(diǎn)發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年
10 魏一帆;分布式信息采集系統(tǒng)Web劃分技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年
本文關(guān)鍵詞:基于Web2.0的綜合搜索引擎,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):109067
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/109067.html