天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

面向Web2.0社區(qū)的爬蟲關(guān)鍵技術(shù)研究

發(fā)布時(shí)間:2016-09-04 17:10

  本文關(guān)鍵詞:基于Web2.0的綜合搜索引擎,由筆耕文化傳播整理發(fā)布。


《浙江大學(xué)》 2011年

面向Web2.0社區(qū)的爬蟲關(guān)鍵技術(shù)研究

高暉  

【摘要】:Web 2.0社區(qū)是當(dāng)前最為熱門的互聯(lián)網(wǎng)應(yīng)用,SNS、微博、在線問(wèn)答、貼吧等都是其典型代表。這類網(wǎng)站的特點(diǎn)是用戶參與網(wǎng)站內(nèi)容的創(chuàng)建與編輯,改變了以往信息單向發(fā)布的模式;此外,大量運(yùn)用Ajax等富客戶端技術(shù)提升用戶體驗(yàn),網(wǎng)頁(yè)加載形式不同于以往的一次性加載,需要依賴于用戶的交互操作才能形成最終視圖。 由于Web 2.0社區(qū)內(nèi)容構(gòu)成渠道更為多樣化,信息的實(shí)效性和發(fā)布模式的不確定性較之傳統(tǒng)網(wǎng)站大為增強(qiáng),信息質(zhì)量良莠不齊,客戶端動(dòng)態(tài)內(nèi)容難于自動(dòng)獲取等,都給傳統(tǒng)搜索引擎帶來(lái)了挑戰(zhàn),現(xiàn)有爬蟲技術(shù)需要在實(shí)時(shí)搜索和客戶端動(dòng)態(tài)內(nèi)容索引方面進(jìn)行改進(jìn),才能夠適應(yīng)Web 2.0社區(qū)所帶來(lái)的互聯(lián)網(wǎng)新浪潮。 在實(shí)時(shí)爬蟲方面,本文著重研究基于發(fā)布模式預(yù)測(cè)的爬蟲調(diào)度策略,通過(guò)對(duì)本地索引質(zhì)量標(biāo)準(zhǔn)的改進(jìn),引入社區(qū)網(wǎng)頁(yè)內(nèi)容權(quán)重評(píng)價(jià)體系,將其與索引時(shí)延因素結(jié)合作為新的度量標(biāo)準(zhǔn),從而將爬蟲調(diào)度問(wèn)題歸約為本地索引質(zhì)量?jī)?yōu)化問(wèn)題,利用網(wǎng)站歷史發(fā)布數(shù)據(jù)挖掘出最優(yōu)的爬行計(jì)劃。 在Ajax爬蟲方面,由于Ajax單個(gè)頁(yè)面中包含多個(gè)狀態(tài),’本文援引了經(jīng)典的狀態(tài)轉(zhuǎn)換圖模型對(duì)Ajax網(wǎng)站進(jìn)行建模,并且引入基于XPath特征的無(wú)效元素檢測(cè)、基于XHR監(jiān)聽(tīng)的異步請(qǐng)求優(yōu)化等手段,改進(jìn)原有算法無(wú)關(guān)狀態(tài)多、狀態(tài)爆炸、識(shí)別重復(fù)狀態(tài)困難、性能低下等缺陷,相比傳統(tǒng)爬蟲又在網(wǎng)頁(yè)召回率方面獲得了大幅提升。 最后,本文提出了面向Web 2.0社區(qū)的爬蟲原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),通過(guò)將其成功應(yīng)用于校內(nèi)新聞搜索引擎,驗(yàn)證了本文觀點(diǎn)的正確性和有效性。

【關(guān)鍵詞】:
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類號(hào)】:TP391.3
【目錄】:

  • 摘要3-4
  • Abstract4-9
  • 第1章 緒論9-15
  • 1.1 課題背景9
  • 1.2 Web 2.0社區(qū)簡(jiǎn)介9-12
  • 1.2.1 Web 2.0社區(qū)的特點(diǎn)9-10
  • 1.2.2 典型的Web 2.0社區(qū)10-12
  • 1.3 傳統(tǒng)搜索引擎對(duì)Web 2.0社區(qū)的支持12-13
  • 1.3.1 實(shí)時(shí)搜索12
  • 1.3.2 動(dòng)態(tài)內(nèi)容索引12-13
  • 1.4 本文工作13-14
  • 1.5 章節(jié)安排14-15
  • 第2章 面向Web 2.0社區(qū)的爬蟲技術(shù)綜述15-28
  • 2.1 實(shí)時(shí)搜索相關(guān)研究15-23
  • 2.1.1 主動(dòng)模式的爬蟲15-19
  • 2.1.2 被動(dòng)模式的爬蟲19-21
  • 2.1.3 實(shí)時(shí)索引21-23
  • 2.2 Ajax爬蟲相關(guān)研究23-27
  • 2.2.1 動(dòng)態(tài)腳本解析24-25
  • 2.2.2 狀態(tài)轉(zhuǎn)換圖模型25-26
  • 2.2.3 優(yōu)化與改進(jìn)工作26-27
  • 2.3 本章小結(jié)27-28
  • 第3章 質(zhì)量?jī)?yōu)先的實(shí)時(shí)爬蟲調(diào)度策略28-42
  • 3.1 索引質(zhì)量指標(biāo)28-30
  • 3.1.1 索引時(shí)延28
  • 3.1.2 內(nèi)容權(quán)重28-30
  • 3.1.3 綜合度量指標(biāo)30
  • 3.2 面向質(zhì)量的爬蟲調(diào)度策略優(yōu)化問(wèn)題30
  • 3.3 面向質(zhì)量的爬蟲調(diào)度策略優(yōu)化算法30-35
  • 3.3.1 內(nèi)容權(quán)重發(fā)布模式30-34
  • 3.3.2 概率預(yù)測(cè)模型34
  • 3.3.3 優(yōu)化的爬蟲調(diào)度算法34-35
  • 3.4 實(shí)驗(yàn)比較35-40
  • 3.4.1 實(shí)驗(yàn)設(shè)置36
  • 3.4.2 實(shí)驗(yàn)數(shù)據(jù)分析36-38
  • 3.4.3 概率預(yù)測(cè)模型訓(xùn)練38-39
  • 3.4.4 不同爬蟲調(diào)度策略比較39
  • 3.4.5 實(shí)驗(yàn)結(jié)論39-40
  • 3.5 本章小結(jié)40-42
  • 第4章 基于狀態(tài)轉(zhuǎn)換圖的動(dòng)態(tài)網(wǎng)頁(yè)抓取42-57
  • 4.1 狀態(tài)轉(zhuǎn)換圖模型42-48
  • 4.1.1 狀態(tài)轉(zhuǎn)換圖定義43-44
  • 4.1.2 狀態(tài)轉(zhuǎn)換圖示例44
  • 4.1.3 基于狀態(tài)轉(zhuǎn)換圖的廣度優(yōu)先爬行算法44-45
  • 4.1.4 算法存在的主要問(wèn)題45-48
  • 4.2 算法改進(jìn)48-51
  • 4.2.1 基于XPath特征的無(wú)效元素檢測(cè)48-49
  • 4.2.2 基于XHR監(jiān)聽(tīng)的異步請(qǐng)求優(yōu)化49-51
  • 4.3 優(yōu)化的Ajax爬蟲算法51-53
  • 4.4 實(shí)驗(yàn)比較53-56
  • 4.4.1 實(shí)驗(yàn)設(shè)置53
  • 4.4.2 網(wǎng)頁(yè)召回率比較53-54
  • 4.4.3 有效狀態(tài)比例比較54-55
  • 4.4.4 異步請(qǐng)求數(shù)比較55-56
  • 4.4.5 實(shí)驗(yàn)結(jié)論56
  • 4.5 本章小結(jié)56-57
  • 第5章 面向Web 2.0社區(qū)的爬蟲原型57-61
  • 5.1 總體設(shè)計(jì)57
  • 5.2 模塊介紹57-59
  • 5.2.1 調(diào)度器57-58
  • 5.2.2 嵌入式瀏覽器58
  • 5.2.3 機(jī)器人58
  • 5.2.4 監(jiān)聽(tīng)器58-59
  • 5.2.5 有限狀態(tài)機(jī)59
  • 5.2.6 控制器59
  • 5.3 系統(tǒng)應(yīng)用59-60
  • 5.4 本章小結(jié)60-61
  • 第6章 總結(jié)與展望61-64
  • 6.1 貢獻(xiàn)和創(chuàng)新61-62
  • 6.2 不足和局限62-63
  • 6.3 未來(lái)展望63-64
  • 參考文獻(xiàn)64-67
  • 攻讀碩士學(xué)位期間主要的研究成果67-68
  • 致謝68
  • 下載全文 更多同類文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【參考文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條

    1 郭浩;陸余良;劉金紅;;一種基于狀態(tài)轉(zhuǎn)換圖的Ajax爬行算法[J];計(jì)算機(jī)應(yīng)用研究;2009年11期

    2 程陳;齊開(kāi)悅;陳劍波;;基于Web2.0的綜合搜索引擎[J];計(jì)算機(jī)應(yīng)用與軟件;2010年01期

    3 鄭興華;;小議Web2.0時(shí)代的搜索引擎[J];情報(bào)探索;2008年11期

    【共引文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條

    1 李冰巖;黃地龍;郝園;;基于Web的搜索引擎算法的研究[J];電腦與電信;2010年05期

    2 安嵐;;傳播中的選擇:一次對(duì)中國(guó)電影史的檢閱[J];電影文學(xué);2012年15期

    3 于瑞華;;基于WEB2.0的電影營(yíng)銷策略研究[J];電影文學(xué);2012年15期

    4 陸亮;李東;;支持AJAX的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[J];智能計(jì)算機(jī)與應(yīng)用;2013年06期

    5 楊俊峰;黎建輝;楊風(fēng)雷;;深層網(wǎng)站Ajax頁(yè)面數(shù)據(jù)采集研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2013年06期

    6 陳莉莉;張麗;劉正龍;;搜索引擎中基于狀態(tài)的Ajax動(dòng)態(tài)網(wǎng)頁(yè)提取研究[J];計(jì)算機(jī)應(yīng)用與軟件;2013年07期

    7 夏天;;Ajax站點(diǎn)數(shù)據(jù)采集研究綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2010年03期

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 黃衛(wèi)平;個(gè)性化搜索引擎的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2011年

    2 管翠花;支持Ajax技術(shù)的Deep Web網(wǎng)絡(luò)爬蟲模型研究[D];大連海事大學(xué);2011年

    3 劉燁輝;基于知識(shí)的應(yīng)用生命周期管理研究[D];中南大學(xué);2011年

    4 相志洪;基于Web2.0的農(nóng)村科技信息推送系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];天津大學(xué);2011年

    5 陳飛;實(shí)時(shí)垂直搜索引擎的爬蟲技術(shù)研究[D];大連理工大學(xué);2011年

    6 張婷;分布式網(wǎng)絡(luò)搜索引擎的研究與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2011年

    7 許龍龍;基于Ajax技術(shù)的J2EE應(yīng)用框架的研究與實(shí)現(xiàn)[D];西北大學(xué);2010年

    8 陳飛;互聯(lián)網(wǎng)“人肉搜索”倫理審視[D];重慶師范大學(xué);2010年

    9 樂(lè)齊菁;電信運(yùn)行維護(hù)知識(shí)庫(kù)系統(tǒng)的分析和設(shè)計(jì)[D];南京理工大學(xué);2012年

    10 劉凡凡;支持AJAX的定址網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年

    【二級(jí)參考文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條

    1 盧亮;;搜索引擎的Web 2.0[J];互聯(lián)網(wǎng)天地;2005年12期

    2 張自然;金燕;;Web2.0環(huán)境下的網(wǎng)絡(luò)信息檢索[J];情報(bào)資料工作;2007年05期

    3 屈長(zhǎng)青,李艷芳;元搜索引擎的關(guān)鍵技術(shù)[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2004年05期

    【相似文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

    1 宋春陽(yáng);金可音;;Web搜索引擎技術(shù)綜述[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2008年05期

    2 趙力;;網(wǎng)站全文搜索引擎技術(shù)的初步研究及應(yīng)用[J];科技信息;2009年11期

    3 劉波,代亞非,杜躍進(jìn);遠(yuǎn)程協(xié)同教學(xué)系統(tǒng)中課程搜索子系統(tǒng)設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2000年06期

    4 嚴(yán)良達(dá);;基于Lucene搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];寧波職業(yè)技術(shù)學(xué)院學(xué)報(bào);2009年02期

    5 寧彬;;Web數(shù)據(jù)挖掘綜述[J];華南金融電腦;2006年02期

    6 陳學(xué)鋒,周亞敏,敖青云,白英彩;分布式實(shí)時(shí)網(wǎng)絡(luò)監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2002年06期

    7 蔣霞東;Web搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];河海大學(xué)常州分校學(xué)報(bào);2003年01期

    8 梁延華,王振興;Web搜索引擎評(píng)估技術(shù)研究[J];信息工程大學(xué)學(xué)報(bào);2004年01期

    9 李俊青;季文天;彭菊萍;;局域網(wǎng)FTP搜索引擎的建立[J];計(jì)算機(jī)與信息技術(shù);2007年09期

    10 李文奇,張忠能;當(dāng)前幾種Web查詢語(yǔ)言的分析與比較[J];計(jì)算機(jī)應(yīng)用研究;2003年05期

    中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

    1 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

    2 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年

    3 殷華蓓;李通;唐常杰;張?zhí)鞈c;左志松;;從Web文件中挖掘個(gè)性化導(dǎo)航知識(shí)[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年

    4 石晶;龔震宇;裘杭萍;;基于Web挖掘的個(gè)性化服務(wù)技術(shù)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

    5 李利波;劉明利;;一種改進(jìn)的無(wú)回溯反向Web服務(wù)動(dòng)態(tài)組合方法[A];2011年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2011年

    6 游爭(zhēng)光;劉建勛;唐明董;;分布式Web服務(wù)測(cè)試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年

    7 ;基于廣義對(duì)話的Web用戶的聚類(英文)[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年

    8 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

    9 袁柳;李戰(zhàn)懷;;基于語(yǔ)義搜索的Web服務(wù)匹配[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年

    10 胡建強(qiáng);周斌;尹剛;鄒鵬;;基于角色的Web服務(wù)訪問(wèn)控制技術(shù)研究[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年

    中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

    1 邊歆;[N];網(wǎng)絡(luò)世界;2009年

    2 本報(bào)記者 邊歆;[N];網(wǎng)絡(luò)世界;2010年

    3 ;[N];人民郵電;2010年

    4 ;[N];網(wǎng)絡(luò)世界;2009年

    5 趙曉濤;[N];網(wǎng)絡(luò)世界;2008年

    6 本報(bào)記者 趙曉濤;[N];網(wǎng)絡(luò)世界;2008年

    7 彭敏;[N];電腦商報(bào);2009年

    8 本報(bào)記者 毛江華;[N];計(jì)算機(jī)世界;2009年

    9 閆冰;[N];網(wǎng)絡(luò)世界;2009年

    10 趙曉濤;[N];網(wǎng)絡(luò)世界;2009年

    中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年

    2 劉鐵江;組合Web服務(wù)選擇、部署與執(zhí)行的關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2011年

    3 劉馨月;Web挖掘中的鏈接分析與話題檢測(cè)研究[D];大連理工大學(xué);2012年

    4 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年

    5 毛一梅;基于服務(wù)質(zhì)量的Web服務(wù)關(guān)鍵技術(shù)研究[D];東華大學(xué);2009年

    6 王澤來(lái);基于Web服務(wù)集成的物流應(yīng)急關(guān)鍵技術(shù)研究[D];天津大學(xué);2012年

    7 張建武;面向Web應(yīng)用的安全評(píng)測(cè)技術(shù)研究[D];北京郵電大學(xué);2012年

    8 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年

    9 魏登萍;語(yǔ)義Web服務(wù)發(fā)現(xiàn)中匹配策略的研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

    10 黃雪娟;語(yǔ)義Web服務(wù)及其合成方法的研究[D];武漢大學(xué);2009年

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 黃華;基于搜索引擎和語(yǔ)義的Web服務(wù)發(fā)現(xiàn)研究[D];武漢理工大學(xué);2011年

    2 侯曉帆;基于云計(jì)算的Web教育爬蟲[D];東北師范大學(xué);2011年

    3 歐建斌;基于Web挖掘與信息分類的個(gè)性化搜索引擎研究[D];暨南大學(xué);2010年

    4 唐黎;Deep Web頁(yè)面結(jié)構(gòu)分析與核心內(nèi)容提取研究[D];重慶大學(xué);2011年

    5 龐永杰;基于Web的社會(huì)網(wǎng)絡(luò)搜索中人名同一性判斷方法研究[D];華中科技大學(xué);2011年

    6 吳新勇;基于需求群組的Web服務(wù)調(diào)度模型研究[D];上海交通大學(xué);2011年

    7 王偉;搜索引擎下Web分類技術(shù)研究[D];內(nèi)蒙古科技大學(xué);2011年

    8 周浩;面向網(wǎng)絡(luò)輿情分析的Web數(shù)據(jù)源獲取關(guān)鍵技術(shù)研究[D];西安理工大學(xué);2010年

    9 徐衛(wèi);Web新聞熱點(diǎn)發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年

    10 魏一帆;分布式信息采集系統(tǒng)Web劃分技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年


      本文關(guān)鍵詞:基于Web2.0的綜合搜索引擎,由筆耕文化傳播整理發(fā)布。

    ,

    本文編號(hào):109067

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/109067.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶afa4c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
    好吊日在线视频免费观看| 亚洲一区二区三区四区性色av| 国产美女网红精品演绎| 一区二区三区亚洲天堂 | 国产白丝粉嫩av在线免费观看| 成人国产激情在线视频| 色婷婷人妻av毛片一区二区三区| 国产视频福利一区二区| 日韩午夜老司机免费视频| 日本办公室三级在线观看| 日韩1区二区三区麻豆| 亚洲最新中文字幕一区| 亚洲一区精品二人人爽久久| 亚洲国产精品无遮挡羞羞| 精品伊人久久大香线蕉综合 | 欧美大胆美女a级视频| 91麻豆精品欧美一区| 国产精品推荐在线一区| 亚洲一级在线免费观看| 欧美午夜一级艳片免费看| 黄片在线观看一区二区三区| 色婷婷久久五月中文字幕| 麻豆精品在线一区二区三区| 欧美尤物在线视频91| 成人精品一级特黄大片| 婷婷开心五月亚洲综合| 日本不卡视频在线观看| 国产精品午夜小视频观看| 日韩精品免费一区二区三区| 麻豆国产精品一区二区| 加勒比人妻精品一区二区| 国产一区二区三中文字幕 | 免费福利午夜在线观看| 欧美日韩国产综合特黄| 亚洲欧美日韩在线看片| 高清一区二区三区不卡免费| 男女午夜福利院在线观看| 视频一区中文字幕日韩| 国产午夜福利在线观看精品| 女生更色还是男生更色| 亚洲成人精品免费在线观看|