主題爬蟲搜索策略及關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:主題爬蟲搜索策略及關(guān)鍵技術(shù)研究
更多相關(guān)文章: 主題爬蟲 語義相似度 向量空間模型 Shark-Search算法 隧道穿越
【摘要】:主題網(wǎng)絡(luò)爬蟲是主題搜索引擎的關(guān)鍵技術(shù)。主題爬蟲能夠智能地采集與特定主題相關(guān)的網(wǎng)頁,而避免不相關(guān)網(wǎng)頁的訪問;主題爬蟲的提出與運(yùn)用能夠極大緩解目前基于通用網(wǎng)絡(luò)爬蟲的搜索引擎中搜索覆蓋率低,搜索精度低、網(wǎng)頁更新不及時(shí)而無法滿足用戶的個(gè)性化需求的問題。主題爬蟲的核心難點(diǎn)是預(yù)測未訪問鏈接的主題相關(guān)度。目前比較經(jīng)典的主題爬蟲中普遍采用向量空間模型來計(jì)算網(wǎng)頁內(nèi)容的主題相關(guān)度,這種方法沒有考慮到主題詞項(xiàng)的語義信息;在網(wǎng)頁內(nèi)容相關(guān)性分析鏈接上下文時(shí),往往引入噪音,不能準(zhǔn)確反應(yīng)主題相關(guān)性;在結(jié)合鏈接結(jié)構(gòu)分析和內(nèi)容相似性分析時(shí)考慮因素不全,只是二者分值相加;在主題爬取過程中沒有考慮隧道特征,或者引入隧道方法不佳導(dǎo)致大量非相關(guān)網(wǎng)頁被下載。為了解決上述問題,本文研究工作如下:(1)本文在原有向量空間模型的基礎(chǔ)上,還考慮關(guān)鍵詞項(xiàng)的語義相似度,提出了基于詞項(xiàng)語義相似度的向量空間模型(TSSVSM)。本文主題爬蟲算法將利用TSSVSM模型計(jì)算網(wǎng)頁文本與主題的相似度。(2)本文在分析隧道特征的基礎(chǔ)上,提出了自適應(yīng)隧道穿越方法,此方法能夠網(wǎng)頁內(nèi)容和穿越路徑的相關(guān)性綜合動態(tài)計(jì)算隧道穿越的距離,從而在獲得更多主題相關(guān)網(wǎng)頁的前提下減少無關(guān)網(wǎng)頁的訪問。(3)本文分析了鏈接上下文的局限性,在計(jì)算內(nèi)容相似度時(shí)去掉鏈接上下文因素而加入網(wǎng)頁標(biāo)題因素,網(wǎng)頁內(nèi)容相似度由網(wǎng)頁標(biāo)題、網(wǎng)頁文本和錨文本綜合決定,然后對OPIC算法進(jìn)行改進(jìn),提出了依據(jù)網(wǎng)頁內(nèi)容相似度大小進(jìn)行不平均分配現(xiàn)金值的NOS算法。(4)本文在開源網(wǎng)絡(luò)爬蟲Nutch上定制和實(shí)現(xiàn)本文提出的主題爬蟲算法和其他主題爬蟲算法,使用收獲率和召回率作為實(shí)驗(yàn)評價(jià)指標(biāo)。本文從ODP中選擇主題和種子網(wǎng)頁,并將本文算法和Best-First算法、Shark-Search算法和OTIE算法進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明本文提出的主題爬蟲算法不僅具有明顯好的查全率,而且具有很好的查準(zhǔn)率。
【關(guān)鍵詞】:主題爬蟲 語義相似度 向量空間模型 Shark-Search算法 隧道穿越
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【目錄】:
- 中文摘要3-4
- 英文摘要4-8
- 1 緒論8-15
- 1.1 研究背景8-9
- 1.2 研究目的和意義9
- 1.3 國內(nèi)外研究現(xiàn)狀9-14
- 1.4 本文研究內(nèi)容和組織結(jié)構(gòu)14-15
- 2 主題爬蟲的相關(guān)技術(shù)15-30
- 2.1 主題爬蟲概述15-17
- 2.2 主題頁面分布特征17-18
- 2.3 主題表示模型18-19
- 2.4 主題向量構(gòu)建19-22
- 2.5 主題相關(guān)性判斷22-26
- 2.6 主題爬蟲的搜索策略26-28
- 2.6.1 PageRank算法26
- 2.6.2 OPIC算法26-27
- 2.6.3 Shark-Search算法27-28
- 2.6.4 OTIE算法28
- 2.7 本章小結(jié)28-30
- 3 基于鏈接和內(nèi)容分析的不平均分配算法30-41
- 3.1 基于詞項(xiàng)語義相似度的向量空間模型30-33
- 3.2 自適應(yīng)隧道穿越技術(shù)33-36
- 3.3 基于鏈接和內(nèi)容分析的不平均分配算法36-39
- 3.4 本章小結(jié)39-41
- 4 實(shí)驗(yàn)與分析41-49
- 4.1 實(shí)驗(yàn)設(shè)計(jì)43-45
- 4.2 實(shí)驗(yàn)評價(jià)指標(biāo)45-46
- 4.3 實(shí)驗(yàn)結(jié)果與分析46-48
- 4.4 本章小結(jié)48-49
- 5 總結(jié)與展望49-51
- 5.1 論文工作總結(jié)49
- 5.2 后續(xù)工作展望49-51
- 致謝51-52
- 參考文獻(xiàn)52-56
- 附錄56
- A.作者在攻讀學(xué)位期間發(fā)表的論文目錄56
- B.作者在攻讀碩士學(xué)位期間參與項(xiàng)目情況56
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 朱松巖;;網(wǎng)頁設(shè)計(jì)之特性分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報(bào);2009年03期
2 安琳;;國外網(wǎng)頁信息存檔項(xiàng)目及相關(guān)問題研究[J];圖書館建設(shè);2009年12期
3 蔣桂梅;;網(wǎng)頁設(shè)計(jì)的藝術(shù)性[J];電腦知識與技術(shù);2010年05期
4 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期
5 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報(bào)工作;2011年07期
6 王爍;;美國網(wǎng)頁歸檔項(xiàng)目——Internet Archive發(fā)展研究[J];蘭臺世界;2012年17期
7 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動提取的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年18期
8 何立波;周世波;;網(wǎng)頁設(shè)計(jì)中的藝術(shù)研究[J];考試周刊;2011年25期
9 秦永平;網(wǎng)頁信息共享技術(shù)[J];計(jì)算機(jī)應(yīng)用;2000年02期
10 項(xiàng)鎮(zhèn);網(wǎng)頁設(shè)計(jì)新概念[J];江西教育學(xué)院學(xué)報(bào)(自然科學(xué));2001年06期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 吳建軍;;談網(wǎng)頁設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會優(yōu)秀論文選編[C];2005年
2 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達(dá)中的應(yīng)用研究[A];2006年中國機(jī)械工程學(xué)會年會暨中國工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2000年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 本報(bào)記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務(wù)新渠道[N];中國氣象報(bào);2012年
2 壯壯;批量保存網(wǎng)頁信息[N];電腦報(bào);2004年
3 羅震宇 嚴(yán)小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國冶金報(bào);2011年
4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報(bào);2004年
5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報(bào);2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報(bào);2001年
7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報(bào);2004年
8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國電腦教育報(bào);2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報(bào);2013年
10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請上網(wǎng)賬號[N];電腦報(bào);2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學(xué);2013年
2 龔昌盛;基于語義標(biāo)注的網(wǎng)頁廣告加載模型研究[D];武漢大學(xué);2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年
4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學(xué);2007年
5 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年
6 曹魯慧;Web個(gè)人信息集成問題研究[D];山東大學(xué);2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學(xué);2012年
8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年
9 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 敖志敏;基于網(wǎng)頁相似度的搜索算法改進(jìn)的研究[D];上海師范大學(xué);2015年
2 楊尋;地域文化的視覺元素在旅游網(wǎng)頁設(shè)計(jì)中的應(yīng)用研究[D];西南交通大學(xué);2015年
3 張W,
本文編號:722407
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/722407.html