天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向主題的爬行搜索策略研究與實現(xiàn)

發(fā)布時間:2019-09-11 07:41
【摘要】:隨著Web上的信息越來越多,傳統(tǒng)的通用搜索引擎技術出現(xiàn)了覆蓋率低,資源占用多,更新時間長,用戶對搜索結果的滿意度低等一系列問題。為了克服通用搜索引擎的不足,滿足特定用戶針對特定領域的查詢需求,建立面向特定領域的主題搜索引擎,以提供分類更細致精確、數(shù)據(jù)更全面深入、更新更及時的因特網(wǎng)搜索服務已經(jīng)成為搜索引擎新的發(fā)展方向。 主題爬蟲是在傳統(tǒng)的通用爬蟲爬行整個Web所有網(wǎng)頁的基礎上,綜合使用機器學習中智能學習方法,控制爬蟲爬行過程的抓取方向,使爬行程序盡可能多的抓取與指定主題有關的Web網(wǎng)頁。 目前對于主題爬行的研究,主要集中在兩個熱點:一是Web文本自動分類,就是對于一個網(wǎng)頁,如何判斷是否是主題相關的;二是采用什么樣的爬行策略,能夠盡可能多地下載相關網(wǎng)頁,避免與主題無關的網(wǎng)頁,提高主題資源的覆蓋度。 本文對主題爬行的關鍵技術——網(wǎng)絡爬蟲的搜索策略進行了詳細的分析,在深入分析主題頁面在Web上的分布特征與主題相關性判別算法的基礎上,提出了一個面向主題的網(wǎng)絡爬蟲架構,對架構的主要模塊進行了詳細介紹。在開源WebLech的基礎上進行改進,實現(xiàn)了一個主題爬蟲,基本思想是由語料訓練得到一個樸素貝葉斯分類器,將爬蟲抓取到的網(wǎng)頁在保存到本地之前進行主題相關性分析,若抓取的網(wǎng)頁屬于本主題,則保留本網(wǎng)頁為后面建立索引做準備;若不是主題相關的則拋棄,避免占用更多空間。該方法計算簡單,提高了爬行的速度和召回率。 本文討論了基于Weblech和樸素貝葉斯分類器的主題爬蟲實現(xiàn)過程中用到的各項技術,主要內容包括: (1)提出了一種新的搜索策略,主要是將網(wǎng)頁分為Hub型網(wǎng)頁和內容型網(wǎng)頁,如果網(wǎng)頁是Hub類型的網(wǎng)頁則不進行主題相關性計算,使爬蟲的抓取過程更高效,并且能有效解決主題爬蟲的隧道現(xiàn)象,提高了主題爬蟲的搜集覆蓋率和相關度; (2)研究了樸素貝葉斯分類算法和向量空間模型原理,通過LDA主題模型進行特征加權,提高了樸素貝葉斯對網(wǎng)頁進行分類的精度和效率; (3)提出了一個主題爬行體系架構,介紹了體系架構的各個功能模塊和具體實現(xiàn)技術。設計和實現(xiàn)了一個主題爬蟲系統(tǒng),利用該系統(tǒng)對本文提出的主題爬蟲體系架構進行了驗證,數(shù)據(jù)顯示該架構效果良好。
【學位授予單位】:陜西師范大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3

【相似文獻】

相關期刊論文 前10條

1 馬向玲,馬向陽,李偉;用Dreamweaver制作博士招生網(wǎng)站[J];教育信息化;2001年08期

2 小貝殼;保存網(wǎng)頁的利器——網(wǎng)文快捕信息管理速戰(zhàn)[J];電腦應用文萃;2004年03期

3 ;剖析惡意網(wǎng)頁修改注冊表[J];電腦數(shù)碼采購周刊;2005年02期

4 miniworm;;圓角的革命[J];電腦愛好者;2007年07期

5 張啟宇;朱玲;車忠志;;網(wǎng)頁文件元數(shù)據(jù)的自動提取[J];電腦與電信;2008年04期

6 陳寧江;杜凡遠;;網(wǎng)頁防篡改應用技術分析[J];現(xiàn)代機械;2009年03期

7 中英;;神奇的Internet臨時文件夾[J];網(wǎng)絡科技時代(數(shù)字沖浪);2002年01期

8 李佩華;制作網(wǎng)絡版課件的快捷途徑[J];教育信息化;2004年06期

9 于艷杰;網(wǎng)頁文件上傳方法分析與研究[J];哈爾濱學院學報;2005年05期

10 流言;;“傲游”因特網(wǎng) 生活從此更精彩……[J];電腦愛好者;2006年02期

相關會議論文 前10條

1 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動提取[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年

2 張星星;穗志方;;基于網(wǎng)頁中深度并列結構的實例提取算法[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

3 何莉;林鴻飛;;分布式檢索中基于主題的語言模型集合選擇策略[A];2009年全國開放式分布與并行計算機學術會議論文集(下冊)[C];2009年

4 張曉明;奈一雄;齊炯明;安媛媛;張建楠;王靜嫻;;基于信息隱藏的網(wǎng)頁入侵檢測技術與實現(xiàn)[A];2009通信理論與技術新發(fā)展——第十四屆全國青年通信學術會議論文集[C];2009年

5 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

6 黃天航;;面向數(shù)字城市規(guī)劃的數(shù)據(jù)倉庫構建中主題信息的組織與提取研究——以大北京區(qū)域規(guī)劃為例[A];規(guī)劃創(chuàng)新:2010中國城市規(guī)劃年會論文集[C];2010年

7 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復評論發(fā)現(xiàn)[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

8 劉世杰;唐世渭;楊冬青;王騰蛟;姚小波;;自動的WEB信息提取和集成[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年

9 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年

10 陳成;岳志偉;;淺談政府門戶網(wǎng)站的網(wǎng)絡安全[A];中國航海學會航標專業(yè)委員會沿海航標學組、無線電導航學組、內河航標學組年會暨學術交流會論文集[C];2009年

相關重要報紙文章 前10條

1 湖北 馮曉玲;快速調用記事本編輯網(wǎng)頁文件[N];電腦報;2003年

2 王曉峰;隨時更新的校園信息板[N];中國電腦教育報;2003年

3 天涯;利用卡巴斯基刪除頑固文件[N];電腦報;2007年

4 劉成富;編輯網(wǎng)頁有妙法[N];計算機世界;2004年

5 海浪輕風;一二三說變就變[N];中國電腦教育報;2005年

6 鄒本X;“磁碟機”與“熊貓燒香”誰比誰更毒[N];中國消費者報;2008年

7 ;網(wǎng)站安全必不可少的保護神[N];中國計算機報;2005年

8 本報記者  劉志偉 通訊員  萬學才;網(wǎng)監(jiān)警方智破“熊貓燒香”案[N];科技日報;2007年

9 ;新蠕蟲用“令人震驚消息”引誘用戶[N];計算機世界;2005年

10 姜元學;初哥上網(wǎng)三注意[N];中國電腦教育報;2002年

相關博士學位論文 前10條

1 吳永輝;面向專業(yè)領域的網(wǎng)絡信息采集及主題檢測技術研究與應用[D];哈爾濱工業(yè)大學;2010年

2 徐盛;基于主題模型的高空間分辨率遙感影像分類研究[D];上海交通大學;2012年

3 唐穎軍;基于語義主題模型的圖像場景分類研究[D];北京交通大學;2010年

4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學;2007年

5 蒲強;基于獨立分量分析的語義聚類技術在信息檢索中的應用研究[D];電子科技大學;2010年

6 張長利;面向特定領域的互聯(lián)網(wǎng)輿情分析技術研究[D];吉林大學;2011年

7 謝興;社會網(wǎng)絡中興趣發(fā)現(xiàn)與信息組織的研究[D];復旦大學;2011年

8 陸銘;WEB2.0網(wǎng)絡熱點發(fā)現(xiàn)與個性化檢索研究[D];中國科學技術大學;2012年

9 梁浩;Deep Web信息集成架構及相關問題研究[D];吉林大學;2010年

10 陳德品;基于遷移學習的跨領域排序學習算法研究[D];中國科學技術大學;2010年

相關碩士學位論文 前10條

1 屠輝;中文重復網(wǎng)頁的檢測算法研究[D];北京郵電大學;2010年

2 黃偉光;網(wǎng)頁木馬的防御與檢測技術研究[D];北京交通大學;2011年

3 易方昶;基于網(wǎng)頁后門木馬監(jiān)測系統(tǒng)的研究和設計[D];北京化工大學;2010年

4 張寧;面向農(nóng)業(yè)信息的主題爬蟲的研究與設計[D];北京郵電大學;2010年

5 尹力;網(wǎng)頁防篡改系統(tǒng)在校園網(wǎng)中的應用研究[D];河北科技大學;2011年

6 史晶晶;基于CRF的Web機構實體信息抽取系統(tǒng)[D];吉林大學;2011年

7 盧承山;基于領域的主題信息采集技術研究[D];武漢理工大學;2011年

8 孔輝;一種網(wǎng)頁防篡改系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2011年

9 梁建飛;網(wǎng)絡環(huán)境下獲取漢維篇章級平行語料的研究[D];新疆大學;2011年

10 王征;基于布隆過濾器算法的網(wǎng)頁消重技術的實現(xiàn)與應用[D];北京交通大學;2010年

,

本文編號:2534285

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2534285.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶1db66***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com