天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

主題搜索引擎中爬蟲搜索策略的研究

發(fā)布時間:2017-10-05 04:24

  本文關(guān)鍵詞:主題搜索引擎中爬蟲搜索策略的研究


  更多相關(guān)文章: 網(wǎng)絡爬蟲 主題搜索引擎 搜索策略 向量空間模型


【摘要】:為了解決傳統(tǒng)主題爬蟲效率偏低的問題,傳統(tǒng)主題爬蟲會選擇最有價值的鏈接進行訪問,僅簡單地計算鏈接的相關(guān)性,卻忽視待分析URL之間的相關(guān)性關(guān)系,致使主題爬蟲爬取效率較低。提出一種基于鏈接模型的相關(guān)性判別算法,綜合利用有標種子URL和無標的待判別URL實現(xiàn)對無標URL的相關(guān)性判別,并推導出迭代初值選取對結(jié)果的不敏感性。實驗結(jié)果表明,與傳統(tǒng)的網(wǎng)絡爬蟲算法相關(guān)性判別方法相比,提出的方法效率更高。
【作者單位】: 蘭州文理學院電子信息工程學院;蘭州理工大學計算機與通信學院;
【關(guān)鍵詞】網(wǎng)絡爬蟲 主題搜索引擎 搜索策略 向量空間模型
【基金】:甘肅聯(lián)合大學科研能力提升計劃項目(No.2012YBTS05)
【分類號】:TP391.3
【正文快照】: 1引言隨著互聯(lián)網(wǎng)的快速發(fā)展,信息量爆炸式增長,傳統(tǒng)的搜索引擎在信息的覆蓋率和搜索結(jié)果相關(guān)性、準確性等方面呈現(xiàn)下降趨勢。截止2011年12月底,中國網(wǎng)頁數(shù)量為866億個[1],比2010年同期增長44.3%,全球數(shù)字信息總量約為1.9 ZB(1 ZB=1×1 021 GB),到2020年,全球數(shù)字信息總量將達

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 童亞拉;;自適應動態(tài)演化粒子群算法在Web主題信息搜索中的應用[J];武漢大學學報(信息科學版);2008年12期

2 林海霞;司海峰;張微微;;基于Java技術(shù)的主題網(wǎng)絡爬蟲的研究與實現(xiàn)[J];微型電腦應用;2009年02期

3 劉漢興;劉財興;;主題爬蟲的搜索策略研究[J];計算機工程與設計;2008年12期

4 趙善明;崔翔;楊書濤;;主題搜索引擎搜索淺析[J];才智;2008年13期

5 陳哲;;垂直搜索中網(wǎng)頁抓取技術(shù)的研究[J];科技信息;2009年22期

6 王舜燕;李蕾;吳兵華;;基于ID3分類算法的深度網(wǎng)絡爬蟲設計[J];現(xiàn)代圖書情報技術(shù);2008年06期

7 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡爬蟲研究與優(yōu)化[J];計算機科學與探索;2011年01期

8 王芳;陳海建;;深入解析Web主題爬蟲的關(guān)鍵性原理[J];微型電腦應用;2011年07期

9 劉潔清;吳京慧;;面向主題的個人實時搜索引擎的設計與實現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2006年05期

10 彭軻;廖聞劍;;基于瀏覽器服務的網(wǎng)絡爬蟲[J];硅谷;2009年04期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 徐劍;柯貴明;;網(wǎng)絡爬蟲技術(shù)在搜索引擎中的應用[A];全國第21屆計算機技術(shù)與應用學術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應用學術(shù)會議論文集[C];2010年

2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡爬蟲的設計與實現(xiàn)[A];2010年全國通信安全學術(shù)會議論文集[C];2010年

3 王典樂;任照峰;牟靈泉;;基于并行計算和網(wǎng)絡應用的暖通空調(diào)CAD搜索策略應用探討[A];全國暖通空調(diào)制冷2002年學術(shù)年會論文集[C];2002年

4 何偉;李慶忠;鄭永清;崔立真;;社區(qū)云計算環(huán)境中的一種數(shù)據(jù)分布及搜索策略[A];NDBC2010第27屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2010年

5 李慧敏;鄔群勇;王欽敏;;Robot技術(shù)在空間信息服務搜索中的應用研究[A];中國地理信息系統(tǒng)協(xié)會第四次會員代表大會暨第十一屆年會論文集[C];2007年

6 鄒永斌;陳興蜀;王文賢;;一個高性能Web資源收集系統(tǒng)的設計與實現(xiàn)[A];2008'中國信息技術(shù)與應用學術(shù)論壇論文集(二)[C];2008年

7 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應用前沿——第九屆全國計算語言學學術(shù)會議論文集[C];2007年

8 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機學術(shù)會議論文集[C];2010年

9 熊凌;;計算機視覺中的圖像匹配綜述[A];12省區(qū)市機械工程學會2006年學術(shù)年會湖北省論文集[C];2006年

10 羅凡;彭秀增;申春;李肅義;;MySQL中InnoDB引擎索引樹的搜索策略[A];2006年全國理論計算機科學學術(shù)年會論文集[C];2006年

中國重要報紙全文數(shù)據(jù)庫 前2條

1 壽棟邋芯語;揭開企業(yè)搜索的技術(shù)面紗[N];計算機世界;2008年

2 廣東省廣州華南師大附小 王繼華;概念圖對提高網(wǎng)絡學習效率的作用[N];中國電腦教育報;2005年

中國博士學位論文全文數(shù)據(jù)庫 前10條

1 楊光;基于大型科學儀器工作站的屏幕圖像識別與壓縮技術(shù)研究[D];吉林大學;2011年

2 張焱;地面背景下成像目標跟蹤技術(shù)研究[D];國防科學技術(shù)大學;2008年

3 黃樟燦;演化計算的搜索策略研究[D];武漢大學;2004年

4 聶棟棟;數(shù)字圖像和視頻修復理論及其算法研究[D];上海交通大學;2007年

5 董興業(yè);啟發(fā)式算法及其在同順序流水作業(yè)問題中的應用[D];北京交通大學;2008年

6 徐婕;基于對等網(wǎng)絡的資源搜索策略的研究[D];華中科技大學;2007年

7 徐琨;交通視頻監(jiān)控中的車輛檢測與跟蹤方法研究[D];長安大學;2009年

8 楊新武;遺傳歸納邏輯程序設計技術(shù)研究[D];北京工業(yè)大學;2003年

9 余亮;等球Packing問題的啟發(fā)式研究[D];華中科技大學;2012年

10 劉亞波;關(guān)聯(lián)規(guī)則挖掘方法的研究及應用[D];吉林大學;2005年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 王攀;主題搜索引擎的設計與實現(xiàn)[D];華中科技大學;2007年

2 王洪威;主題網(wǎng)絡爬蟲的分析與設計[D];北京郵電大學;2013年

3 郭謝;基于Web Community識別的專業(yè)搜索引擎研究[D];浙江大學;2006年

4 劉星;搜索引擎的研究與實現(xiàn)[D];華中科技大學;2007年

5 韓磊;新聞預定服務系統(tǒng)[D];山東大學;2007年

6 金梅;網(wǎng)絡爬蟲性能提升與功能拓展的研究與實現(xiàn)[D];吉林大學;2012年

7 芮虎;比價購物平臺中網(wǎng)絡爬蟲的設計與實現(xiàn)[D];華東理工大學;2013年

8 趙茉莉;網(wǎng)絡爬蟲系統(tǒng)的研究與實現(xiàn)[D];電子科技大學;2013年

9 夏亮;主題搜索引擎網(wǎng)絡爬蟲搜索策略的研究與實現(xiàn)[D];北京化工大學;2010年

10 龔秋艷;并行網(wǎng)絡爬蟲設計與實現(xiàn)[D];華東師范大學;2010年

,

本文編號:974767

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/974767.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶552fe***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com