一種基于超鏈接引導的主題搜索的主題敏感爬行方法
本文選題:主題爬蟲 切入點:超鏈接引導的主題搜索 出處:《計算機應用》2008年04期
【摘要】:基于主題的信息采集是信息檢索領(lǐng)域內(nèi)一個新興且實用的方法,通過將下載頁面限定在特定的主題領(lǐng)域,來提高搜索引擎的效率和提供信息的質(zhì)量。其思想是在爬行過程中按預先定義好的主題有選擇地收集相關(guān)網(wǎng)頁,避免下載主題不相關(guān)的網(wǎng)頁,其目標是更準確地找到對用戶有用的信息。探討了主題爬蟲的一些關(guān)鍵問題,通過改進主題模型、鏈接分類模型的學習方法及鏈接分析方法來提高下載網(wǎng)頁的主題相關(guān)度及質(zhì)量。在此基礎(chǔ)上設(shè)計并實現(xiàn)了一個主題爬蟲系統(tǒng),該系統(tǒng)利用主題敏感HITS來計算網(wǎng)頁優(yōu)先級。實驗表明效果良好。
[Abstract]:Topic-based information collection is a new and practical method in the field of information retrieval by limiting the download page to a specific subject area. To improve the efficiency of search engines and the quality of information provided. The idea is to selectively collect relevant pages according to predefined topics during crawling, and avoid downloading pages that are not related to the topic. The goal is to find information that is useful to users more accurately. The learning method of link classification model and the method of link analysis are used to improve the relevance and quality of the downloaded web page. On this basis, a topic crawler system is designed and implemented. The system uses subject sensitive HITS to calculate the priority of web pages, and the experimental results show that the system has a good effect.
【作者單位】: 北京工業(yè)大學計算機學院 北京工業(yè)大學計算機學院 清華大學電子工程系
【分類號】:TP391.3
【共引文獻】
相關(guān)博士學位論文 前1條
1 楊燕;基于計算智能的聚類組合算法研究[D];西南交通大學;2006年
相關(guān)碩士學位論文 前4條
1 賀智平;Web信息自動抽取技術(shù)研究[D];西安電子科技大學;2006年
2 徐金雷;專業(yè)搜索引擎的排序算法研究[D];南京師范大學;2007年
3 周炳;基于K-L變換的權(quán)威頁面挖掘的算法[D];華中科技大學;2006年
4 徐學可;網(wǎng)頁文本分類及其在搜索引擎中的應用[D];北京工業(yè)大學;2008年
【相似文獻】
相關(guān)期刊論文 前10條
1 夏崇鐠;康麗;;基于敘詞表的主題爬蟲技術(shù)研究[J];現(xiàn)代圖書情報技術(shù);2007年05期
2 陳晨;;基于主題爬蟲的個性化搜索引擎技術(shù)研究[J];黑龍江科技信息;2010年31期
3 趙思佳;尹婷;;基于規(guī)則引擎的個性化主題網(wǎng)頁爬蟲的研究[J];計算機技術(shù)與發(fā)展;2011年03期
4 柴嘉斌;李廣華;李長春;;主題爬蟲搜索策略的研究[J];科技信息;2011年12期
5 劉兵;;基于JavaScript等多鏈接分析的主題爬蟲設(shè)計實現(xiàn)[J];許昌學院學報;2010年02期
6 宋宇;;從主題爬蟲角度看數(shù)字資源建設(shè)[J];中國索引;2010年01期
7 秦學勇;;基于互聯(lián)網(wǎng)資源的學科Ontology構(gòu)建研究[J];廊坊師范學院學報(自然科學版);2011年02期
8 楊學明;劉柏嵩;;主題爬蟲在數(shù)字圖書館中的應用[J];圖書館雜志;2007年08期
9 楊貞;杜習英;;基于本體的主題爬蟲的設(shè)計與實現(xiàn)[J];科技情報開發(fā)與經(jīng)濟;2008年02期
10 張麗敏;;垂直搜索引擎的主題爬蟲策略[J];電腦知識與技術(shù);2010年15期
相關(guān)會議論文 前1條
1 劉兵;胡學鋼;;基于多鏈接分析的主題爬蟲設(shè)計實現(xiàn)[A];全國第20屆計算機技術(shù)與應用學術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應用學術(shù)會議論文集(上冊)[C];2009年
相關(guān)碩士學位論文 前10條
1 王斐;基于增量反饋和自適應機制的主題爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D];南京理工大學;2005年
2 劉朋;基于Lucene的垂直搜索引擎關(guān)鍵技術(shù)的研究應用[D];武漢理工大學;2009年
3 謝德輝;面向刑偵網(wǎng)頁的信息抽取與主題爬蟲應用研究[D];大連理工大學;2007年
4 孫逸雪;基于時態(tài)信息的主題搜索引擎的研究與實現(xiàn)[D];中國科學技術(shù)大學;2009年
5 韓冰;基于BP網(wǎng)絡的高校主題爬蟲的設(shè)計與實現(xiàn)[D];東北師范大學;2009年
6 袁浩;主題爬蟲搜索Web頁面策略的研究[D];中南大學;2009年
7 吳世杰;基于支持向量機分類算法的主題爬蟲的研究與實現(xiàn)[D];華中師范大學;2009年
8 楊丹波;應用Web數(shù)據(jù)挖掘的主題元搜索引擎設(shè)計與實現(xiàn)[D];清華大學;2009年
9 程錦;面向網(wǎng)絡化制造資源的垂直搜索技術(shù)研究與應用[D];貴州大學;2007年
10 杜光芹;效用驅(qū)動的主題Web挖掘算法研究[D];山東師范大學;2007年
,本文編號:1667483
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1667483.html