一種基于超鏈接引導(dǎo)的主題搜索的主題敏感爬行方法
本文選題:主題爬蟲 切入點(diǎn):超鏈接引導(dǎo)的主題搜索 出處:《計(jì)算機(jī)應(yīng)用》2008年04期
【摘要】:基于主題的信息采集是信息檢索領(lǐng)域內(nèi)一個(gè)新興且實(shí)用的方法,通過將下載頁面限定在特定的主題領(lǐng)域,來提高搜索引擎的效率和提供信息的質(zhì)量。其思想是在爬行過程中按預(yù)先定義好的主題有選擇地收集相關(guān)網(wǎng)頁,避免下載主題不相關(guān)的網(wǎng)頁,其目標(biāo)是更準(zhǔn)確地找到對用戶有用的信息。探討了主題爬蟲的一些關(guān)鍵問題,通過改進(jìn)主題模型、鏈接分類模型的學(xué)習(xí)方法及鏈接分析方法來提高下載網(wǎng)頁的主題相關(guān)度及質(zhì)量。在此基礎(chǔ)上設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)主題爬蟲系統(tǒng),該系統(tǒng)利用主題敏感HITS來計(jì)算網(wǎng)頁優(yōu)先級。實(shí)驗(yàn)表明效果良好。
[Abstract]:Topic-based information collection is a new and practical method in the field of information retrieval by limiting the download page to a specific subject area. To improve the efficiency of search engines and the quality of information provided. The idea is to selectively collect relevant pages according to predefined topics during crawling, and avoid downloading pages that are not related to the topic. The goal is to find information that is useful to users more accurately. The learning method of link classification model and the method of link analysis are used to improve the relevance and quality of the downloaded web page. On this basis, a topic crawler system is designed and implemented. The system uses subject sensitive HITS to calculate the priority of web pages, and the experimental results show that the system has a good effect.
【作者單位】: 北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 清華大學(xué)電子工程系
【分類號(hào)】:TP391.3
【共引文獻(xiàn)】
相關(guān)博士學(xué)位論文 前1條
1 楊燕;基于計(jì)算智能的聚類組合算法研究[D];西南交通大學(xué);2006年
相關(guān)碩士學(xué)位論文 前4條
1 賀智平;Web信息自動(dòng)抽取技術(shù)研究[D];西安電子科技大學(xué);2006年
2 徐金雷;專業(yè)搜索引擎的排序算法研究[D];南京師范大學(xué);2007年
3 周炳;基于K-L變換的權(quán)威頁面挖掘的算法[D];華中科技大學(xué);2006年
4 徐學(xué)可;網(wǎng)頁文本分類及其在搜索引擎中的應(yīng)用[D];北京工業(yè)大學(xué);2008年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 夏崇鐠;康麗;;基于敘詞表的主題爬蟲技術(shù)研究[J];現(xiàn)代圖書情報(bào)技術(shù);2007年05期
2 陳晨;;基于主題爬蟲的個(gè)性化搜索引擎技術(shù)研究[J];黑龍江科技信息;2010年31期
3 趙思佳;尹婷;;基于規(guī)則引擎的個(gè)性化主題網(wǎng)頁爬蟲的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年03期
4 柴嘉斌;李廣華;李長春;;主題爬蟲搜索策略的研究[J];科技信息;2011年12期
5 劉兵;;基于JavaScript等多鏈接分析的主題爬蟲設(shè)計(jì)實(shí)現(xiàn)[J];許昌學(xué)院學(xué)報(bào);2010年02期
6 宋宇;;從主題爬蟲角度看數(shù)字資源建設(shè)[J];中國索引;2010年01期
7 秦學(xué)勇;;基于互聯(lián)網(wǎng)資源的學(xué)科Ontology構(gòu)建研究[J];廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年02期
8 楊學(xué)明;劉柏嵩;;主題爬蟲在數(shù)字圖書館中的應(yīng)用[J];圖書館雜志;2007年08期
9 楊貞;杜習(xí)英;;基于本體的主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2008年02期
10 張麗敏;;垂直搜索引擎的主題爬蟲策略[J];電腦知識(shí)與技術(shù);2010年15期
相關(guān)會(huì)議論文 前1條
1 劉兵;胡學(xué)鋼;;基于多鏈接分析的主題爬蟲設(shè)計(jì)實(shí)現(xiàn)[A];全國第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(上冊)[C];2009年
相關(guān)碩士學(xué)位論文 前10條
1 王斐;基于增量反饋和自適應(yīng)機(jī)制的主題爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2005年
2 劉朋;基于Lucene的垂直搜索引擎關(guān)鍵技術(shù)的研究應(yīng)用[D];武漢理工大學(xué);2009年
3 謝德輝;面向刑偵網(wǎng)頁的信息抽取與主題爬蟲應(yīng)用研究[D];大連理工大學(xué);2007年
4 孫逸雪;基于時(shí)態(tài)信息的主題搜索引擎的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2009年
5 韓冰;基于BP網(wǎng)絡(luò)的高校主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[D];東北師范大學(xué);2009年
6 袁浩;主題爬蟲搜索Web頁面策略的研究[D];中南大學(xué);2009年
7 吳世杰;基于支持向量機(jī)分類算法的主題爬蟲的研究與實(shí)現(xiàn)[D];華中師范大學(xué);2009年
8 楊丹波;應(yīng)用Web數(shù)據(jù)挖掘的主題元搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];清華大學(xué);2009年
9 程錦;面向網(wǎng)絡(luò)化制造資源的垂直搜索技術(shù)研究與應(yīng)用[D];貴州大學(xué);2007年
10 杜光芹;效用驅(qū)動(dòng)的主題Web挖掘算法研究[D];山東師范大學(xué);2007年
,本文編號(hào):1667483
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1667483.html