基于本體語義的定題爬蟲
本文選題:定題爬蟲 + 主題過濾。 參考:《山東大學學報(理學版)》2006年03期
【摘要】:定題爬蟲能迅速獲取網(wǎng)絡(luò)上特定主題的大量信息,對專業(yè)搜索引擎及數(shù)據(jù)挖掘應(yīng)用都具有重大價值.針對目前通用的基于關(guān)鍵詞主題過濾策略的不足,在概念聚集思想啟發(fā)下,提出了基于本體語義的主題過濾策略.同時根據(jù)網(wǎng)頁具有不同位置不同信息重要性的特點,提出了改進的加權(quán)特征項權(quán)值計算公式,實現(xiàn)基于語義的網(wǎng)頁實時過濾.為進一步提高爬蟲的工作效率提出鏈接相關(guān)度預(yù)測算法.對比實驗表明此策略具有可行性.
[Abstract]:Topic crawlers can quickly obtain a large amount of information on specific topics on the network, which is of great value to professional search engines and data mining applications. In order to overcome the shortcomings of the current general keyword-based topic filtering strategy, a topic filtering strategy based on ontology semantics is proposed, inspired by the idea of concept aggregation. At the same time, according to the importance of different information in different locations, an improved formula for calculating the weight of weighted feature items is proposed to realize the real-time filtering of web pages based on semantics. In order to further improve the efficiency of reptiles, a link correlation prediction algorithm is proposed. Comparative experiments show that this strategy is feasible.
【作者單位】: 廈門大學軟件學院 廈門大學軟件學院 廈門大學信息科學與技術(shù)學院 廈門大學軟件學院
【基金】:廈門大學985二期信息創(chuàng)新平臺資助項目(0000-X07204)
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前1條
1 劉林,汪濤,樊孝忠;主題爬蟲的解決方案[J];華南理工大學學報(自然科學版);2004年S1期
【共引文獻】
相關(guān)期刊論文 前1條
1 王斌;謝慶生;劉丹;王曉;;Web教學資源主題檢索系統(tǒng)的設(shè)計與實現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2006年01期
相關(guān)會議論文 前1條
1 梁循;楊健;陳華;曾月卿;;互聯(lián)網(wǎng)金融信息搜索[A];中國優(yōu)選法統(tǒng)籌法與經(jīng)濟數(shù)學研究會第七屆全國會員代表大會暨第七屆中國管理科學學術(shù)年會論文集[C];2005年
相關(guān)碩士學位論文 前9條
1 劉強國;主題搜索引擎設(shè)計與研究[D];電子科技大學;2007年
2 李文澤;個性化垂直搜索引擎研究[D];河南大學;2007年
3 王慶濤;基于本體的Web信息采集研究[D];中南大學;2007年
4 王斐;基于增量反饋和自適應(yīng)機制的主題爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D];南京理工大學;2005年
5 姜杰;專業(yè)搜索引擎分布式Robot設(shè)計研究[D];南京師范大學;2005年
6 劉潔清;網(wǎng)站聚焦爬蟲研究[D];江西財經(jīng)大學;2006年
7 羅兵;支持AJAX的互聯(lián)網(wǎng)搜索引擎爬蟲設(shè)計與實現(xiàn)[D];浙江大學;2007年
8 周旭;BBS熱點分析系統(tǒng)研究[D];北京交通大學;2007年
9 邱正國;主題蜘蛛的研究及實現(xiàn)[D];南京師范大學;2007年
【二級參考文獻】
相關(guān)會議論文 前1條
1 李盛韜;吳麗輝;于滿泉;潘文鋒;余智華;王斌;程學旗;;主題Web信息采集的研究與設(shè)計[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術(shù)會議論文集[C];2003年
【相似文獻】
相關(guān)期刊論文 前2條
1 鄭健珍;林坤輝;周昌樂;康愷;;基于本體語義的定題爬蟲[J];山東大學學報(理學版);2006年03期
2 徐照財;程顯毅;;基于多Agent系統(tǒng)的定題爬蟲算法[J];計算機工程;2008年16期
相關(guān)碩士學位論文 前1條
1 鄭健珍;定題爬蟲搜索策略研究[D];廈門大學;2007年
,本文編號:2051938
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2051938.html