基于主題相關(guān)度的地理信息Web服務(wù)爬蟲研究
本文關(guān)鍵詞: 地理信息Web服務(wù) 服務(wù)檢索 爬蟲 主題相關(guān)度 出處:《地理與地理信息科學(xué)》2012年02期 論文類型:期刊論文
【摘要】:針對通用搜索引擎對于地理信息Web服務(wù)檢索存在的不足,提出了一種基于主題相關(guān)度的服務(wù)爬蟲方法,利用向量空間模型表示主題特征,通過引入特征值權(quán)重的計算方法分析頁面內(nèi)容與主題的相關(guān)度,過濾與主題無關(guān)的頁面;并利用改進(jìn)的PageRank算法從URL和錨文本兩方面分析鏈接的重要性,優(yōu)化爬取隊列。實驗表明,該方法在服務(wù)檢索效率和抓取能力上都取得了良好的效果。
[Abstract]:Aiming at the shortcomings of general search engine in Web service retrieval, a service crawler method based on topic correlation is proposed, which uses vector space model to represent topic feature. By introducing the method of calculating the weight of feature value to analyze the relevance between the content of the page and the topic, the paper filters the page independent of the topic, and uses the improved PageRank algorithm to analyze the importance of the link from the two aspects of the URL and the anchor text. The experimental results show that the proposed method has good performance in both service retrieval efficiency and retrieval ability.
【作者單位】: 武漢大學(xué)遙感信息工程學(xué)院;國家基礎(chǔ)地理信息中心;中國礦業(yè)大學(xué)環(huán)境與測繪學(xué)院;
【基金】:國家自然科學(xué)基金項目(41001216)
【分類號】:P208
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳軍;丁明柱;蔣捷;周旭;翟勇;朱武;;從離線數(shù)據(jù)提供到在線地理信息服務(wù)[J];地理信息世界;2009年02期
2 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機(jī)應(yīng)用;2005年09期
3 蔣宗禮;徐學(xué)可;李帥;;一種基于超鏈接引導(dǎo)的主題搜索的主題敏感爬行方法[J];計算機(jī)應(yīng)用;2008年04期
4 李衛(wèi)疆;趙鐵軍;樸星海;;一種新的面向主題的爬行算法[J];計算機(jī)應(yīng)用研究;2009年05期
5 柴嘉斌;李廣華;李長春;;主題爬蟲搜索策略的研究[J];科技信息;2011年12期
6 張翔;周明全;李智杰;董麗麗;;基于PageRank與Bagging的主題爬蟲研究[J];計算機(jī)工程與設(shè)計;2010年14期
7 陳永彬;張琢;張?zhí)?;一種基于蟻群算法的主題爬蟲搜索策略[J];微型機(jī)與應(yīng)用;2011年01期
8 李志義;;網(wǎng)絡(luò)爬蟲的優(yōu)化策略探略[J];現(xiàn)代情報;2011年10期
9 白玉琪,楊崇俊;空間信息搜索引擎研究[J];中國礦業(yè)大學(xué)學(xué)報;2004年01期
10 白玉琪,楊崇俊,劉冬林,朱華吉,盧亞輝,芮小平;基于OpenGIS WMS的空間信息搜索引擎系統(tǒng)原型[J];中國圖象圖形學(xué)報;2004年01期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 曹元;張巍;李俊;劉茶;潘金貴;;專用GPS車輛監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn)[J];安防科技;2008年02期
2 孫素芬;羅長壽;張峻峰;于峰;張樹亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2007年22期
3 汪斌;張云偉;劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡(luò)爬蟲的設(shè)計[J];安徽農(nóng)業(yè)科學(xué);2009年20期
4 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動摘要算法[J];北京交通大學(xué)學(xué)報;2010年05期
5 任斌;毛應(yīng)爽;;基于本體的主動學(xué)習(xí)主題爬行的研究與實現(xiàn)[J];長春工程學(xué)院學(xué)報(自然科學(xué)版);2011年01期
6 張建兵;楊崇俊;;基于網(wǎng)格的海量分布式空間信息搜索研究[J];地理信息世界;2007年04期
7 黃方;劉定生;李國慶;王建;于文洋;趙靈軍;;SIG中空間信息可視化與互操作實現(xiàn)研究[J];地理信息世界;2008年03期
8 陳軍;蔣捷;周旭;翟勇;朱武;丁明柱;;地理信息公共服務(wù)平臺的總體技術(shù)設(shè)計研究[J];地理信息世界;2009年03期
9 陳曉慧;陳榮國;衛(wèi)文學(xué);;基于網(wǎng)絡(luò)爬蟲的Web服務(wù)抓取解析器的設(shè)計與實現(xiàn)[J];地理信息世界;2010年03期
10 武昊;廖安平;彭舒;;面向服務(wù)契約的地理信息Web服務(wù)自適應(yīng)集成方法研究[J];測繪通報;2012年01期
相關(guān)會議論文 前4條
1 劉林;王霓虹;;開放式地理信息系統(tǒng)的數(shù)據(jù)處理國內(nèi)外研究新進(jìn)展[A];黑龍江省計算機(jī)學(xué)會2009年學(xué)術(shù)交流年會論文集[C];2010年
2 王棟;陳勇;徐建良;;基于預(yù)測的BitTorrent種子評估方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
3 劉兵;胡學(xué)鋼;;基于多鏈接分析的主題爬蟲設(shè)計實現(xiàn)[A];全國第20屆計算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年
4 戴玉剛;;藏文網(wǎng)頁采集技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
相關(guān)博士學(xué)位論文 前10條
1 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
2 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學(xué);2010年
3 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年
4 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學(xué);2011年
5 田俊華;基于本體知識庫的教學(xué)資源自動采集技術(shù)研究[D];南京師范大學(xué);2011年
6 王建濤;基于Web的地理信息服務(wù)的研究與實踐[D];中國人民解放軍信息工程大學(xué);2005年
7 張建兵;基于網(wǎng)格的空間信息服務(wù)關(guān)鍵技術(shù)研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2006年
8 鄧吉秋;基于XML與FFM的空間信息網(wǎng)絡(luò)集成[D];中南大學(xué);2006年
9 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
10 王英;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)研究[D];吉林大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 陳曉慧;空間信息服務(wù)管理平臺的設(shè)計與實現(xiàn)[D];山東科技大學(xué);2010年
2 呂芳芳;基于查詢擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年
3 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學(xué);2010年
4 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
5 史煒;個性化搜索引擎的研究與設(shè)計[D];電子科技大學(xué);2010年
6 丁寶瓊;網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實現(xiàn)[D];解放軍信息工程大學(xué);2009年
7 沙有闖;基于Web文本挖掘的網(wǎng)絡(luò)口碑監(jiān)測系統(tǒng)研究[D];安徽大學(xué);2010年
8 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年
9 張朝威;面向企業(yè)競爭情報的主題搜索研究與實現(xiàn)[D];西安電子科技大學(xué);2010年
10 劉永信;主題搜索與Web挖掘的研究及系統(tǒng)實現(xiàn)[D];西安電子科技大學(xué);2009年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳軍;論數(shù)字化地理空間基礎(chǔ)框架的建設(shè)與應(yīng)用[J];測繪工程;2002年03期
2 陳軍;何超英;朱武;彭震中;金舒平;;汶川抗震救災(zāi)的基礎(chǔ)地理信息綜合應(yīng)急服務(wù)[J];地理信息世界;2008年06期
3 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期
4 盧世光,丁方忠;搜索引擎使用技術(shù)回顧和發(fā)展趨勢探討[J];廣東通信技術(shù);1999年05期
5 楊沛,鄭啟倫,彭宏;Inherit/Feedback:一種新的Web主題挖掘方法[J];計算機(jī)研究與發(fā)展;2004年05期
6 沈?qū)W華,周志華,吳建鑫,陳兆乾;Boosting和Bagging綜述[J];計算機(jī)工程與應(yīng)用;2000年12期
7 李開榮,陳宏建,陳];一種動態(tài)自適應(yīng)蟻群算法[J];計算機(jī)工程與應(yīng)用;2004年29期
8 陶劍文;;基于蟻群計算的自適應(yīng)Web檢索算法設(shè)計[J];計算機(jī)工程與應(yīng)用;2007年15期
9 蔣玲艷;張軍;鐘樹鴻;;蟻群算法的參數(shù)分析[J];計算機(jī)工程與應(yīng)用;2007年20期
10 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計算機(jī)科學(xué);2009年08期
相關(guān)博士學(xué)位論文 前1條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
相關(guān)碩士學(xué)位論文 前2條
1 陳杰;主題搜索引擎中網(wǎng)絡(luò)蜘蛛搜索策略研究[D];浙江大學(xué);2006年
2 劉瑋瑋;搜索引擎中主題爬蟲的研究與實現(xiàn)[D];南京理工大學(xué);2006年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王敦清,廖灝溶,林祖華;爬蟲恙螨屬二新種(蜱螨目:恙螨科)[J];動物分類學(xué)報;1980年04期
2 徐業(yè)華,徐蔭祺;爬蟲恙螨屬一新種——(真螨目:恙螨科)[J];動物分類學(xué)報;1983年04期
3 李宏偉;常小慧;黃海文;;基于ASP.NET的地理信息Web服務(wù)研究[J];測繪科學(xué);2007年04期
4 徐春;;漢、英平行語料庫的研究與構(gòu)建[J];科技信息;2011年17期
5 柳賀;何忠煥;;基于REST的地理信息公共服務(wù)平臺的Web服務(wù)研究[J];江西測繪;2011年02期
6 梁娟珠;陳崇成;;地理信息Web服務(wù)的研究進(jìn)展綜述[J];微計算機(jī)應(yīng)用;2008年05期
7 謝能付;王文生;段延娥;;基于概念空間的領(lǐng)域信息爬蟲設(shè)計研究[J];江西師范大學(xué)學(xué)報(自然科學(xué)版);2008年02期
8 朱yN;;基于多線程的超級節(jié)點爬蟲算法的設(shè)計與實現(xiàn)[J];青?萍;2009年05期
9 ;大千世界有趣的生物鐘[J];草原稅務(wù);1999年01期
10 崔林衛(wèi);蘇偉;郭衛(wèi);李廉;;基于Nutch的Web數(shù)學(xué)公式提取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2011年01期
相關(guān)會議論文 前5條
1 王玨;盧艷平;張澤宏;鄒永寧;;一種有記憶的變窗“爬蟲”圖像邊界跟蹤方法[A];中國儀器儀表學(xué)會第六屆青年學(xué)術(shù)會議論文集[C];2004年
2 梁循;楊健;陳華;曾月卿;;互聯(lián)網(wǎng)金融信息搜索[A];中國優(yōu)選法統(tǒng)籌法與經(jīng)濟(jì)數(shù)學(xué)研究會第七屆全國會員代表大會暨第七屆中國管理科學(xué)學(xué)術(shù)年會論文集[C];2005年
3 張素智;李寶燕;樊得強(qiáng);;面向用戶和領(lǐng)域本體的Web信息采集系統(tǒng)[A];計算機(jī)研究新進(jìn)展(2010)——河南省計算機(jī)學(xué)會2010年學(xué)術(shù)年會論文集[C];2010年
4 任進(jìn)興;朱志斌;;日本球堅蚧的發(fā)生規(guī)律與周年綜合防治歷[A];當(dāng)代昆蟲學(xué)研究——中國昆蟲學(xué)會成立60周年紀(jì)念大會暨學(xué)術(shù)討論會論文集[C];2004年
5 鄭林森;;蘇東坡與九龍文化[A];2002中國未來與發(fā)展研究報告[C];2002年
相關(guān)重要報紙文章 前10條
1 本報記者 汪若菡 ;“知識爬蟲”:賽特集團(tuán)信息系統(tǒng)“掘金”互聯(lián)網(wǎng)[N];21世紀(jì)經(jīng)濟(jì)報道;2003年
2 寶寶;話說“長蟲”[N];大眾科技報;2001年
3 Lfireboy;假字當(dāng)頭小心[N];中國電腦教育報;2003年
4 鄧正明;活靈活現(xiàn)世外桃源[N];中國商報;2005年
5 陳鶴琴;不要恐嚇哄騙打罵孩子[N];中國教育資訊報;2002年
6 史春生;新加坡七大主題游園[N];中國綠色時報;2004年
7 [美]尼考爾·懷斯文;歡迎小朋友光臨的房子[N];中國教師報;2003年
8 記者 高原;發(fā)明創(chuàng)意五花八門 昭顯身邊科技[N];大眾科技報;2004年
9 春桃;夏季如何選用氣霧殺蟲劑[N];山西經(jīng)濟(jì)日報;2000年
10 上海 朱立強(qiáng);你的網(wǎng)絡(luò)情報員——X-Info[N];電腦報;2003年
相關(guān)博士學(xué)位論文 前3條
1 陸銘;WEB2.0網(wǎng)絡(luò)熱點發(fā)現(xiàn)與個性化檢索研究[D];中國科學(xué)技術(shù)大學(xué);2012年
2 徐和祥;Deep Web集成中若干技術(shù)研究[D];復(fù)旦大學(xué);2008年
3 吳明暉;面向服務(wù)的語義模型驅(qū)動企業(yè)應(yīng)用軟件開發(fā)方法及關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 羅偉;基于移動Agent的主題搜索引擎研究[D];中南民族大學(xué);2008年
2 顧凱;中文視頻搜索的構(gòu)筑與實踐[D];北京郵電大學(xué);2006年
3 常小慧;地理信息Web服務(wù)實現(xiàn)技術(shù)的應(yīng)用研究[D];解放軍信息工程大學(xué);2006年
4 郭婧;地理信息Web服務(wù)研究與實踐[D];解放軍信息工程大學(xué);2007年
5 吳建強(qiáng);垂直搜索引擎爬蟲系統(tǒng)的研究與實現(xiàn)[D];貴州大學(xué);2008年
6 張慧;旅游信息垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2009年
7 劉亦科;基于網(wǎng)站目錄及鏈接分析的Spider爬行策略的研究與實現(xiàn)[D];北京化工大學(xué);2009年
8 楊溥;搜索引擎中爬蟲的若干問題研究[D];北京郵電大學(xué);2009年
9 楊增輝;基于主題的Hidden Web信息獲取研究[D];西安理工大學(xué);2008年
10 李繼寶;吃玩網(wǎng)中Deep Web數(shù)據(jù)集成研究[D];山東大學(xué);2008年
,本文編號:1531646
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1531646.html