一種基于本體語義的災(zāi)害主題爬蟲策略
本文關(guān)鍵詞:一種基于本體語義的災(zāi)害主題爬蟲策略
更多相關(guān)文章: 主題爬蟲 本體 語義相似度 向量空間模型 相關(guān)度計(jì)算 錨文本
【摘要】:為高效精確地提取存在于互聯(lián)網(wǎng)中的災(zāi)害主題網(wǎng)頁文本信息,引入本體語義,提出一種新的災(zāi)害主題爬蟲策略。給出本體語義支持的災(zāi)害主題爬蟲框架和流程,改進(jìn)本體概念語義相似度計(jì)算方法,利用語義相似度計(jì)算主題語義向量,通過HTML位置加權(quán)獲取網(wǎng)頁文本特征向量,并進(jìn)行主題相關(guān)度計(jì)算。設(shè)計(jì)URL錨文本主題相關(guān)度計(jì)算方法,分析URL鏈接優(yōu)先度,優(yōu)化爬行隊(duì)列。選取地震災(zāi)害和氣象災(zāi)害2個(gè)主題進(jìn)行測試與分析,實(shí)驗(yàn)結(jié)果表明,該策略能有效提高穩(wěn)定性和爬準(zhǔn)率。
【作者單位】: 信息工程大學(xué)地理空間信息學(xué)院;四川省應(yīng)急測繪與防災(zāi)減災(zāi)工程技術(shù)研究中心;國防信息學(xué)院;
【關(guān)鍵詞】: 主題爬蟲 本體 語義相似度 向量空間模型 相關(guān)度計(jì)算 錨文本
【基金】:國家自然科學(xué)基金(41271392,41401463,41571394) 四川省應(yīng)急測繪與防災(zāi)減災(zāi)工程技術(shù)研究中心開放基金(K2015B014)
【分類號】:TP391.1
【正文快照】: 中文引用格式:馬雷雷,李宏偉,連世偉,等.一種基于本體語義的災(zāi)害主題爬蟲策略[J].計(jì)算機(jī)工程,2016,42(11):50-56.英文引用格式:Ma Leilei,Li Hongwei,Lian Shiwei,et al.A Strategy of Disaster Focused Crawler Based on OntologySemantics[J].Computer Engineering,2016,42(
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 何利益;陸國鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期
2 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期
3 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
4 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年12期
5 劉艷敏;劉飚;封化民;宋國森;方勇;;Web頁面主題信息抽取研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2006年21期
6 姚雙良;;基于主題的Deep Web聚焦爬蟲研究與設(shè)計(jì)[J];西北師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年02期
7 王鑫;;元數(shù)據(jù)在主題信息網(wǎng)關(guān)中的應(yīng)用[J];情報(bào)探索;2009年05期
8 李衛(wèi)疆;趙鐵軍;樸星海;;一種新的面向主題的爬行算法[J];計(jì)算機(jī)應(yīng)用研究;2009年05期
9 王玉國,王淑霞,李啟鵬;注重Html型幫助制作的規(guī)范化及主題大綱的作用[J];通化師范學(xué)院學(xué)報(bào);2005年02期
10 劉健;湯小春;晉峰;;基于主題元搜索的結(jié)果整合算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2010年35期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前4條
1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識別及表示[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
4 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評論發(fā)現(xiàn)[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年
2 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 yち,
本文編號:732270
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/732270.html