一種基于本體語(yǔ)義的災(zāi)害主題爬蟲策略
本文關(guān)鍵詞:一種基于本體語(yǔ)義的災(zāi)害主題爬蟲策略
更多相關(guān)文章: 主題爬蟲 本體 語(yǔ)義相似度 向量空間模型 相關(guān)度計(jì)算 錨文本
【摘要】:為高效精確地提取存在于互聯(lián)網(wǎng)中的災(zāi)害主題網(wǎng)頁(yè)文本信息,引入本體語(yǔ)義,提出一種新的災(zāi)害主題爬蟲策略。給出本體語(yǔ)義支持的災(zāi)害主題爬蟲框架和流程,改進(jìn)本體概念語(yǔ)義相似度計(jì)算方法,利用語(yǔ)義相似度計(jì)算主題語(yǔ)義向量,通過(guò)HTML位置加權(quán)獲取網(wǎng)頁(yè)文本特征向量,并進(jìn)行主題相關(guān)度計(jì)算。設(shè)計(jì)URL錨文本主題相關(guān)度計(jì)算方法,分析URL鏈接優(yōu)先度,優(yōu)化爬行隊(duì)列。選取地震災(zāi)害和氣象災(zāi)害2個(gè)主題進(jìn)行測(cè)試與分析,實(shí)驗(yàn)結(jié)果表明,該策略能有效提高穩(wěn)定性和爬準(zhǔn)率。
【作者單位】: 信息工程大學(xué)地理空間信息學(xué)院;四川省應(yīng)急測(cè)繪與防災(zāi)減災(zāi)工程技術(shù)研究中心;國(guó)防信息學(xué)院;
【關(guān)鍵詞】: 主題爬蟲 本體 語(yǔ)義相似度 向量空間模型 相關(guān)度計(jì)算 錨文本
【基金】:國(guó)家自然科學(xué)基金(41271392,41401463,41571394) 四川省應(yīng)急測(cè)繪與防災(zāi)減災(zāi)工程技術(shù)研究中心開(kāi)放基金(K2015B014)
【分類號(hào)】:TP391.1
【正文快照】: 中文引用格式:馬雷雷,李宏偉,連世偉,等.一種基于本體語(yǔ)義的災(zāi)害主題爬蟲策略[J].計(jì)算機(jī)工程,2016,42(11):50-56.英文引用格式:Ma Leilei,Li Hongwei,Lian Shiwei,et al.A Strategy of Disaster Focused Crawler Based on OntologySemantics[J].Computer Engineering,2016,42(
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 何利益;陸國(guó)鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期
2 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期
3 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
4 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年12期
5 劉艷敏;劉飚;封化民;宋國(guó)森;方勇;;Web頁(yè)面主題信息抽取研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2006年21期
6 姚雙良;;基于主題的Deep Web聚焦爬蟲研究與設(shè)計(jì)[J];西北師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年02期
7 王鑫;;元數(shù)據(jù)在主題信息網(wǎng)關(guān)中的應(yīng)用[J];情報(bào)探索;2009年05期
8 李衛(wèi)疆;趙鐵軍;樸星海;;一種新的面向主題的爬行算法[J];計(jì)算機(jī)應(yīng)用研究;2009年05期
9 王玉國(guó),王淑霞,李啟鵬;注重Html型幫助制作的規(guī)范化及主題大綱的作用[J];通化師范學(xué)院學(xué)報(bào);2005年02期
10 劉健;湯小春;晉峰;;基于主題元搜索的結(jié)果整合算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2010年35期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識(shí)別及表示[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁(yè)主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
4 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年
2 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 yち,
本文編號(hào):732270
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/732270.html