面向情報(bào)獲取的主題采集工具設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:面向情報(bào)獲取的主題采集工具設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 主題采集 鏈接篩選 DOM樹(shù)
【摘要】:面向互聯(lián)網(wǎng)的主題采集是情報(bào)獲取的重要手段,面對(duì)爆發(fā)式增長(zhǎng)的互聯(lián)網(wǎng)信息資源,設(shè)計(jì)并實(shí)現(xiàn)一套由采集準(zhǔn)備、URL分析及提取、模板學(xué)習(xí)、正文抽取等幾階段組成的主題采集工具,其中URL分析與提取采用基于鏈接類型的URL篩選方法,實(shí)現(xiàn)正文網(wǎng)頁(yè)URL的篩選;模板學(xué)習(xí)和正文抽取部分采用基于DOM樹(shù)的節(jié)點(diǎn)比對(duì)方法,完成模板的構(gòu)建與正文抽取。實(shí)驗(yàn)結(jié)果表明,本文所提出的主題采集工具采集準(zhǔn)確率較高,能夠適應(yīng)目前情報(bào)信息采集的需求。
【作者單位】: 上海寶山鋼鐵股份有限公司;上海理工大學(xué)圖書館;華東師范大學(xué)商學(xué)院信息學(xué)系;
【基金】:上海市科技發(fā)展基金軟科學(xué)研究項(xiàng)目“大數(shù)據(jù)環(huán)境下基于領(lǐng)域本體的情報(bào)處理分析方法研究——以鋼鐵行業(yè)為例”(項(xiàng)目編號(hào):14692107100)研究成果之一
【分類號(hào)】:TP393.092
【正文快照】: 1引言大數(shù)據(jù)時(shí)代,伴隨著互聯(lián)網(wǎng)上信息爆炸式的增長(zhǎng),依靠傳統(tǒng)的人工手段越來(lái)越難以從互聯(lián)網(wǎng)上快速準(zhǔn)確地獲取所需信息。另一方面,隨著企業(yè)對(duì)競(jìng)爭(zhēng)情報(bào)的愈發(fā)重視,互聯(lián)網(wǎng)上的信息采集、整理與分析也成為了企業(yè)情報(bào)部門較為重要的一項(xiàng)工作。面對(duì)上述矛盾,如何在耗費(fèi)較少資源的前提
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條
1 杜義華,及俊川;通用互聯(lián)網(wǎng)信息采集系統(tǒng)的設(shè)計(jì)與初步實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2005年01期
2 羅立宏;陳志;;基于語(yǔ)義分析的垂直搜索網(wǎng)絡(luò)蜘蛛[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年18期
3 谷俊;;中文專利本體半自動(dòng)構(gòu)建系統(tǒng)設(shè)計(jì)[J];圖書情報(bào)工作;2013年03期
4 許鑫;黃仲清;鄧三鴻;;互聯(lián)網(wǎng)僑情信息采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2010年Z1期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 劉瑛;;XML網(wǎng)頁(yè)的鏈接解析與信息采集研究[J];硅谷;2010年10期
2 鄭文標(biāo);;互聯(lián)網(wǎng)技術(shù)在海外華文網(wǎng)站研究中的應(yīng)用[J];華僑大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2011年02期
3 王琦;張戈;何婧;;基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)時(shí)代;2010年02期
4 李濤;王潤(rùn)孝;魏薇;羅志清;;基于LonWorks的設(shè)備管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)——以鐵路水電設(shè)備為例[J];制造業(yè)自動(dòng)化;2006年10期
5 陳娟;;構(gòu)建基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)行為挖掘系統(tǒng)[J];科學(xué)技術(shù)與工程;2007年13期
6 王聰睿;張翠肖;;一種基于本體的垂直搜索引擎系統(tǒng)模型[J];河北省科學(xué)院學(xué)報(bào);2013年02期
7 陳永江;仲兆滿;陳宗華;;HTMLUNIT在網(wǎng)絡(luò)信息采集系統(tǒng)中的應(yīng)用[J];淮海工學(xué)院學(xué)報(bào)(自然科學(xué)版);2013年04期
8 楊藝;代春艷;;基于IOCC的定題Web信息發(fā)現(xiàn)機(jī)制研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年22期
9 陳艷春;;競(jìng)爭(zhēng)情報(bào)采集系統(tǒng)研究[J];石家莊鐵道學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年02期
10 許鑫;谷俊;袁豐平;周群芳;;面向?qū)@倔w的語(yǔ)義檢索分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];圖書情報(bào)工作;2014年09期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 連惠杰;基于主題的教育信息定向采集系統(tǒng)[D];南京理工大學(xué);2011年
2 吳靜;網(wǎng)絡(luò)輿情信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2011年
3 宋治國(guó);數(shù)據(jù)挖掘在Internet有害信息過(guò)濾中的應(yīng)用[D];山東師范大學(xué);2006年
4 魏善嶺;面向互動(dòng)型網(wǎng)絡(luò)媒體的不良信息檢測(cè)與過(guò)濾[D];大連海事大學(xué);2009年
5 徐海;基于Lucene垂直搜索引擎的研究與實(shí)現(xiàn)[D];西安科技大學(xué);2009年
6 劉毅;網(wǎng)絡(luò)輿情信息理論體系的構(gòu)建研究[D];天津外國(guó)語(yǔ)學(xué)院;2007年
7 黃仲清;互聯(lián)網(wǎng)主題信息定向采集研究[D];華東師范大學(xué);2010年
8 李偉;基于J2EE的網(wǎng)絡(luò)輿情分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京大學(xué);2012年
9 孫岳;山東省汽車產(chǎn)業(yè)鏈研發(fā)與標(biāo)準(zhǔn)公共服務(wù)平臺(tái)[D];山東大學(xué);2012年
10 劉顯一;基于Lucene和Heritrix的主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 崔繼馨,張鵬,楊文柱;基于DOM的Web信息抽取[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2005年03期
2 郭紅,郭朝珍,蘇群;多網(wǎng)站信息采集與異構(gòu)信息集成應(yīng)用[J];福州大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年05期
3 潘以鋒;;基于Lucene的網(wǎng)站全文檢索系統(tǒng)的開(kāi)發(fā)[J];廣西教育學(xué)院學(xué)報(bào);2006年05期
4 吳清江;吳政;劉琳瑯;;面向僑務(wù)信息主題的搜索引擎系統(tǒng)[J];華僑大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年04期
5 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
6 鄒娟;周經(jīng)野;鄧成;;一種基于語(yǔ)義分析的中文特征值提取方法[J];計(jì)算機(jī)工程與應(yīng)用;2005年36期
7 張斌;劉增良;余達(dá)太;黃洪;;基于粗糙集和模糊聚類的政務(wù)本體學(xué)習(xí)模型[J];計(jì)算機(jī)工程與應(yīng)用;2010年25期
8 肖建華,蔣明,何瑗,柏文陽(yáng);二次搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2003年09期
9 錢兵;王永成;高凱;;面向搜索引擎的自然語(yǔ)言理解的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2006年12期
10 溫春;王曉斌;石昭祥;;中文領(lǐng)域本體學(xué)習(xí)中術(shù)語(yǔ)的自動(dòng)抽取[J];計(jì)算機(jī)應(yīng)用研究;2009年07期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 寧力;搜索引擎中網(wǎng)頁(yè)查重方法的研究[D];北京化工大學(xué);2007年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李鑫;王勇;馮志強(qiáng);;炮兵偵察情報(bào)獲取與處理[J];艦船電子工程;2009年03期
2 鄭軍;;用戶情報(bào)獲取智能障礙初探[J];圖書情報(bào)工作;1992年05期
3 鄭金;王甜甜;;大型國(guó)有電網(wǎng)企業(yè)用戶對(duì)情報(bào)獲取便捷性的關(guān)注度研究[J];圖書情報(bào)知識(shí);2014年04期
4 王昕;王夢(mèng)雅;;大型國(guó)有電網(wǎng)企業(yè)用戶情報(bào)獲取渠道研究[J];信息資源管理學(xué)報(bào);2013年04期
5 陶秀杰;鮮冉;;大型國(guó)有電網(wǎng)企業(yè)用戶情報(bào)獲取及時(shí)性關(guān)注度研究[J];圖書與情報(bào);2014年03期
6 王春華,江麗霞;全網(wǎng)絡(luò)方式培養(yǎng)學(xué)生的情報(bào)獲取能力[J];科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì);2005年06期
7 陶秀杰;楊丹丹;;大型國(guó)有電網(wǎng)企業(yè)用戶情報(bào)獲取動(dòng)因研究[J];信息資源管理學(xué)報(bào);2013年04期
8 李敏;;基于企業(yè)知識(shí)情境構(gòu)建的Web競(jìng)爭(zhēng)情報(bào)獲取研究[J];圖書館工作與研究;2013年08期
9 石景嵐;童力;郭偉鋒;;炮兵指揮信息系統(tǒng)情報(bào)獲取能力優(yōu)化[J];無(wú)線電通信技術(shù);2012年01期
10 劉培蘭;;知識(shí)經(jīng)濟(jì)時(shí)代競(jìng)爭(zhēng)情報(bào)獲取策略及其法律與道德問(wèn)題[J];現(xiàn)代情報(bào);2007年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條
1 李雪飛;孫永侃;熊正祥;林宗祥;;海戰(zhàn)情報(bào)獲取能力評(píng)價(jià)研究[A];第13屆中國(guó)系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)年會(huì)論文集[C];2011年
2 劉夫力;程公;劉瑋;;大型足球比賽對(duì)手情報(bào)獲取與處理方法的歸析[A];2013年全國(guó)競(jìng)技體育科學(xué)論文報(bào)告會(huì)論文摘要集[C];2013年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前4條
1 穆志勇;透視戰(zhàn)場(chǎng)情報(bào)獲取的新趨勢(shì)[N];解放軍報(bào);2008年
2 于淼 軍事科學(xué)院國(guó)防政策研究中心研究員;軍方智庫(kù)關(guān)注七大戰(zhàn)略焦點(diǎn)[N];中國(guó)國(guó)防報(bào);2014年
3 趙先剛;變與不變[N];解放軍報(bào);2012年
4 特約記者 王茂華;開(kāi)展八項(xiàng)改造 點(diǎn)亮六院未來(lái)[N];中國(guó)航天報(bào);2014年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 翁R土,
本文編號(hào):1142686
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1142686.html