面向情報獲取的主題采集工具設計與實現(xiàn)
本文關鍵詞:面向情報獲取的主題采集工具設計與實現(xiàn)
【摘要】:面向互聯(lián)網的主題采集是情報獲取的重要手段,面對爆發(fā)式增長的互聯(lián)網信息資源,設計并實現(xiàn)一套由采集準備、URL分析及提取、模板學習、正文抽取等幾階段組成的主題采集工具,其中URL分析與提取采用基于鏈接類型的URL篩選方法,實現(xiàn)正文網頁URL的篩選;模板學習和正文抽取部分采用基于DOM樹的節(jié)點比對方法,完成模板的構建與正文抽取。實驗結果表明,本文所提出的主題采集工具采集準確率較高,能夠適應目前情報信息采集的需求。
【作者單位】: 上海寶山鋼鐵股份有限公司;上海理工大學圖書館;華東師范大學商學院信息學系;
【基金】:上海市科技發(fā)展基金軟科學研究項目“大數(shù)據環(huán)境下基于領域本體的情報處理分析方法研究——以鋼鐵行業(yè)為例”(項目編號:14692107100)研究成果之一
【分類號】:TP393.092
【正文快照】: 1引言大數(shù)據時代,伴隨著互聯(lián)網上信息爆炸式的增長,依靠傳統(tǒng)的人工手段越來越難以從互聯(lián)網上快速準確地獲取所需信息。另一方面,隨著企業(yè)對競爭情報的愈發(fā)重視,互聯(lián)網上的信息采集、整理與分析也成為了企業(yè)情報部門較為重要的一項工作。面對上述矛盾,如何在耗費較少資源的前提
【參考文獻】
中國期刊全文數(shù)據庫 前4條
1 杜義華,及俊川;通用互聯(lián)網信息采集系統(tǒng)的設計與初步實現(xiàn)[J];計算機應用研究;2005年01期
2 羅立宏;陳志;;基于語義分析的垂直搜索網絡蜘蛛[J];計算機工程與設計;2008年18期
3 谷俊;;中文專利本體半自動構建系統(tǒng)設計[J];圖書情報工作;2013年03期
4 許鑫;黃仲清;鄧三鴻;;互聯(lián)網僑情信息采集系統(tǒng)設計與實現(xiàn)[J];現(xiàn)代圖書情報技術;2010年Z1期
【共引文獻】
中國期刊全文數(shù)據庫 前10條
1 劉瑛;;XML網頁的鏈接解析與信息采集研究[J];硅谷;2010年10期
2 鄭文標;;互聯(lián)網技術在海外華文網站研究中的應用[J];華僑大學學報(哲學社會科學版);2011年02期
3 王琦;張戈;何婧;;基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實現(xiàn)[J];計算機時代;2010年02期
4 李濤;王潤孝;魏薇;羅志清;;基于LonWorks的設備管理系統(tǒng)的設計與實現(xiàn)——以鐵路水電設備為例[J];制造業(yè)自動化;2006年10期
5 陳娟;;構建基于關聯(lián)規(guī)則的網絡行為挖掘系統(tǒng)[J];科學技術與工程;2007年13期
6 王聰睿;張翠肖;;一種基于本體的垂直搜索引擎系統(tǒng)模型[J];河北省科學院學報;2013年02期
7 陳永江;仲兆滿;陳宗華;;HTMLUNIT在網絡信息采集系統(tǒng)中的應用[J];淮海工學院學報(自然科學版);2013年04期
8 楊藝;代春艷;;基于IOCC的定題Web信息發(fā)現(xiàn)機制研究[J];計算機工程與設計;2008年22期
9 陳艷春;;競爭情報采集系統(tǒng)研究[J];石家莊鐵道學院學報(自然科學版);2008年02期
10 許鑫;谷俊;袁豐平;周群芳;;面向專利本體的語義檢索分析系統(tǒng)的設計與實現(xiàn)[J];圖書情報工作;2014年09期
中國碩士學位論文全文數(shù)據庫 前10條
1 連惠杰;基于主題的教育信息定向采集系統(tǒng)[D];南京理工大學;2011年
2 吳靜;網絡輿情信息采集系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2011年
3 宋治國;數(shù)據挖掘在Internet有害信息過濾中的應用[D];山東師范大學;2006年
4 魏善嶺;面向互動型網絡媒體的不良信息檢測與過濾[D];大連海事大學;2009年
5 徐海;基于Lucene垂直搜索引擎的研究與實現(xiàn)[D];西安科技大學;2009年
6 劉毅;網絡輿情信息理論體系的構建研究[D];天津外國語學院;2007年
7 黃仲清;互聯(lián)網主題信息定向采集研究[D];華東師范大學;2010年
8 李偉;基于J2EE的網絡輿情分析系統(tǒng)的設計與實現(xiàn)[D];南京大學;2012年
9 孫岳;山東省汽車產業(yè)鏈研發(fā)與標準公共服務平臺[D];山東大學;2012年
10 劉顯一;基于Lucene和Heritrix的主題搜索引擎的設計與實現(xiàn)[D];北京郵電大學;2012年
【二級參考文獻】
中國期刊全文數(shù)據庫 前10條
1 崔繼馨,張鵬,楊文柱;基于DOM的Web信息抽取[J];河北農業(yè)大學學報;2005年03期
2 郭紅,郭朝珍,蘇群;多網站信息采集與異構信息集成應用[J];福州大學學報(自然科學版);2001年05期
3 潘以鋒;;基于Lucene的網站全文檢索系統(tǒng)的開發(fā)[J];廣西教育學院學報;2006年05期
4 吳清江;吳政;劉琳瑯;;面向僑務信息主題的搜索引擎系統(tǒng)[J];華僑大學學報(自然科學版);2006年04期
5 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
6 鄒娟;周經野;鄧成;;一種基于語義分析的中文特征值提取方法[J];計算機工程與應用;2005年36期
7 張斌;劉增良;余達太;黃洪;;基于粗糙集和模糊聚類的政務本體學習模型[J];計算機工程與應用;2010年25期
8 肖建華,蔣明,何瑗,柏文陽;二次搜索系統(tǒng)的設計與實現(xiàn)[J];計算機應用研究;2003年09期
9 錢兵;王永成;高凱;;面向搜索引擎的自然語言理解的設計與實現(xiàn)[J];計算機應用研究;2006年12期
10 溫春;王曉斌;石昭祥;;中文領域本體學習中術語的自動抽取[J];計算機應用研究;2009年07期
中國碩士學位論文全文數(shù)據庫 前1條
1 寧力;搜索引擎中網頁查重方法的研究[D];北京化工大學;2007年
【相似文獻】
中國期刊全文數(shù)據庫 前10條
1 李鑫;王勇;馮志強;;炮兵偵察情報獲取與處理[J];艦船電子工程;2009年03期
2 鄭軍;;用戶情報獲取智能障礙初探[J];圖書情報工作;1992年05期
3 鄭金;王甜甜;;大型國有電網企業(yè)用戶對情報獲取便捷性的關注度研究[J];圖書情報知識;2014年04期
4 王昕;王夢雅;;大型國有電網企業(yè)用戶情報獲取渠道研究[J];信息資源管理學報;2013年04期
5 陶秀杰;鮮冉;;大型國有電網企業(yè)用戶情報獲取及時性關注度研究[J];圖書與情報;2014年03期
6 王春華,江麗霞;全網絡方式培養(yǎng)學生的情報獲取能力[J];科技情報開發(fā)與經濟;2005年06期
7 陶秀杰;楊丹丹;;大型國有電網企業(yè)用戶情報獲取動因研究[J];信息資源管理學報;2013年04期
8 李敏;;基于企業(yè)知識情境構建的Web競爭情報獲取研究[J];圖書館工作與研究;2013年08期
9 石景嵐;童力;郭偉鋒;;炮兵指揮信息系統(tǒng)情報獲取能力優(yōu)化[J];無線電通信技術;2012年01期
10 劉培蘭;;知識經濟時代競爭情報獲取策略及其法律與道德問題[J];現(xiàn)代情報;2007年04期
中國重要會議論文全文數(shù)據庫 前2條
1 李雪飛;孫永侃;熊正祥;林宗祥;;海戰(zhàn)情報獲取能力評價研究[A];第13屆中國系統(tǒng)仿真技術及其應用學術年會論文集[C];2011年
2 劉夫力;程公;劉瑋;;大型足球比賽對手情報獲取與處理方法的歸析[A];2013年全國競技體育科學論文報告會論文摘要集[C];2013年
中國重要報紙全文數(shù)據庫 前4條
1 穆志勇;透視戰(zhàn)場情報獲取的新趨勢[N];解放軍報;2008年
2 于淼 軍事科學院國防政策研究中心研究員;軍方智庫關注七大戰(zhàn)略焦點[N];中國國防報;2014年
3 趙先剛;變與不變[N];解放軍報;2012年
4 特約記者 王茂華;開展八項改造 點亮六院未來[N];中國航天報;2014年
中國碩士學位論文全文數(shù)據庫 前2條
1 翁R土,
本文編號:1142686
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1142686.html