基于標簽路徑的Web結構化數(shù)據(jù)自動抽取
本文選題:標簽路徑 + 結構化數(shù)據(jù)抽取 ; 參考:《計算機科學》2013年S1期
【摘要】:提出了一種基于標簽路徑的Web結構化數(shù)據(jù)自動抽取方法。該方法通過對網(wǎng)頁DOM樹的解析獲取完整標簽路徑集合,并依據(jù)路徑相似度測量方法來聚類標簽路徑,實現(xiàn)目標數(shù)據(jù)區(qū)域的定位,然后通過標簽節(jié)點坐標位置的特性來分離各個數(shù)據(jù)項,過濾冗余數(shù)據(jù),最終完成數(shù)據(jù)抽取。實驗結果表明,與MDR方法相比,該方法在處理擁有結構化數(shù)據(jù)的網(wǎng)頁時,有更高的查全率和查準率。
[Abstract]:In this paper, a method of automatic Web structured data extraction based on label path is proposed. In this method, the complete tag path set is obtained by parsing the Dom tree of the web page, and the label path is clustered according to the method of path similarity measurement, and the location of the target data region is realized. Then the label node coordinate position is used to separate the data items, filter the redundant data, and finally complete the data extraction. The experimental results show that compared with MDR method, this method has higher recall and precision when dealing with web pages with structured data.
【作者單位】: 沈陽建筑大學信息與控制工程系;
【基金】:國家自然科學基金(61070024)資助
【分類號】:TP393.02
【參考文獻】
相關期刊論文 前2條
1 李效東,顧毓清;基于DOM的Web信息提取[J];計算機學報;2002年05期
2 孫吉貴;劉杰;趙連宇;;聚類算法研究[J];軟件學報;2008年01期
【共引文獻】
相關期刊論文 前10條
1 李廣水;宋丁全;;數(shù)據(jù)分析在森林資源調(diào)查中的應用及發(fā)展研究[J];安徽農(nóng)業(yè)科學;2009年22期
2 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術[J];北京交通大學學報;2009年05期
3 廉捷;劉云;;網(wǎng)絡輿情中的信息預處理與自動摘要算法[J];北京交通大學學報;2010年05期
4 王茹,宋瀚濤,陸玉昌;基于樹自動機的網(wǎng)頁數(shù)據(jù)抽取[J];北京理工大學學報;2004年09期
5 左國才;周榮華;符開耀;;基于DBSCAN算法的電信客戶分類的應用研究[J];北京聯(lián)合大學學報(自然科學版);2012年03期
6 李曉方;武仲科;樊亞春;周明全;柳勇光;;一種新的用于三維檢索的快速鄰域搜索方法[J];北京師范大學學報(自然科學版);2011年05期
7 張敏;;基于確定性樹自動機技術的信息抽取研究[J];才智;2011年36期
8 章林柯;崔立林;;潛艇機械噪聲源分類識別的小樣本研究思想及相關算法評述[J];船舶力學;2011年08期
9 孫英娟;楊柳;何昆鳥;;屬性離散化算法研究[J];長春師范學院學報(人文社會科學版);2009年12期
10 陳慶枝;陳國龍;郭文忠;陳仕濤;;信息安全評估日志數(shù)據(jù)的一種混合聚類算法[J];重慶工學院學報(自然科學版);2009年10期
相關會議論文 前10條
1 曾成;趙錫均;徐紅;;基于量子遺傳算法的聚類方法[A];第二十九屆中國控制會議論文集[C];2010年
2 翟偉斌;許榕生;;基于Internet的CIS研究[A];第十三屆全國核電子學與核探測技術學術年會論文集(下冊)[C];2006年
3 ;A Fuzzy Neural Network System Modeling Method Based on Data-driven[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
4 劉保政;汪定偉;;基于多因素的相近距離聚類方法研究[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
5 張立濤;張宇峰;;基于聚類分析的大型橋梁結構健康監(jiān)測數(shù)據(jù)異常識別研究[A];第21屆全國結構工程學術會議論文集第Ⅱ冊[C];2012年
6 韓杰;廖聞劍;彭艷兵;;基于樓層分割的BBS信息提取[A];中國通信學會第六屆學術年會論文集(上)[C];2009年
7 韓杰;廖聞劍;彭艷兵;;基于樓層分割的BBS信息提取[A];中國通信學會第六屆學術年會論文集(中)[C];2009年
8 梁勇;張文;;網(wǎng)絡輿情采集系統(tǒng)的設計[A];2011年全國通信安全學術會議論文集[C];2011年
9 吳繼兵;李心科;;基于分治融合的混合屬性數(shù)據(jù)聚類算法研究[A];全國第20屆計算機技術與應用學術會議(CACIS·2009)暨全國第1屆安全關鍵技術與應用學術會議論文集(下冊)[C];2009年
10 王文生;謝能付;;基于Web的農(nóng)業(yè)信息自動抽取方法研究[A];中國農(nóng)業(yè)信息科技創(chuàng)新與學科發(fā)展大會論文匯編[C];2007年
相關博士學位論文 前10條
1 徐森;文本聚類集成關鍵技術研究[D];哈爾濱工程大學;2010年
2 于翔;基于網(wǎng)格的數(shù)據(jù)流聚類方法研究[D];哈爾濱工程大學;2010年
3 徐紅波;基于空間填充曲線高維空間查詢算法研究[D];哈爾濱理工大學;2010年
4 尹可挺;Internet環(huán)境中基于QoS的Web服務組合研究[D];浙江大學;2010年
5 皋軍;智能識別中的降維新方法及其應用研究[D];江南大學;2010年
6 蘇曉珂;基于聚類的異常挖掘算法研究[D];東華大學;2010年
7 卓瑩;基于拓撲·流量挖掘的網(wǎng)絡態(tài)勢感知技術研究[D];國防科學技術大學;2010年
8 陳彬;面向DEVS的多范式建模與仿真關鍵技術研究與實現(xiàn)[D];國防科學技術大學;2010年
9 高翠芳;模糊聚類新算法及應用研究[D];江南大學;2011年
10 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
相關碩士學位論文 前10條
1 孫嶺;一種基于前綴表達式的Web信息抽取方法的關鍵問題的實現(xiàn)[D];山東科技大學;2010年
2 劉文昊;基于模糊聚類和紋版輔助的織物疵點檢測算法研究[D];浙江理工大學;2010年
3 李振;網(wǎng)絡輿情預測關鍵技術研究[D];鄭州大學;2010年
4 雷斌;基于Java技術的智能化搜索引擎的研究與設計[D];哈爾濱工程大學;2010年
5 丁金鳳;基于網(wǎng)格與密度的數(shù)據(jù)流聚類算法研究[D];哈爾濱工程大學;2010年
6 劉萍;軟件體系結構恢復的研究與實現(xiàn)[D];大連理工大學;2010年
7 姜榮;時間序列的聚類和關聯(lián)規(guī)則挖掘研究[D];遼寧師范大學;2010年
8 李丹丹;基于權重設計的聚類融合算法研究及應用[D];遼寧工程技術大學;2009年
9 劉瓊;基于群體智能的聚類算法研究[D];長沙理工大學;2010年
10 方少卿;Web就業(yè)信息抽取系統(tǒng)的實現(xiàn)研究[D];合肥工業(yè)大學;2010年
【二級參考文獻】
相關期刊論文 前1條
1 李潔;高新波;焦李成;;基于特征加權的模糊聚類新算法[J];電子學報;2006年01期
【相似文獻】
相關期刊論文 前10條
1 張亞東;梁高翔;;使用聚類方法分析IP報文特征[J];光盤技術;2006年03期
2 張西廣;鄭秋生;王虎祥;陳國強;;基于聚類的網(wǎng)絡異常檢測[J];微電子學與計算機;2008年05期
3 王潔松;張小飛;;KDDCup99網(wǎng)絡入侵檢測數(shù)據(jù)的分析和預處理[J];科技信息(科學教研);2008年15期
4 尹珧人;王德廣;;一種改進的k-means聚類算法在入侵檢測中的應用[J];科學技術與工程;2008年16期
5 鄒漢斌;周學清;;基于聚類的模糊支持向量機入侵檢測算法[J];情報雜志;2009年03期
6 涂浩;李之棠;柳斌;;一種基于特征提取的高效蠕蟲自動防御系統(tǒng)[J];小型微型計算機系統(tǒng);2009年06期
7 章靜;徐道煒;;傳感器網(wǎng)絡中基于簇的入侵檢測策略[J];科學技術與工程;2009年17期
8 鐘銳;;一種基于聚類與關聯(lián)規(guī)則算法的DDoS攻擊檢測模型[J];贛南師范學院學報;2009年06期
9 黨小超;郝占軍;王筱娟;;基于簇連接度聚類算法的入侵檢測[J];計算機工程與應用;2010年21期
10 吳卉男;;基于聚類算法的入侵檢測模型設計[J];考試周刊;2010年38期
相關會議論文 前10條
1 劉建偉;于守健;樂嘉錦;;基于分裂-凝聚的Web新聞主題聚類算法[A];第二十二屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2005年
2 高學東;周磊;;Web點擊流數(shù)據(jù)聚類算法[A];全國第十屆企業(yè)信息化與工業(yè)工程學術年會論文集[C];2006年
3 李劍;李俊;;改進的K-means聚類算法在入侵檢測系統(tǒng)中的應用研究[A];2011年全國通信安全學術會議論文集[C];2011年
4 牟廉明;;基于均勻度和相對密度的網(wǎng)格聚類算法[A];第二屆中國智能計算大會論文集[C];2008年
5 曹明;李劍;楊義先;;一種基于模糊連接聚類的入侵防御算法[A];全國網(wǎng)絡與信息安全技術研討會'2005論文集(上冊)[C];2005年
6 務孟慶;高軍;王騰蛟;楊冬青;;WD-STC:一種基于網(wǎng)絡詞典的WEB新聞文檔后綴樹聚類算法[A];全國網(wǎng)絡與信息安全技術研討會論文集(上冊)[C];2007年
7 馬輝民;李衛(wèi)華;;Web文檔聚類系統(tǒng)的實現(xiàn)方法探析[A];第10屆計算機模擬與信息技術會議論文集[C];2005年
8 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結構的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學術會議論文集(上)[C];2008年
9 王玉龍;葉新銘;李秀華;;網(wǎng)頁優(yōu)化策略的模糊C均值(FCM)聚類算法研究(英文)[A];第二十二屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2005年
10 李涵;;一種改進的聚類方法在異常檢測中的應用[A];2010年全國開放式分布與并行計算機學術會議論文集[C];2010年
相關博士學位論文 前8條
1 李志華;語義屬性數(shù)據(jù)聚類/分類算法及其在異常檢測中的應用研究[D];江南大學;2009年
2 竇伊男;根據(jù)多維特征的網(wǎng)絡用戶分類研究[D];北京郵電大學;2010年
3 劉雪飛;數(shù)據(jù)挖掘技術在入侵檢測中的應用研究[D];南京理工大學;2005年
4 應曉敏;面向Internet個性化服務的用戶建模技術研究[D];中國人民解放軍國防科學技術大學;2003年
5 劉玉國;基于內(nèi)容的互聯(lián)網(wǎng)輿情信息挖掘關鍵技術研究[D];山東大學;2011年
6 李東勝;基于興趣與保護隱私的在線社區(qū)推薦技術研究[D];復旦大學;2012年
7 卓瑩;基于拓撲·流量挖掘的網(wǎng)絡態(tài)勢感知技術研究[D];國防科學技術大學;2010年
8 魏小濤;在線自適應網(wǎng)絡異常檢測系統(tǒng)模型與相關算法研究[D];北京交通大學;2009年
相關碩士學位論文 前10條
1 張珠玉;聚類算法及其在日志數(shù)據(jù)處理中的應用研究[D];山東師范大學;2011年
2 王忠強;基于K-medoids聚類算法Web信息集成方法的研究與實現(xiàn)[D];沈陽建筑大學;2011年
3 買買提依明·哈斯木;基于后綴樹的維吾爾文網(wǎng)頁聚類算法的設計與實現(xiàn)[D];新疆大學;2011年
4 崔月婷;基于分類算法與聚類算法流量識別系統(tǒng)的研究[D];北京郵電大學;2010年
5 陽建平;聚類算法在入侵檢測中的應用[D];電子科技大學;2009年
6 鄭仁毅;基于數(shù)據(jù)挖掘技術的入侵檢測系統(tǒng)研究與設計[D];廈門大學;2007年
7 田野;基于復雜網(wǎng)絡聚類算法的互聯(lián)網(wǎng)內(nèi)容分發(fā)策略研究[D];吉林大學;2010年
8 賴立;聚類算法在IDS特征分析中的應用[D];電子科技大學;2007年
9 張?zhí)?免疫原理和移動代理技術在網(wǎng)絡故障診斷中的應用研究[D];電子科技大學;2008年
10 趙玉;聚類算法在中俄經(jīng)貿(mào)合作網(wǎng)的應用[D];對外經(jīng)濟貿(mào)易大學;2007年
,本文編號:1993758
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1993758.html