XML的DOM樹結(jié)構(gòu)在WEB挖掘中的應用
本文關鍵詞:XML的DOM樹結(jié)構(gòu)在WEB挖掘中的應用
【摘要】:面對飛速發(fā)展的信息時代,WEB數(shù)據(jù)的挖掘日益重要,而傳統(tǒng)的搜索引擎難以勝任對數(shù)據(jù)的挖掘處理;赬ML良好的結(jié)構(gòu)性和層次性,提出了利用DOM樹進行WEB挖掘的方法。首先利用Tidy工具庫將WEB數(shù)據(jù)轉(zhuǎn)換成良好結(jié)構(gòu)的XML文件,簡化生成DOM樹,然后通過遍歷解析XML的DOM樹結(jié)構(gòu),提取需要的WEB信息,實現(xiàn)對WEB數(shù)據(jù)挖掘。實驗表明,該方法能夠方便地對數(shù)據(jù)進行結(jié)構(gòu)化存儲和信息處理。
【作者單位】: 四川理工學院自動化與電子信息學院;四川理工學院網(wǎng)絡管理中心;
【關鍵詞】: WEB挖掘 XML Tidy DOM樹
【基金】:四川理工學院研究生創(chuàng)新基金項目(y2012007)
【分類號】:TP311.13
【正文快照】: 引言隨著WEB信息技術的飛速發(fā)展,WEB信息也以指數(shù)級日益增加,因此,如何從海量的數(shù)據(jù)中準確得到相關有效數(shù)據(jù),成為了急需解決的問題。搜索引擎是從海量信息中獲取指定數(shù)據(jù)的有效方式,但傳統(tǒng)的基于HT-ML的搜索引擎僅僅能抓取和呈現(xiàn)孤立的數(shù)據(jù)本身,而難以對獲取的數(shù)據(jù)進行有效的
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前8條
1 秦鴻;基于Web的數(shù)據(jù)挖掘[J];電子科技大學學報;2002年S1期
2 黃磊,黃漢永;XML技術在Web挖掘中的應用[J];信息技術;2003年05期
3 李龍;李麗麗;高玲;;一種網(wǎng)絡課程答疑系統(tǒng)分詞器的設計[J];河北工程大學學報(自然科學版);2012年02期
4 余靜;劉萬軍;;基于網(wǎng)頁分塊的主題爬蟲研究[J];計算機與信息技術;2008年10期
5 錢程;陽小蘭;;HTML到XML轉(zhuǎn)換研究[J];計算機與現(xiàn)代化;2011年08期
6 熊一利;徐鵬;;基于XML的網(wǎng)頁數(shù)據(jù)挖掘[J];科技廣場;2010年01期
7 李霞;蔣盛益;;基于DOM樹及行文本統(tǒng)計去噪的網(wǎng)頁文本抽取技術[J];山東大學學報(理學版);2012年03期
8 陳金森;原福永;張園園;;XML搜索引擎研究[J];圖書情報工作;2007年01期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 牛彥成;包瑩;;Web數(shù)據(jù)挖掘中XML的應用研究[J];電腦知識與技術;2011年01期
2 胡雙雙;秦杰;;搜索引擎技術及其發(fā)展趨勢[J];福建電腦;2008年06期
3 丁瑾;基于Web數(shù)據(jù)挖掘的綜述[J];科技情報開發(fā)與經(jīng)濟;2004年12期
4 汪劍;;基于Web的數(shù)據(jù)挖掘在信息服務領域的應用[J];軟件導刊;2008年10期
5 張向鋒;丁斗章;;基于免疫學習算法的Web數(shù)據(jù)挖掘方法[J];上海電機學院學報;2007年03期
6 丁瑾;;多媒體數(shù)據(jù)挖掘技術在數(shù)字檔案中的應用[J];蘭臺世界;2006年22期
7 彭偉;;Web氣象信息樹型提取算法與LED顯示設計[J];實驗室研究與探索;2013年01期
8 丁瑾;蔣華;;數(shù)字檔案館中多媒體數(shù)據(jù)挖掘技術研究[J];浙江水利水電?茖W校學報;2005年04期
9 金艷云;;Web數(shù)據(jù)挖掘綜述[J];現(xiàn)代計算機(專業(yè)版);2012年33期
10 李愛飛;冀振燕;王經(jīng)緯;;一種基于頁面價值和跳轉(zhuǎn)偏愛度挖掘頻繁訪問路徑的模型[J];計算機系統(tǒng)應用;2013年03期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 丁瑾;;基于Web數(shù)據(jù)挖掘的綜述[A];山西省科學技術情報學會學術年會論文集[C];2004年
中國博士學位論文全文數(shù)據(jù)庫 前3條
1 傅明;基于Web的空間數(shù)據(jù)挖掘研究[D];中南大學;2004年
2 楊燕;基于計算智能的聚類組合算法研究[D];西南交通大學;2006年
3 余小高;電子商務環(huán)境中分布式數(shù)據(jù)挖掘的研究[D];武漢理工大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 李偉利;面向普通教育的內(nèi)容管理系統(tǒng)研究[D];北京林業(yè)大學;2011年
2 沈旭昌;隱私保護的分布式數(shù)據(jù)挖掘系統(tǒng)[D];浙江工業(yè)大學;2004年
3 廖江軍;Web預取中的數(shù)據(jù)挖掘研究[D];上海師范大學;2005年
4 湯國行;Web日志聚類分析及應用[D];山東大學;2006年
5 王利;Web使用挖掘方法及其在個性化學習系統(tǒng)中的應用研究[D];蘇州大學;2006年
6 單明輝;改進的關聯(lián)規(guī)則算法在采購數(shù)據(jù)挖掘中的應用[D];上海交通大學;2008年
7 肖卓磊;基于Ajax技術的搜索引擎研究[D];武漢理工大學;2009年
8 黃仲清;互聯(lián)網(wǎng)主題信息定向采集研究[D];華東師范大學;2010年
9 祁鵬;基于移動搜索的Spider爬行策略的研究和實現(xiàn)[D];成都理工大學;2010年
10 郭曉初;基于VRML的虛擬哈爾濱機場建筑的設計與實現(xiàn)[D];吉林大學;2012年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 文庭孝;漢語自動分詞研究進展[J];圖書與情報;2005年05期
2 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學學報;2009年04期
3 袁新顏;;簡析XML與HTML的結(jié)合[J];電腦知識與技術(學術交流);2007年07期
4 牛彥成;包瑩;;Web數(shù)據(jù)挖掘中XML的應用研究[J];電腦知識與技術;2011年01期
5 姜良華;;網(wǎng)絡輔助答疑系統(tǒng)的設計與實現(xiàn)[J];電腦知識與技術;2011年26期
6 胡青松;張申;;通用網(wǎng)絡輔助教學支撐平臺的研制[J];電氣電子教學學報;2008年03期
7 吳勁,陳澤琳;基于部分匹配的XML文本文檔向量檢索模型[J];電子學報;2002年S1期
8 姜大仲;王新秀;崔善珠;;發(fā)展終身學習型城市網(wǎng)絡的戰(zhàn)略——以首爾市冠岳區(qū)案例為中心[J];高等函授學報(哲學社會科學版);2011年05期
9 李睿,李明;Web數(shù)據(jù)挖掘技術探討[J];甘肅科技;2001年03期
10 孟小峰;Web數(shù)據(jù)管理研究綜述[J];計算機研究與發(fā)展;2001年04期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術研究[D];吉林大學;2007年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 蔣社想;;基于XML的WEB數(shù)據(jù)挖掘[J];長沙通信職業(yè)技術學院學報;2006年04期
2 熊一利;徐鵬;;基于XML的網(wǎng)頁數(shù)據(jù)挖掘[J];科技廣場;2010年01期
3 趙小禮;陸鑫;;基于XML的有效的Web挖掘系統(tǒng)設計研究[J];軟件導刊;2005年18期
4 史哲;;基于XML的Web數(shù)據(jù)挖掘及應用模式研究[J];科技創(chuàng)新導報;2011年02期
5 蔣君毅;宋中山;;基于XML進行Web數(shù)據(jù)挖掘的應用研究[J];軟件導刊;2006年15期
6 連瑞梅;;Web內(nèi)容挖掘中XML技術的應用[J];科技經(jīng)濟市場;2007年07期
7 趙艷秋;封志宏;;基于XML的Web搜索推薦系統(tǒng)中用戶興趣模型的建立研究[J];網(wǎng)絡安全技術與應用;2009年03期
8 曾瑛;李志杰;;Web挖掘工具與數(shù)字圖書館信息服務[J];高校圖書館工作;2006年04期
9 陳堯妃;倪應華;陳煥通;;基于XML的Web挖掘框架設計[J];儀器儀表學報;2006年S3期
10 李壘;李懷剛;;基于語義網(wǎng)絡的Web挖掘[J];廣西輕工業(yè);2008年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 何震瀛;李建中;王宏志;;XML數(shù)據(jù)的關系存儲[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2002年
2 郭志懋;周傲英;;XML數(shù)據(jù)的在線過濾[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2002年
3 丁峰;王煜;姚延濤;沈鈞毅;;從XML模式到數(shù)據(jù)庫模式[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2001年
4 談子敬;施伯樂;;XML導出數(shù)據(jù)庫表的實現(xiàn)與應用[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2001年
5 羅道峰;孟小峰;;一種面向XML文檔的基于角色的擴展訪問控制方法[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2001年
6 鄭駿;王焱;錢衛(wèi)寧;周傲英;;XML相似相關結(jié)構(gòu)庫的構(gòu)造及其應用[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年
7 吳剛;于亞新;王國仁;于戈;;并行XML文檔數(shù)據(jù)分片技術研究[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年
8 王靜;孟小峰;王珊;;以目標節(jié)點為導向的XML路徑查詢處理[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2003年
9 王鵬飛;洪曉光;;基于XML大文檔的動態(tài)索引[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年
10 肖冰;廖湖聲;鄭玉明;;數(shù)據(jù)集成系統(tǒng)中的XML延遲處理技術[A];第二十二屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2005年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 北京郵電大學 張劍;XML的顯示——XSL樣式單(上)[N];計算機世界;2001年
2 北京郵電大學 張劍;XML技術預覽[N];計算機世界;2001年
3 王培森;從Web挖到競爭情報[N];中國計算機報;2003年
4 湖北 張海;編程日日帖[N];電腦報;2005年
5 孤獨笑 烏咪;打造你的音樂萬年歷(上)[N];電腦報;2003年
6 北京郵電大學 張劍;XML技術入門[N];計算機世界;2001年
7 涂序彥 陳泓娟;在網(wǎng)絡信息海洋中淘金[N];計算機世界;2001年
8 ;Web收獲:吸納有用信息[N];計算機世界;2004年
9 廣東 麥國恒;淺談應用程序XP風格的實現(xiàn)[N];電腦報;2003年
10 杭州商學院 徐建平;使用ASP訪問XML文件[N];計算機世界;2001年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 沈潔;基于自動機的XML數(shù)據(jù)過濾研究[D];哈爾濱工程大學;2010年
2 葉曉峰;基于XML的沖壓模具設計知識重用技術研究[D];華中科技大學;2010年
3 殷麗鳳;不完全信息環(huán)境下XML數(shù)據(jù)庫規(guī)范化問題的研究[D];哈爾濱理工大學;2009年
4 寧博;XML查詢模式匹配及文檔過濾技術研究[D];東北大學;2009年
5 張晨靜;XML關鍵字過濾技術[D];復旦大學;2011年
6 胡文生;XML數(shù)據(jù)流上基于窗口的查詢處理方法研究[D];武漢大學;2012年
7 汪源;XML事務模型及并發(fā)控制研究[D];浙江大學;2006年
8 朱曉冬;數(shù)字博物館關鍵技術研究[D];西北大學;2004年
9 許建軍;對結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的關鍵字搜索研究[D];復旦大學;2007年
10 雷向欣;XML索引和過濾查詢?nèi)舾申P鍵技術研究[D];復旦大學;2005年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 馬宏偉;基于XML的Web文本挖掘應用研究[D];合肥工業(yè)大學;2009年
2 史西兵;基于XML的Web信息抽取技術研究[D];西北大學;2008年
3 張憶;基于XML的頻繁模式發(fā)現(xiàn)研究[D];合肥工業(yè)大學;2006年
4 邱亞娜;信息化教育領域的Web信息抽取技術研究[D];天津師范大學;2008年
5 孫麗;Web數(shù)據(jù)的挖掘方法研究[D];大慶石油學院;2004年
6 蒲秋梅;基于XML的Web數(shù)據(jù)挖掘技術的研究[D];武漢大學;2004年
7 唐飛龍;Internet信息獲取技術的研究[D];合肥工業(yè)大學;2002年
8 郭鵬;基于Web數(shù)據(jù)挖掘分類算法的個性化信息服務[D];太原理工大學;2003年
9 牟剛;基于XML的Web信息挖掘技術的研究[D];重慶大學;2004年
10 詹晶晶;基于WEB挖掘的網(wǎng)絡蜘蛛的研究與實現(xiàn)[D];廈門大學;2007年
,本文編號:585592
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/585592.html