天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

XML的DOM樹(shù)結(jié)構(gòu)在WEB挖掘中的應(yīng)用

發(fā)布時(shí)間:2017-07-28 19:12

  本文關(guān)鍵詞:XML的DOM樹(shù)結(jié)構(gòu)在WEB挖掘中的應(yīng)用


  更多相關(guān)文章: WEB挖掘 XML Tidy DOM樹(shù)


【摘要】:面對(duì)飛速發(fā)展的信息時(shí)代,WEB數(shù)據(jù)的挖掘日益重要,而傳統(tǒng)的搜索引擎難以勝任對(duì)數(shù)據(jù)的挖掘處理。基于XML良好的結(jié)構(gòu)性和層次性,提出了利用DOM樹(shù)進(jìn)行WEB挖掘的方法。首先利用Tidy工具庫(kù)將WEB數(shù)據(jù)轉(zhuǎn)換成良好結(jié)構(gòu)的XML文件,簡(jiǎn)化生成DOM樹(shù),然后通過(guò)遍歷解析XML的DOM樹(shù)結(jié)構(gòu),提取需要的WEB信息,實(shí)現(xiàn)對(duì)WEB數(shù)據(jù)挖掘。實(shí)驗(yàn)表明,該方法能夠方便地對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化存儲(chǔ)和信息處理。
【作者單位】: 四川理工學(xué)院自動(dòng)化與電子信息學(xué)院;四川理工學(xué)院網(wǎng)絡(luò)管理中心;
【關(guān)鍵詞】WEB挖掘 XML Tidy DOM樹(shù)
【基金】:四川理工學(xué)院研究生創(chuàng)新基金項(xiàng)目(y2012007)
【分類號(hào)】:TP311.13
【正文快照】: 引言隨著WEB信息技術(shù)的飛速發(fā)展,WEB信息也以指數(shù)級(jí)日益增加,因此,如何從海量的數(shù)據(jù)中準(zhǔn)確得到相關(guān)有效數(shù)據(jù),成為了急需解決的問(wèn)題。搜索引擎是從海量信息中獲取指定數(shù)據(jù)的有效方式,但傳統(tǒng)的基于HT-ML的搜索引擎僅僅能抓取和呈現(xiàn)孤立的數(shù)據(jù)本身,而難以對(duì)獲取的數(shù)據(jù)進(jìn)行有效的

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前8條

1 秦鴻;基于Web的數(shù)據(jù)挖掘[J];電子科技大學(xué)學(xué)報(bào);2002年S1期

2 黃磊,黃漢永;XML技術(shù)在Web挖掘中的應(yīng)用[J];信息技術(shù);2003年05期

3 李龍;李麗麗;高玲;;一種網(wǎng)絡(luò)課程答疑系統(tǒng)分詞器的設(shè)計(jì)[J];河北工程大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年02期

4 余靜;劉萬(wàn)軍;;基于網(wǎng)頁(yè)分塊的主題爬蟲(chóng)研究[J];計(jì)算機(jī)與信息技術(shù);2008年10期

5 錢(qián)程;陽(yáng)小蘭;;HTML到XML轉(zhuǎn)換研究[J];計(jì)算機(jī)與現(xiàn)代化;2011年08期

6 熊一利;徐鵬;;基于XML的網(wǎng)頁(yè)數(shù)據(jù)挖掘[J];科技廣場(chǎng);2010年01期

7 李霞;蔣盛益;;基于DOM樹(shù)及行文本統(tǒng)計(jì)去噪的網(wǎng)頁(yè)文本抽取技術(shù)[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2012年03期

8 陳金森;原福永;張園園;;XML搜索引擎研究[J];圖書(shū)情報(bào)工作;2007年01期

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 牛彥成;包瑩;;Web數(shù)據(jù)挖掘中XML的應(yīng)用研究[J];電腦知識(shí)與技術(shù);2011年01期

2 胡雙雙;秦杰;;搜索引擎技術(shù)及其發(fā)展趨勢(shì)[J];福建電腦;2008年06期

3 丁瑾;基于Web數(shù)據(jù)挖掘的綜述[J];科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì);2004年12期

4 汪劍;;基于Web的數(shù)據(jù)挖掘在信息服務(wù)領(lǐng)域的應(yīng)用[J];軟件導(dǎo)刊;2008年10期

5 張向鋒;丁斗章;;基于免疫學(xué)習(xí)算法的Web數(shù)據(jù)挖掘方法[J];上海電機(jī)學(xué)院學(xué)報(bào);2007年03期

6 丁瑾;;多媒體數(shù)據(jù)挖掘技術(shù)在數(shù)字檔案中的應(yīng)用[J];蘭臺(tái)世界;2006年22期

7 彭偉;;Web氣象信息樹(shù)型提取算法與LED顯示設(shè)計(jì)[J];實(shí)驗(yàn)室研究與探索;2013年01期

8 丁瑾;蔣華;;數(shù)字檔案館中多媒體數(shù)據(jù)挖掘技術(shù)研究[J];浙江水利水電?茖W(xué)校學(xué)報(bào);2005年04期

9 金艷云;;Web數(shù)據(jù)挖掘綜述[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2012年33期

10 李愛(ài)飛;冀振燕;王經(jīng)緯;;一種基于頁(yè)面價(jià)值和跳轉(zhuǎn)偏愛(ài)度挖掘頻繁訪問(wèn)路徑的模型[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年03期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條

1 丁瑾;;基于Web數(shù)據(jù)挖掘的綜述[A];山西省科學(xué)技術(shù)情報(bào)學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2004年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

1 傅明;基于Web的空間數(shù)據(jù)挖掘研究[D];中南大學(xué);2004年

2 楊燕;基于計(jì)算智能的聚類組合算法研究[D];西南交通大學(xué);2006年

3 余小高;電子商務(wù)環(huán)境中分布式數(shù)據(jù)挖掘的研究[D];武漢理工大學(xué);2007年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 李偉利;面向普通教育的內(nèi)容管理系統(tǒng)研究[D];北京林業(yè)大學(xué);2011年

2 沈旭昌;隱私保護(hù)的分布式數(shù)據(jù)挖掘系統(tǒng)[D];浙江工業(yè)大學(xué);2004年

3 廖江軍;Web預(yù)取中的數(shù)據(jù)挖掘研究[D];上海師范大學(xué);2005年

4 湯國(guó)行;Web日志聚類分析及應(yīng)用[D];山東大學(xué);2006年

5 王利;Web使用挖掘方法及其在個(gè)性化學(xué)習(xí)系統(tǒng)中的應(yīng)用研究[D];蘇州大學(xué);2006年

6 單明輝;改進(jìn)的關(guān)聯(lián)規(guī)則算法在采購(gòu)數(shù)據(jù)挖掘中的應(yīng)用[D];上海交通大學(xué);2008年

7 肖卓磊;基于Ajax技術(shù)的搜索引擎研究[D];武漢理工大學(xué);2009年

8 黃仲清;互聯(lián)網(wǎng)主題信息定向采集研究[D];華東師范大學(xué);2010年

9 祁鵬;基于移動(dòng)搜索的Spider爬行策略的研究和實(shí)現(xiàn)[D];成都理工大學(xué);2010年

10 郭曉初;基于VRML的虛擬哈爾濱機(jī)場(chǎng)建筑的設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2012年

【二級(jí)參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 文庭孝;漢語(yǔ)自動(dòng)分詞研究進(jìn)展[J];圖書(shū)與情報(bào);2005年05期

2 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁(yè)正文信息抽取新方法[J];大連理工大學(xué)學(xué)報(bào);2009年04期

3 袁新顏;;簡(jiǎn)析XML與HTML的結(jié)合[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年07期

4 牛彥成;包瑩;;Web數(shù)據(jù)挖掘中XML的應(yīng)用研究[J];電腦知識(shí)與技術(shù);2011年01期

5 姜良華;;網(wǎng)絡(luò)輔助答疑系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2011年26期

6 胡青松;張申;;通用網(wǎng)絡(luò)輔助教學(xué)支撐平臺(tái)的研制[J];電氣電子教學(xué)學(xué)報(bào);2008年03期

7 吳勁,陳澤琳;基于部分匹配的XML文本文檔向量檢索模型[J];電子學(xué)報(bào);2002年S1期

8 姜大仲;王新秀;崔善珠;;發(fā)展終身學(xué)習(xí)型城市網(wǎng)絡(luò)的戰(zhàn)略——以首爾市冠岳區(qū)案例為中心[J];高等函授學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2011年05期

9 李睿,李明;Web數(shù)據(jù)挖掘技術(shù)探討[J];甘肅科技;2001年03期

10 孟小峰;Web數(shù)據(jù)管理研究綜述[J];計(jì)算機(jī)研究與發(fā)展;2001年04期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 蔣社想;;基于XML的WEB數(shù)據(jù)挖掘[J];長(zhǎng)沙通信職業(yè)技術(shù)學(xué)院學(xué)報(bào);2006年04期

2 熊一利;徐鵬;;基于XML的網(wǎng)頁(yè)數(shù)據(jù)挖掘[J];科技廣場(chǎng);2010年01期

3 趙小禮;陸鑫;;基于XML的有效的Web挖掘系統(tǒng)設(shè)計(jì)研究[J];軟件導(dǎo)刊;2005年18期

4 史哲;;基于XML的Web數(shù)據(jù)挖掘及應(yīng)用模式研究[J];科技創(chuàng)新導(dǎo)報(bào);2011年02期

5 蔣君毅;宋中山;;基于XML進(jìn)行Web數(shù)據(jù)挖掘的應(yīng)用研究[J];軟件導(dǎo)刊;2006年15期

6 連瑞梅;;Web內(nèi)容挖掘中XML技術(shù)的應(yīng)用[J];科技經(jīng)濟(jì)市場(chǎng);2007年07期

7 趙艷秋;封志宏;;基于XML的Web搜索推薦系統(tǒng)中用戶興趣模型的建立研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期

8 曾瑛;李志杰;;Web挖掘工具與數(shù)字圖書(shū)館信息服務(wù)[J];高校圖書(shū)館工作;2006年04期

9 陳堯妃;倪應(yīng)華;陳煥通;;基于XML的Web挖掘框架設(shè)計(jì)[J];儀器儀表學(xué)報(bào);2006年S3期

10 李壘;李懷剛;;基于語(yǔ)義網(wǎng)絡(luò)的Web挖掘[J];廣西輕工業(yè);2008年02期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 何震瀛;李建中;王宏志;;XML數(shù)據(jù)的關(guān)系存儲(chǔ)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

2 郭志懋;周傲英;;XML數(shù)據(jù)的在線過(guò)濾[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

3 丁峰;王煜;姚延濤;沈鈞毅;;從XML模式到數(shù)據(jù)庫(kù)模式[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年

4 談子敬;施伯樂(lè);;XML導(dǎo)出數(shù)據(jù)庫(kù)表的實(shí)現(xiàn)與應(yīng)用[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

5 羅道峰;孟小峰;;一種面向XML文檔的基于角色的擴(kuò)展訪問(wèn)控制方法[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

6 鄭駿;王焱;錢(qián)衛(wèi)寧;周傲英;;XML相似相關(guān)結(jié)構(gòu)庫(kù)的構(gòu)造及其應(yīng)用[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

7 吳剛;于亞新;王國(guó)仁;于戈;;并行XML文檔數(shù)據(jù)分片技術(shù)研究[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

8 王靜;孟小峰;王珊;;以目標(biāo)節(jié)點(diǎn)為導(dǎo)向的XML路徑查詢處理[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年

9 王鵬飛;洪曉光;;基于XML大文檔的動(dòng)態(tài)索引[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

10 肖冰;廖湖聲;鄭玉明;;數(shù)據(jù)集成系統(tǒng)中的XML延遲處理技術(shù)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

1 北京郵電大學(xué) 張劍;XML的顯示——XSL樣式單(上)[N];計(jì)算機(jī)世界;2001年

2 北京郵電大學(xué) 張劍;XML技術(shù)預(yù)覽[N];計(jì)算機(jī)世界;2001年

3 王培森;從Web挖到競(jìng)爭(zhēng)情報(bào)[N];中國(guó)計(jì)算機(jī)報(bào);2003年

4 湖北 張海;編程日日帖[N];電腦報(bào);2005年

5 孤獨(dú)笑 烏咪;打造你的音樂(lè)萬(wàn)年歷(上)[N];電腦報(bào);2003年

6 北京郵電大學(xué) 張劍;XML技術(shù)入門(mén)[N];計(jì)算機(jī)世界;2001年

7 涂序彥 陳泓娟;在網(wǎng)絡(luò)信息海洋中淘金[N];計(jì)算機(jī)世界;2001年

8 ;Web收獲:吸納有用信息[N];計(jì)算機(jī)世界;2004年

9 廣東 麥國(guó)恒;淺談應(yīng)用程序XP風(fēng)格的實(shí)現(xiàn)[N];電腦報(bào);2003年

10 杭州商學(xué)院 徐建平;使用ASP訪問(wèn)XML文件[N];計(jì)算機(jī)世界;2001年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 沈潔;基于自動(dòng)機(jī)的XML數(shù)據(jù)過(guò)濾研究[D];哈爾濱工程大學(xué);2010年

2 葉曉峰;基于XML的沖壓模具設(shè)計(jì)知識(shí)重用技術(shù)研究[D];華中科技大學(xué);2010年

3 殷麗鳳;不完全信息環(huán)境下XML數(shù)據(jù)庫(kù)規(guī)范化問(wèn)題的研究[D];哈爾濱理工大學(xué);2009年

4 寧博;XML查詢模式匹配及文檔過(guò)濾技術(shù)研究[D];東北大學(xué);2009年

5 張晨靜;XML關(guān)鍵字過(guò)濾技術(shù)[D];復(fù)旦大學(xué);2011年

6 胡文生;XML數(shù)據(jù)流上基于窗口的查詢處理方法研究[D];武漢大學(xué);2012年

7 汪源;XML事務(wù)模型及并發(fā)控制研究[D];浙江大學(xué);2006年

8 朱曉冬;數(shù)字博物館關(guān)鍵技術(shù)研究[D];西北大學(xué);2004年

9 許建軍;對(duì)結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵字搜索研究[D];復(fù)旦大學(xué);2007年

10 雷向欣;XML索引和過(guò)濾查詢?nèi)舾申P(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2005年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 馬宏偉;基于XML的Web文本挖掘應(yīng)用研究[D];合肥工業(yè)大學(xué);2009年

2 史西兵;基于XML的Web信息抽取技術(shù)研究[D];西北大學(xué);2008年

3 張憶;基于XML的頻繁模式發(fā)現(xiàn)研究[D];合肥工業(yè)大學(xué);2006年

4 邱亞娜;信息化教育領(lǐng)域的Web信息抽取技術(shù)研究[D];天津師范大學(xué);2008年

5 孫麗;Web數(shù)據(jù)的挖掘方法研究[D];大慶石油學(xué)院;2004年

6 蒲秋梅;基于XML的Web數(shù)據(jù)挖掘技術(shù)的研究[D];武漢大學(xué);2004年

7 唐飛龍;Internet信息獲取技術(shù)的研究[D];合肥工業(yè)大學(xué);2002年

8 郭鵬;基于Web數(shù)據(jù)挖掘分類算法的個(gè)性化信息服務(wù)[D];太原理工大學(xué);2003年

9 牟剛;基于XML的Web信息挖掘技術(shù)的研究[D];重慶大學(xué);2004年

10 詹晶晶;基于WEB挖掘的網(wǎng)絡(luò)蜘蛛的研究與實(shí)現(xiàn)[D];廈門(mén)大學(xué);2007年



本文編號(hào):585592

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/585592.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7d3d9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
欧美精品一区二区三区白虎| 国产精品白丝久久av| 人妻熟女中文字幕在线| 人妻精品一区二区三区视频免精| 亚洲中文字幕三区四区| 国产一区二区三区口爆在线| 观看日韩精品在线视频| 国产一区日韩二区欧美| 欧美日本精品视频在线观看| 久久精品国产第一区二区三区| 日韩欧美国产三级在线观看| 成年人视频日本大香蕉久久| 熟妇人妻av中文字幕老熟妇| 欧美日韩亚洲国产精品| 91日韩欧美中文字幕| 99久久国产精品亚洲| 日韩一区二区三区四区乱码视频| 亚洲天堂精品在线视频| 欧美日韩免费观看视频| 国产日本欧美韩国在线| 国产不卡一区二区四区| 日韩一区中文免费视频| 日韩中文高清在线专区| 欧美一区二区不卡专区| 国产在线一区二区免费| 91精品国产品国语在线不卡| 91在线爽的少妇嗷嗷叫| 国产精品国产亚洲看不卡| 91欧美一区二区三区| 日本不卡在线视频中文国产| 99久久免费中文字幕| 深夜视频在线观看免费你懂| 国产午夜福利不卡片在线观看| 欧美日本道一区二区三区| 日本福利写真在线观看| 最好看的人妻中文字幕| 精品国产av一区二区三区不卡蜜 | 国产精品一区二区高潮| 蜜桃av人妻精品一区二区三区| 麻豆果冻传媒一二三区| 欧美日韩国产午夜福利|