天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于重復模式的Web數(shù)據(jù)抽取與集成應用

發(fā)布時間:2020-01-17 18:13
【摘要】:信息時代,Internet已經(jīng)成為人們獲取信息的重要途徑,而基于關鍵字檢索的Internet搜索引擎又是人們從互聯(lián)網(wǎng)上查找信息的主要方法。從互聯(lián)網(wǎng)獲取信息的主要局限性在于,在互聯(lián)網(wǎng)海量的Web頁面中很難定位特定的知識;而搜索引擎又很容易將所需知識淹沒在大量的低相關度,甚至無關網(wǎng)頁中。另一方面隨著信息技術的進步和人們的實際需要,涌現(xiàn)出了一些全新的基于Web的應用,例如監(jiān)控股票市場的實時行情、各個電子商務網(wǎng)站的商品價格比較等等。僅憑傳統(tǒng)搜索引擎技術和Web查詢技術無法真正滿足這些新興的需求。與信息檢索技術不同的是,數(shù)據(jù)抽取技術更側(cè)重于從Web文檔集合中發(fā)現(xiàn)相關聯(lián)的文檔,并從中抽取出用戶感興趣的信息,即將HTML等半結(jié)構化的數(shù)據(jù)轉(zhuǎn)換成為結(jié)構化的數(shù)據(jù)。 Web數(shù)據(jù)庫的廣泛使用使得大量高質(zhì)量的信息無法被傳統(tǒng)的搜索引擎索搜索到。這種基于數(shù)據(jù)庫的應用被稱之為Deep Web。Web數(shù)據(jù)庫依據(jù)用戶特定的查詢要求或條件動態(tài)的生成Web頁而,即查詢相關Web頁面中的數(shù)據(jù)記錄之間具有極高的代碼結(jié)構相似性,也就是說Web數(shù)據(jù)記錄對應的DOM子樹之間自然也就具有很高的結(jié)構相似性。 本文從分析Web文檔與DOM樹的對應關系入手,提出了一種基于重復模式的高效Web自動抽取算法——DES算法,同時利用集成工具ODI進行數(shù)據(jù)集成,獲得可以直接被其它的應用程序利用結(jié)構化數(shù)據(jù),進一步完成信息檢索、數(shù)據(jù)挖掘、機器翻譯、文本摘要等后續(xù)Web信息處理。HTML對應的DOM樹是該方法的Web數(shù)據(jù)結(jié)構化和分析抽取的基礎。該抽取算法首先通過比較同一模板的兩個樣本網(wǎng)頁的內(nèi)容相似度,對DOM樹進行裁剪,準確定位待抽取數(shù)據(jù)區(qū)域;其次通過TOP-DOWN樹匹配算法進行樹的結(jié)構相似件比較,發(fā)掘數(shù)據(jù)區(qū)域中多條數(shù)據(jù)記錄的重復模式,得出數(shù)據(jù)記錄的粒度,進而生成抽取規(guī)則。從而實現(xiàn)對DOM樹中的數(shù)據(jù)記錄的發(fā)現(xiàn)及抽取。 最后論文應川基于相似性比較的方法對原型系統(tǒng)進行了實現(xiàn)。實驗表明,該算法對于各類動態(tài)Web網(wǎng)頁的信息抽取有著很好的效果。
【學位授予單位】:南京郵電大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP393.09

【相似文獻】

相關期刊論文 前10條

1 趙麗娜;周吉順;;基于WEB的高校網(wǎng)上選課系統(tǒng)的設計與實現(xiàn)[J];電腦知識與技術;2011年18期

2 米新英;;基于Web的通用商品報價系統(tǒng)的研究與實現(xiàn)[J];北華航天工業(yè)學院學報;2011年03期

3 朱啟英;李明霞;穆玉明;張源明;;基于WEB的考試系統(tǒng)在醫(yī)學遠程教育中的應用[J];中國高等醫(yī)學教育;2011年06期

4 段靜波;潘惠蘋;;基于WEB的學院教務管理系統(tǒng)設計與應用[J];電腦知識與技術;2011年17期

5 范毅君;馬永威;;淺談門戶網(wǎng)站的設計與在油田中的應用[J];中國石油和化工標準與質(zhì)量;2011年07期

6 潘生;;基于WEB的人力資源管理專業(yè)親驗式教學資源庫系統(tǒng)設計[J];電腦知識與技術;2011年23期

7 杜婷;陶克斌;夏勤;;基于Web的無刷新即時通訊設計與實現(xiàn)[J];重慶科技學院學報(自然科學版);2011年04期

8 王玉華;;Unix平臺下的數(shù)據(jù)庫查詢開發(fā)工具(Web-DTools)的設計與實現(xiàn)[J];信息與電腦(理論版);2011年06期

9 張愛軍;;電子商務技術的創(chuàng)新發(fā)展趨勢[J];電腦知識與技術;2011年26期

10 鐘壽福;吳偉信;;中學研究性學習網(wǎng)絡支撐平臺的設計與實現(xiàn)[J];福建電腦;2011年07期

相關會議論文 前10條

1 石晶;龔震宇;裘杭萍;;基于Web挖掘的個性化服務技術[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年

2 李利波;劉明利;;一種改進的無回溯反向Web服務動態(tài)組合方法[A];2011年全國通信安全學術會議論文集[C];2011年

3 游爭光;劉建勛;唐明董;;分布式Web服務測試系統(tǒng)的設計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學會服務計算學術會議論文集[C];2011年

4 殷華蓓;李通;唐常杰;張?zhí)鞈c;左志松;;從Web文件中挖掘個性化導航知識[A];第十七屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2000年

5 ;基于廣義對話的Web用戶的聚類(英文)[A];第十七屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2000年

6 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2001年

7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七屆中國控制會議論文集[C];2008年

8 王海燕;谷明哲;王靜;孟小峰;;基于預定義模式的Web信息抽取[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2001年

9 胡建強;周斌;尹剛;鄒鵬;;基于角色的Web服務訪問控制技術研究[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2003年

10 黃建波;丁揚;方芳;;基于代理服務器的Web加速的實現(xiàn)[A];2010通信理論與技術新發(fā)展——第十五屆全國青年通信學術會議論文集(上冊)[C];2010年

相關重要報紙文章 前10條

1 趙曉濤;Web安全 服務為王[N];網(wǎng)絡世界;2008年

2 本報特約撰稿 張娟;用Web 2.0提升知識管理效率[N];計算機世界;2008年

3 厲民;金融風暴沖擊Web2.0產(chǎn)業(yè)[N];人民郵電;2008年

4 電腦商報記者 周雪;Web安全市場須冷卻慎行[N];電腦商報;2008年

5 郭川;Web2.0:新花樣層出不窮[N];人民郵電;2008年

6 本報記者 趙曉濤;Web安全:歷史的命題[N];網(wǎng)絡世界;2008年

7 本報記者 李飛虎;Web 2.0[N];中國計算機報;2008年

8 彭敏;企業(yè)級Web2.0迎來應用高潮[N];電腦商報;2009年

9 商報記者 吳辰光;Web2.0凸顯空洞概念[N];北京商報;2009年

10 本報記者 毛江華;安啟華聯(lián)手賽門鐵克 掘金Web安全[N];計算機世界;2009年

相關博士學位論文 前10條

1 丁艷輝;面向Web數(shù)據(jù)集成的數(shù)據(jù)抽取問題研究[D];山東大學;2010年

2 聶鐵錚;Deep Web中Web數(shù)據(jù)庫集成關鍵技術的研究[D];東北大學;2009年

3 張建武;面向Web應用的安全評測技術研究[D];北京郵電大學;2012年

4 朱俊武;基于本體的Web服務語義支撐技術研究[D];南京航空航天大學;2008年

5 李常寶;基于索引的web服務發(fā)現(xiàn)研究[D];北京郵電大學;2011年

6 魏登萍;語義Web服務發(fā)現(xiàn)中匹配策略的研究與實現(xiàn)[D];國防科學技術大學;2011年

7 許笑;分布式Web信息采集關鍵技術研究[D];哈爾濱工業(yè)大學;2011年

8 楊卉;Web文本觀點挖掘及隱含情感傾向的研究[D];吉林大學;2011年

9 馬建斌;中文Web信息作者同一認定技術研究[D];河北農(nóng)業(yè)大學;2010年

10 陳世展;服務網(wǎng)絡:基于語義和社會化關系的Web服務計算基礎設施[D];天津大學;2010年

相關碩士學位論文 前10條

1 徐晴;Web數(shù)據(jù)抽取技術及應用[D];華東理工大學;2012年

2 吳俊霖;基于半自動化WEB數(shù)據(jù)抽取器的信息集成研究[D];西南大學;2010年

3 唐黎;Deep Web頁面結(jié)構分析與核心內(nèi)容提取研究[D];重慶大學;2011年

4 吳新勇;基于需求群組的Web服務調(diào)度模型研究[D];上海交通大學;2011年

5 徐衛(wèi);Web新聞熱點發(fā)現(xiàn)系統(tǒng)的設計與實現(xiàn)[D];華中科技大學;2011年

6 姜本臣;基于嵌入式Web服務器應用技術的研究[D];沈陽工業(yè)大學;2012年

7 溫梨梨;基于零拷貝的Web服務器技術研究[D];中國海洋大學;2011年

8 焦燕廷;一種基于領域本體的語義Web服務匹配和組合方法[D];山東科技大學;2011年

9 黃亮;Web漏洞掃描系統(tǒng)中的智能爬蟲技術研究[D];杭州電子科技大學;2012年

10 陳洪平;面向Deep Web的數(shù)據(jù)抽取與語義標注技術研究[D];蘇州大學;2010年

,

本文編號:2570704

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2570704.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶09390***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
亚洲熟女精品一区二区成人| 日韩亚洲精品国产第二页| 日本高清不卡一二三区| 国产美女精品午夜福利视频| 日韩精品免费一区二区三区| 欧美性高清一区二区三区视频| 国产又大又硬又粗又湿| 我要看日本黄色小视频| 黑鬼糟蹋少妇资源在线观看| 亚洲一区二区精品福利| 欧美日韩在线视频一区| 欧美国产日产综合精品| 中文字幕日韩无套内射| 成人精品欧美一级乱黄| 在线中文字幕亚洲欧美一区| 亚洲国产欧美久久精品| 亚洲精品成人福利在线| 欧美一级片日韩一级片| 好吊日在线观看免费视频| 日本高清一区免费不卡| 中文字幕精品少妇人妻| 五月综合婷婷在线伊人| 亚洲国产av精品一区二区| 亚洲精品国男人在线视频 | 少妇肥臀一区二区三区| 黑人粗大一区二区三区| 中文字幕人妻一区二区免费| 麻豆剧果冻传媒一二三区| 亚洲视频在线观看免费中文字幕| 国产日本欧美特黄在线观看| 国产精品免费视频专区| 国产成人精品视频一区二区三区 | 男人和女人黄 色大片| 国产精品一区二区三区日韩av| 日本视频在线观看不卡| 国产精品福利精品福利| 91久久精品国产成人| 伊人天堂午夜精品草草网| 日韩亚洲精品国产第二页| 午夜免费精品视频在线看| 东京热男人的天堂一二三区 |