林業(yè)WEB黃頁信息整合中數(shù)據(jù)去重關(guān)鍵技術(shù)研究

發(fā)布時間：2018-07-02 09:39

本文選題：WEB信息整合 + 逐級聚類數(shù)據(jù)去重　；參考：《北京林業(yè)大學(xué)》2013年碩士論文

【摘要】：對互聯(lián)網(wǎng)中海量、異構(gòu)、動態(tài)、離散的WEB信息進行整合,是實現(xiàn)垂直搜索引擎,提供高效主題信息服務(wù)的基礎(chǔ)。林業(yè)WEB黃頁是重要的林業(yè)信息資源,整合Internet上不同站點的林業(yè)電子黃頁,形成全面而專業(yè)的林業(yè)WEB黃頁數(shù)據(jù)庫,為精準(zhǔn)搜索、查詢、對比乃至個性化服務(wù)提供數(shù)據(jù)支持,具有顯著的應(yīng)用價值。已有的研究已將不同林業(yè)站點中的林業(yè)黃頁數(shù)據(jù)進行了初步的整合,然而由于WEB數(shù)據(jù)更新與變化頻繁、輸入有誤等原因,整合信息中存在大量“臟數(shù)據(jù)”：包括異常數(shù)據(jù)、不完整數(shù)據(jù)和重復(fù)數(shù)據(jù)等,其中多數(shù)據(jù)源合并造成的重復(fù)數(shù)據(jù)是最關(guān)鍵的問題,因此數(shù)據(jù)去重成為一個研究的熱點。本文首先介紹了數(shù)據(jù)去重的基本原理、常用算法,分析了其優(yōu)缺點,然后結(jié)合林業(yè)WEB黃頁的特點,重點提出了一種逐級聚類的數(shù)據(jù)去重方法,該方法首先通過關(guān)鍵屬性分割和Canopy聚類將大記錄集劃分成小記錄集,然后精確聚類重復(fù)記錄。在精確聚類時,本文提出了基于動態(tài)權(quán)重的模糊實體匹配策略,并對黃頁名稱的特殊性進行處理,提高去重準(zhǔn)確率。最后設(shè)計并實現(xiàn)了林業(yè)WEB黃頁數(shù)據(jù)去重系統(tǒng),并實驗驗證了所提方法在時間效率和準(zhǔn)確率上均優(yōu)于傳統(tǒng)算法,具有較強的實用性,能夠有效的解決林業(yè)WEB黃頁整合中的數(shù)據(jù)去重問題。
[Abstract]:The integration of mass , heterogeneous , dynamic and discrete WEB information in the Internet is the basis for realizing vertical search engine and providing efficient subject information service . The forestry WEB Yellow Pages is an important forestry information resource , which integrates the forestry electronic yellow pages of different sites on the Internet . It has significant application value .

This paper first introduces the basic principle of data de - duplication , commonly used arithmetic , analyzes its advantages and disadvantages , then combines the characteristics of forestry WEB yellow page , and puts forward a data de - duplication method based on dynamic weight . The method firstly designs and implements fuzzy entity matching strategy based on dynamic weight , and verifies the particularity of the yellow page name . Finally , the paper designs and implements the forestry WEB yellow page data deduplication system , and the experiment proves that the proposed method is superior to the traditional algorithm in time efficiency and accuracy , and has strong practicability and can effectively solve the data de - duplication problem in the forestry WEB yellow page integration .
【學(xué)位授予單位】：北京林業(yè)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2013
【分類號】：TP391.1

【相似文獻】

相關(guān)期刊論文前10條

1 宋如順,姜乃松;基于Web的遠程考試系統(tǒng)設(shè)計與實現(xiàn)[J];計算機工程;1999年06期

2 王紅霞,姚家亮;利用ASP構(gòu)建新型信息系統(tǒng)的方法與實現(xiàn)[J];計算機應(yīng)用;1999年09期

3 鄧勁生,張銀福;面向?qū)ο蟮亩嗝襟w信息WEB發(fā)布[J];計算機應(yīng)用研究;1999年09期

4 刁興春,李赤紅;Intranet環(huán)境下事務(wù)處理的理論研究和實現(xiàn)[J];小型微型計算機系統(tǒng);1999年06期

5 高昆;基于ASP的WEB站點開發(fā)技術(shù)分析[J];北華大學(xué)學(xué)報(社會科學(xué)版);1999年05期

6 王清心,胡建華;經(jīng)貿(mào)數(shù)據(jù)庫的WEB集成發(fā)布[J];昆明理工大學(xué)學(xué)報;1999年02期

7 李晶,朱秋萍;Web頁制作中的動態(tài)表現(xiàn)技術(shù)[J];計算機工程;2000年06期

8 劉波,代亞非,杜躍進;遠程協(xié)同教學(xué)系統(tǒng)中課程搜索子系統(tǒng)設(shè)計[J];計算機應(yīng)用;2000年06期

9 武莊,劉友丹;基于Web的企業(yè)內(nèi)部質(zhì)量審核系統(tǒng)設(shè)計與實現(xiàn)[J];計算機應(yīng)用研究;2000年05期

10 梁開健,劉新民;基于ASP的圖書館Web數(shù)據(jù)庫開發(fā)[J];高校圖書館工作;2000年04期

相關(guān)會議論文前10條

1 石晶;龔震宇;裘杭萍;;基于Web挖掘的個性化服務(wù)技術(shù)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集（技術(shù)報告篇）[C];2002年

2 李利波;劉明利;;一種改進的無回溯反向Web服務(wù)動態(tài)組合方法[A];2011年全國通信安全學(xué)術(shù)會議論文集[C];2011年

3 游爭光;劉建勛;唐明董;;分布式Web服務(wù)測試系統(tǒng)的設(shè)計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學(xué)會服務(wù)計算學(xué)術(shù)會議論文集[C];2011年

4 殷華蓓;李通;唐常杰;張?zhí)鞈c;左志松;;從Web文件中挖掘個性化導(dǎo)航知識[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集（研究報告篇）[C];2000年

5 ;基于廣義對話的Web用戶的聚類(英文)[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集（研究報告篇）[C];2000年

6 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集（研究報告篇）[C];2001年

7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七屆中國控制會議論文集[C];2008年

8 胡建強;周斌;尹剛;鄒鵬;;基于角色的Web服務(wù)訪問控制技術(shù)研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集（技術(shù)報告篇）[C];2003年

9 黃建波;丁揚;方芳;;基于代理服務(wù)器的Web加速的實現(xiàn)[A];2010通信理論與技術(shù)新發(fā)展——第十五屆全國青年通信學(xué)術(shù)會議論文集（上冊）[C];2010年

10 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學(xué)會服務(wù)計算學(xué)術(shù)會議論文集[C];2011年

相關(guān)重要報紙文章前10條

1 趙曉濤;Web安全服務(wù)為王[N];網(wǎng)絡(luò)世界;2008年

2 本報記者趙曉濤;Web安全：歷史的命題[N];網(wǎng)絡(luò)世界;2008年

3 彭敏;企業(yè)級Web2.0迎來應(yīng)用高潮[N];電腦商報;2009年

4 本報記者毛江華;安啟華聯(lián)手賽門鐵克掘金Web安全[N];計算機世界;2009年

5 閆冰;“推”出Web交付新天地[N];網(wǎng)絡(luò)世界;2009年

6 趙曉濤;中國成全球Web安全新看點[N];網(wǎng)絡(luò)世界;2009年

7 邊歆;動態(tài)阻斷Web2.0威脅[N];網(wǎng)絡(luò)世界;2009年

8 泰樂公司首席技術(shù)官兼執(zhí)行副總裁Vikram Saksena;學(xué)習(xí)Web 3.0 做聰明的“管道工”[N];通信產(chǎn)業(yè)報;2009年

9 ;Web2.0工具使用須謹(jǐn)慎[N];網(wǎng)絡(luò)世界;2009年

10 Anchiva中國區(qū)總經(jīng)理李松;Web安全選型三個標(biāo)準(zhǔn)[N];網(wǎng)絡(luò)世界;2008年

相關(guān)博士學(xué)位論文前10條

1 張建武;面向Web應(yīng)用的安全評測技術(shù)研究[D];北京郵電大學(xué);2012年

2 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年

3 魏登萍;語義Web服務(wù)發(fā)現(xiàn)中匹配策略的研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2011年

4 黃雪娟;語義Web服務(wù)及其合成方法的研究[D];武漢大學(xué);2009年

5 朱俊武;基于本體的Web服務(wù)語義支撐技術(shù)研究[D];南京航空航天大學(xué);2008年

6 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年

7 楊卉;Web文本觀點挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年

8 王秀峰;Web導(dǎo)航中用戶認(rèn)知特征及行為研究[D];南京大學(xué);2013年

9 馬建斌;中文Web信息作者同一認(rèn)定技術(shù)研究[D];河北農(nóng)業(yè)大學(xué);2010年

10 陳世展;服務(wù)網(wǎng)絡(luò)：基于語義和社會化關(guān)系的Web服務(wù)計算基礎(chǔ)設(shè)施[D];天津大學(xué);2010年

相關(guān)碩士學(xué)位論文前10條

1 唐黎;Deep Web頁面結(jié)構(gòu)分析與核心內(nèi)容提取研究[D];重慶大學(xué);2011年

2 吳新勇;基于需求群組的Web服務(wù)調(diào)度模型研究[D];上海交通大學(xué);2011年

3 徐衛(wèi);Web新聞熱點發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];華中科技大學(xué);2011年

4 姜本臣;基于嵌入式Web服務(wù)器應(yīng)用技術(shù)的研究[D];沈陽工業(yè)大學(xué);2012年

5 溫梨梨;基于零拷貝的Web服務(wù)器技術(shù)研究[D];中國海洋大學(xué);2011年

6 焦燕廷;一種基于領(lǐng)域本體的語義Web服務(wù)匹配和組合方法[D];山東科技大學(xué);2011年

7 黃亮;Web漏洞掃描系統(tǒng)中的智能爬蟲技術(shù)研究[D];杭州電子科技大學(xué);2012年

8 趙春娟;Web服務(wù)組合方法的研究與實現(xiàn)[D];天津理工大學(xué);2011年

9 任強;基于謂詞抽象與精化技術(shù)的Web服務(wù)驗證研究[D];蘇州大學(xué);2011年

10 侯曉帆;基于云計算的Web教育爬蟲[D];東北師范大學(xué);2011年

，

本文編號：2089703

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2089703.html

上一篇：引擎營銷對教育網(wǎng)站的推廣及意義分析
下一篇：基于互聯(lián)網(wǎng)的元搜索引擎中領(lǐng)域搜索模型的設(shè)計

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

林業(yè)WEB黃頁信息整合中數(shù)據(jù)去重關(guān)鍵技術(shù)研究