林業(yè)WEB黃頁信息整合中數(shù)據(jù)去重關(guān)鍵技術(shù)研究
本文選題:WEB信息整合 + 逐級聚類數(shù)據(jù)去重 ; 參考:《北京林業(yè)大學(xué)》2013年碩士論文
【摘要】:對互聯(lián)網(wǎng)中海量、異構(gòu)、動態(tài)、離散的WEB信息進行整合,是實現(xiàn)垂直搜索引擎,提供高效主題信息服務(wù)的基礎(chǔ)。林業(yè)WEB黃頁是重要的林業(yè)信息資源,整合Internet上不同站點的林業(yè)電子黃頁,形成全面而專業(yè)的林業(yè)WEB黃頁數(shù)據(jù)庫,為精準(zhǔn)搜索、查詢、對比乃至個性化服務(wù)提供數(shù)據(jù)支持,具有顯著的應(yīng)用價值。已有的研究已將不同林業(yè)站點中的林業(yè)黃頁數(shù)據(jù)進行了初步的整合,然而由于WEB數(shù)據(jù)更新與變化頻繁、輸入有誤等原因,整合信息中存在大量“臟數(shù)據(jù)”:包括異常數(shù)據(jù)、不完整數(shù)據(jù)和重復(fù)數(shù)據(jù)等,其中多數(shù)據(jù)源合并造成的重復(fù)數(shù)據(jù)是最關(guān)鍵的問題,因此數(shù)據(jù)去重成為一個研究的熱點。 本文首先介紹了數(shù)據(jù)去重的基本原理、常用算法,分析了其優(yōu)缺點,然后結(jié)合林業(yè)WEB黃頁的特點,重點提出了一種逐級聚類的數(shù)據(jù)去重方法,該方法首先通過關(guān)鍵屬性分割和Canopy聚類將大記錄集劃分成小記錄集,然后精確聚類重復(fù)記錄。在精確聚類時,本文提出了基于動態(tài)權(quán)重的模糊實體匹配策略,并對黃頁名稱的特殊性進行處理,提高去重準(zhǔn)確率。最后設(shè)計并實現(xiàn)了林業(yè)WEB黃頁數(shù)據(jù)去重系統(tǒng),并實驗驗證了所提方法在時間效率和準(zhǔn)確率上均優(yōu)于傳統(tǒng)算法,具有較強的實用性,能夠有效的解決林業(yè)WEB黃頁整合中的數(shù)據(jù)去重問題。
[Abstract]:The integration of mass , heterogeneous , dynamic and discrete WEB information in the Internet is the basis for realizing vertical search engine and providing efficient subject information service . The forestry WEB Yellow Pages is an important forestry information resource , which integrates the forestry electronic yellow pages of different sites on the Internet . It has significant application value .
This paper first introduces the basic principle of data de - duplication , commonly used arithmetic , analyzes its advantages and disadvantages , then combines the characteristics of forestry WEB yellow page , and puts forward a data de - duplication method based on dynamic weight . The method firstly designs and implements fuzzy entity matching strategy based on dynamic weight , and verifies the particularity of the yellow page name . Finally , the paper designs and implements the forestry WEB yellow page data deduplication system , and the experiment proves that the proposed method is superior to the traditional algorithm in time efficiency and accuracy , and has strong practicability and can effectively solve the data de - duplication problem in the forestry WEB yellow page integration .
【學(xué)位授予單位】:北京林業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 宋如順,姜乃松;基于Web的遠程考試系統(tǒng)設(shè)計與實現(xiàn)[J];計算機工程;1999年06期
2 王紅霞,姚家亮;利用ASP構(gòu)建新型信息系統(tǒng)的方法與實現(xiàn)[J];計算機應(yīng)用;1999年09期
3 鄧勁生,張銀福;面向?qū)ο蟮亩嗝襟w信息WEB發(fā)布[J];計算機應(yīng)用研究;1999年09期
4 刁興春,李赤紅;Intranet環(huán)境下事務(wù)處理的理論研究和實現(xiàn)[J];小型微型計算機系統(tǒng);1999年06期
5 高昆;基于ASP的WEB站點開發(fā)技術(shù)分析[J];北華大學(xué)學(xué)報(社會科學(xué)版);1999年05期
6 王清心,胡建華;經(jīng)貿(mào)數(shù)據(jù)庫的WEB集成發(fā)布[J];昆明理工大學(xué)學(xué)報;1999年02期
7 李晶,朱秋萍;Web頁制作中的動態(tài)表現(xiàn)技術(shù)[J];計算機工程;2000年06期
8 劉波,代亞非,杜躍進;遠程協(xié)同教學(xué)系統(tǒng)中課程搜索子系統(tǒng)設(shè)計[J];計算機應(yīng)用;2000年06期
9 武莊,劉友丹;基于Web的企業(yè)內(nèi)部質(zhì)量審核系統(tǒng)設(shè)計與實現(xiàn)[J];計算機應(yīng)用研究;2000年05期
10 梁開健,劉新民;基于ASP的圖書館Web數(shù)據(jù)庫開發(fā)[J];高校圖書館工作;2000年04期
相關(guān)會議論文 前10條
1 石晶;龔震宇;裘杭萍;;基于Web挖掘的個性化服務(wù)技術(shù)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年
2 李利波;劉明利;;一種改進的無回溯反向Web服務(wù)動態(tài)組合方法[A];2011年全國通信安全學(xué)術(shù)會議論文集[C];2011年
3 游爭光;劉建勛;唐明董;;分布式Web服務(wù)測試系統(tǒng)的設(shè)計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學(xué)會服務(wù)計算學(xué)術(shù)會議論文集[C];2011年
4 殷華蓓;李通;唐常杰;張?zhí)鞈c;左志松;;從Web文件中挖掘個性化導(dǎo)航知識[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2000年
5 ;基于廣義對話的Web用戶的聚類(英文)[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2000年
6 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七屆中國控制會議論文集[C];2008年
8 胡建強;周斌;尹剛;鄒鵬;;基于角色的Web服務(wù)訪問控制技術(shù)研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2003年
9 黃建波;丁揚;方芳;;基于代理服務(wù)器的Web加速的實現(xiàn)[A];2010通信理論與技術(shù)新發(fā)展——第十五屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2010年
10 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學(xué)會服務(wù)計算學(xué)術(shù)會議論文集[C];2011年
相關(guān)重要報紙文章 前10條
1 趙曉濤;Web安全 服務(wù)為王[N];網(wǎng)絡(luò)世界;2008年
2 本報記者 趙曉濤;Web安全:歷史的命題[N];網(wǎng)絡(luò)世界;2008年
3 彭敏;企業(yè)級Web2.0迎來應(yīng)用高潮[N];電腦商報;2009年
4 本報記者 毛江華;安啟華聯(lián)手賽門鐵克 掘金Web安全[N];計算機世界;2009年
5 閆冰;“推”出Web交付新天地[N];網(wǎng)絡(luò)世界;2009年
6 趙曉濤;中國成全球Web安全新看點[N];網(wǎng)絡(luò)世界;2009年
7 邊歆;動態(tài)阻斷Web2.0威脅[N];網(wǎng)絡(luò)世界;2009年
8 泰樂公司首席技術(shù)官兼執(zhí)行副總裁Vikram Saksena;學(xué)習(xí)Web 3.0 做聰明的“管道工”[N];通信產(chǎn)業(yè)報;2009年
9 ;Web2.0工具使用須謹(jǐn)慎[N];網(wǎng)絡(luò)世界;2009年
10 Anchiva中國區(qū)總經(jīng)理 李松;Web安全選型三個標(biāo)準(zhǔn)[N];網(wǎng)絡(luò)世界;2008年
相關(guān)博士學(xué)位論文 前10條
1 張建武;面向Web應(yīng)用的安全評測技術(shù)研究[D];北京郵電大學(xué);2012年
2 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年
3 魏登萍;語義Web服務(wù)發(fā)現(xiàn)中匹配策略的研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2011年
4 黃雪娟;語義Web服務(wù)及其合成方法的研究[D];武漢大學(xué);2009年
5 朱俊武;基于本體的Web服務(wù)語義支撐技術(shù)研究[D];南京航空航天大學(xué);2008年
6 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
7 楊卉;Web文本觀點挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年
8 王秀峰;Web導(dǎo)航中用戶認(rèn)知特征及行為研究[D];南京大學(xué);2013年
9 馬建斌;中文Web信息作者同一認(rèn)定技術(shù)研究[D];河北農(nóng)業(yè)大學(xué);2010年
10 陳世展;服務(wù)網(wǎng)絡(luò):基于語義和社會化關(guān)系的Web服務(wù)計算基礎(chǔ)設(shè)施[D];天津大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 唐黎;Deep Web頁面結(jié)構(gòu)分析與核心內(nèi)容提取研究[D];重慶大學(xué);2011年
2 吳新勇;基于需求群組的Web服務(wù)調(diào)度模型研究[D];上海交通大學(xué);2011年
3 徐衛(wèi);Web新聞熱點發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];華中科技大學(xué);2011年
4 姜本臣;基于嵌入式Web服務(wù)器應(yīng)用技術(shù)的研究[D];沈陽工業(yè)大學(xué);2012年
5 溫梨梨;基于零拷貝的Web服務(wù)器技術(shù)研究[D];中國海洋大學(xué);2011年
6 焦燕廷;一種基于領(lǐng)域本體的語義Web服務(wù)匹配和組合方法[D];山東科技大學(xué);2011年
7 黃亮;Web漏洞掃描系統(tǒng)中的智能爬蟲技術(shù)研究[D];杭州電子科技大學(xué);2012年
8 趙春娟;Web服務(wù)組合方法的研究與實現(xiàn)[D];天津理工大學(xué);2011年
9 任強;基于謂詞抽象與精化技術(shù)的Web服務(wù)驗證研究[D];蘇州大學(xué);2011年
10 侯曉帆;基于云計算的Web教育爬蟲[D];東北師范大學(xué);2011年
,本文編號:2089703
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2089703.html