林業(yè)WEB黃頁(yè)信息整合中數(shù)據(jù)去重關(guān)鍵技術(shù)研究
本文選題:WEB信息整合 + 逐級(jí)聚類(lèi)數(shù)據(jù)去重; 參考:《北京林業(yè)大學(xué)》2013年碩士論文
【摘要】:對(duì)互聯(lián)網(wǎng)中海量、異構(gòu)、動(dòng)態(tài)、離散的WEB信息進(jìn)行整合,是實(shí)現(xiàn)垂直搜索引擎,提供高效主題信息服務(wù)的基礎(chǔ)。林業(yè)WEB黃頁(yè)是重要的林業(yè)信息資源,整合Internet上不同站點(diǎn)的林業(yè)電子黃頁(yè),形成全面而專(zhuān)業(yè)的林業(yè)WEB黃頁(yè)數(shù)據(jù)庫(kù),為精準(zhǔn)搜索、查詢(xún)、對(duì)比乃至個(gè)性化服務(wù)提供數(shù)據(jù)支持,具有顯著的應(yīng)用價(jià)值。已有的研究已將不同林業(yè)站點(diǎn)中的林業(yè)黃頁(yè)數(shù)據(jù)進(jìn)行了初步的整合,然而由于WEB數(shù)據(jù)更新與變化頻繁、輸入有誤等原因,整合信息中存在大量“臟數(shù)據(jù)”:包括異常數(shù)據(jù)、不完整數(shù)據(jù)和重復(fù)數(shù)據(jù)等,其中多數(shù)據(jù)源合并造成的重復(fù)數(shù)據(jù)是最關(guān)鍵的問(wèn)題,因此數(shù)據(jù)去重成為一個(gè)研究的熱點(diǎn)。 本文首先介紹了數(shù)據(jù)去重的基本原理、常用算法,分析了其優(yōu)缺點(diǎn),然后結(jié)合林業(yè)WEB黃頁(yè)的特點(diǎn),重點(diǎn)提出了一種逐級(jí)聚類(lèi)的數(shù)據(jù)去重方法,該方法首先通過(guò)關(guān)鍵屬性分割和Canopy聚類(lèi)將大記錄集劃分成小記錄集,然后精確聚類(lèi)重復(fù)記錄。在精確聚類(lèi)時(shí),本文提出了基于動(dòng)態(tài)權(quán)重的模糊實(shí)體匹配策略,并對(duì)黃頁(yè)名稱(chēng)的特殊性進(jìn)行處理,提高去重準(zhǔn)確率。最后設(shè)計(jì)并實(shí)現(xiàn)了林業(yè)WEB黃頁(yè)數(shù)據(jù)去重系統(tǒng),并實(shí)驗(yàn)驗(yàn)證了所提方法在時(shí)間效率和準(zhǔn)確率上均優(yōu)于傳統(tǒng)算法,具有較強(qiáng)的實(shí)用性,能夠有效的解決林業(yè)WEB黃頁(yè)整合中的數(shù)據(jù)去重問(wèn)題。
[Abstract]:The integration of mass , heterogeneous , dynamic and discrete WEB information in the Internet is the basis for realizing vertical search engine and providing efficient subject information service . The forestry WEB Yellow Pages is an important forestry information resource , which integrates the forestry electronic yellow pages of different sites on the Internet . It has significant application value .
This paper first introduces the basic principle of data de - duplication , commonly used arithmetic , analyzes its advantages and disadvantages , then combines the characteristics of forestry WEB yellow page , and puts forward a data de - duplication method based on dynamic weight . The method firstly designs and implements fuzzy entity matching strategy based on dynamic weight , and verifies the particularity of the yellow page name . Finally , the paper designs and implements the forestry WEB yellow page data deduplication system , and the experiment proves that the proposed method is superior to the traditional algorithm in time efficiency and accuracy , and has strong practicability and can effectively solve the data de - duplication problem in the forestry WEB yellow page integration .
【學(xué)位授予單位】:北京林業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類(lèi)號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 宋如順,姜乃松;基于Web的遠(yuǎn)程考試系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;1999年06期
2 王紅霞,姚家亮;利用ASP構(gòu)建新型信息系統(tǒng)的方法與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;1999年09期
3 鄧勁生,張銀福;面向?qū)ο蟮亩嗝襟w信息WEB發(fā)布[J];計(jì)算機(jī)應(yīng)用研究;1999年09期
4 刁興春,李赤紅;Intranet環(huán)境下事務(wù)處理的理論研究和實(shí)現(xiàn)[J];小型微型計(jì)算機(jī)系統(tǒng);1999年06期
5 高昆;基于ASP的WEB站點(diǎn)開(kāi)發(fā)技術(shù)分析[J];北華大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);1999年05期
6 王清心,胡建華;經(jīng)貿(mào)數(shù)據(jù)庫(kù)的WEB集成發(fā)布[J];昆明理工大學(xué)學(xué)報(bào);1999年02期
7 李晶,朱秋萍;Web頁(yè)制作中的動(dòng)態(tài)表現(xiàn)技術(shù)[J];計(jì)算機(jī)工程;2000年06期
8 劉波,代亞非,杜躍進(jìn);遠(yuǎn)程協(xié)同教學(xué)系統(tǒng)中課程搜索子系統(tǒng)設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2000年06期
9 武莊,劉友丹;基于Web的企業(yè)內(nèi)部質(zhì)量審核系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2000年05期
10 梁開(kāi)健,劉新民;基于ASP的圖書(shū)館Web數(shù)據(jù)庫(kù)開(kāi)發(fā)[J];高校圖書(shū)館工作;2000年04期
相關(guān)會(huì)議論文 前10條
1 石晶;龔震宇;裘杭萍;;基于Web挖掘的個(gè)性化服務(wù)技術(shù)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
2 李利波;劉明利;;一種改進(jìn)的無(wú)回溯反向Web服務(wù)動(dòng)態(tài)組合方法[A];2011年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2011年
3 游爭(zhēng)光;劉建勛;唐明董;;分布式Web服務(wù)測(cè)試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年
4 殷華蓓;李通;唐常杰;張?zhí)鞈c;左志松;;從Web文件中挖掘個(gè)性化導(dǎo)航知識(shí)[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
5 ;基于廣義對(duì)話(huà)的Web用戶(hù)的聚類(lèi)(英文)[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
6 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
8 胡建強(qiáng);周斌;尹剛;鄒鵬;;基于角色的Web服務(wù)訪問(wèn)控制技術(shù)研究[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
9 黃建波;丁揚(yáng);方芳;;基于代理服務(wù)器的Web加速的實(shí)現(xiàn)[A];2010通信理論與技術(shù)新發(fā)展——第十五屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2010年
10 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年
相關(guān)重要報(bào)紙文章 前10條
1 趙曉濤;Web安全 服務(wù)為王[N];網(wǎng)絡(luò)世界;2008年
2 本報(bào)記者 趙曉濤;Web安全:歷史的命題[N];網(wǎng)絡(luò)世界;2008年
3 彭敏;企業(yè)級(jí)Web2.0迎來(lái)應(yīng)用高潮[N];電腦商報(bào);2009年
4 本報(bào)記者 毛江華;安啟華聯(lián)手賽門(mén)鐵克 掘金Web安全[N];計(jì)算機(jī)世界;2009年
5 閆冰;“推”出Web交付新天地[N];網(wǎng)絡(luò)世界;2009年
6 趙曉濤;中國(guó)成全球Web安全新看點(diǎn)[N];網(wǎng)絡(luò)世界;2009年
7 邊歆;動(dòng)態(tài)阻斷Web2.0威脅[N];網(wǎng)絡(luò)世界;2009年
8 泰樂(lè)公司首席技術(shù)官兼執(zhí)行副總裁Vikram Saksena;學(xué)習(xí)Web 3.0 做聰明的“管道工”[N];通信產(chǎn)業(yè)報(bào);2009年
9 ;Web2.0工具使用須謹(jǐn)慎[N];網(wǎng)絡(luò)世界;2009年
10 Anchiva中國(guó)區(qū)總經(jīng)理 李松;Web安全選型三個(gè)標(biāo)準(zhǔn)[N];網(wǎng)絡(luò)世界;2008年
相關(guān)博士學(xué)位論文 前10條
1 張建武;面向Web應(yīng)用的安全評(píng)測(cè)技術(shù)研究[D];北京郵電大學(xué);2012年
2 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年
3 魏登萍;語(yǔ)義Web服務(wù)發(fā)現(xiàn)中匹配策略的研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
4 黃雪娟;語(yǔ)義Web服務(wù)及其合成方法的研究[D];武漢大學(xué);2009年
5 朱俊武;基于本體的Web服務(wù)語(yǔ)義支撐技術(shù)研究[D];南京航空航天大學(xué);2008年
6 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
7 楊卉;Web文本觀點(diǎn)挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年
8 王秀峰;Web導(dǎo)航中用戶(hù)認(rèn)知特征及行為研究[D];南京大學(xué);2013年
9 馬建斌;中文Web信息作者同一認(rèn)定技術(shù)研究[D];河北農(nóng)業(yè)大學(xué);2010年
10 陳世展;服務(wù)網(wǎng)絡(luò):基于語(yǔ)義和社會(huì)化關(guān)系的Web服務(wù)計(jì)算基礎(chǔ)設(shè)施[D];天津大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 唐黎;Deep Web頁(yè)面結(jié)構(gòu)分析與核心內(nèi)容提取研究[D];重慶大學(xué);2011年
2 吳新勇;基于需求群組的Web服務(wù)調(diào)度模型研究[D];上海交通大學(xué);2011年
3 徐衛(wèi);Web新聞熱點(diǎn)發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年
4 姜本臣;基于嵌入式Web服務(wù)器應(yīng)用技術(shù)的研究[D];沈陽(yáng)工業(yè)大學(xué);2012年
5 溫梨梨;基于零拷貝的Web服務(wù)器技術(shù)研究[D];中國(guó)海洋大學(xué);2011年
6 焦燕廷;一種基于領(lǐng)域本體的語(yǔ)義Web服務(wù)匹配和組合方法[D];山東科技大學(xué);2011年
7 黃亮;Web漏洞掃描系統(tǒng)中的智能爬蟲(chóng)技術(shù)研究[D];杭州電子科技大學(xué);2012年
8 趙春娟;Web服務(wù)組合方法的研究與實(shí)現(xiàn)[D];天津理工大學(xué);2011年
9 任強(qiáng);基于謂詞抽象與精化技術(shù)的Web服務(wù)驗(yàn)證研究[D];蘇州大學(xué);2011年
10 侯曉帆;基于云計(jì)算的Web教育爬蟲(chóng)[D];東北師范大學(xué);2011年
,本文編號(hào):2089703
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2089703.html