基于同義實(shí)體識(shí)別的Web數(shù)據(jù)集成
本文關(guān)鍵詞:基于同義實(shí)體識(shí)別的Web數(shù)據(jù)集成
更多相關(guān)文章: Web信息集成 同義實(shí)體識(shí)別 相似度計(jì)算 搜索引擎
【摘要】:豐富的互聯(lián)網(wǎng)信息資源使得信息獲取變得容易,從Web信息中提取有價(jià)值的內(nèi)容,加工,處理、融合為高質(zhì)量的數(shù)據(jù)漸漸成為企業(yè)組建業(yè)務(wù)數(shù)據(jù)的重要方式。準(zhǔn)確有效地集成海量Web信息,也是Web信息動(dòng)態(tài)聚合、市場(chǎng)情報(bào)分析、輿情分析、商業(yè)智能等分析型應(yīng)用的重要基礎(chǔ)。但是Web數(shù)據(jù)存在多源、海量、異構(gòu)等問(wèn)題,為集成帶來(lái)了一定難度。而在Web數(shù)據(jù)集成過(guò)程中,由于數(shù)據(jù)來(lái)源不同、組織形式各異,因而存在了大量實(shí)體指代同一個(gè)實(shí)體的問(wèn)題,即同義實(shí)體問(wèn)題。同義實(shí)體問(wèn)題的存在造成了集成系統(tǒng)中數(shù)據(jù)的大量冗余,不僅影響了最終生成的服務(wù)數(shù)據(jù)質(zhì)量,同時(shí)還影響了用戶(hù)的良好體驗(yàn)。因此,如何減少數(shù)據(jù)集成中的同義實(shí)體問(wèn)題,是Web數(shù)據(jù)集成中面臨的一大考驗(yàn)。(1)本文介紹了數(shù)據(jù)集成的相關(guān)背景和技術(shù),重點(diǎn)包括:數(shù)據(jù)采集、數(shù)據(jù)抽取和數(shù)據(jù)融合。在數(shù)據(jù)融合部分著重介紹了同義實(shí)體識(shí)別領(lǐng)域的研究背景和研究現(xiàn)狀。(2)本文提出了一種基于搜索引擎的相似度計(jì)算算法,利用搜索引擎返回的頁(yè)面摘要信息(Snippet)計(jì)算命名實(shí)體之間的相似度,并通過(guò)相似度進(jìn)一步實(shí)現(xiàn)了基于搜索引擎的同義實(shí)體識(shí)別算法FSE。本文利用現(xiàn)實(shí)世界采集的命名實(shí)體數(shù)據(jù)進(jìn)行實(shí)驗(yàn),與VarientDice等同樣基于搜索引擎的相似度算法進(jìn)行了對(duì)比試驗(yàn)。經(jīng)過(guò)實(shí)驗(yàn),FSE算法的F值達(dá)到了93.59%,高于其他對(duì)比算法中最高的VarientDice算法1.8%,高于最低的Varientjaccard算法3.15%。(3)本文設(shè)計(jì)了一種基于同義實(shí)體識(shí)別的Web信息集成框架,并將基于搜索引擎的命名實(shí)體識(shí)別算法應(yīng)用到了Web數(shù)據(jù)集成框架當(dāng)中;诖丝蚣,開(kāi)發(fā)出了一套基于Web數(shù)據(jù)集成的農(nóng)業(yè)信息集成系統(tǒng)——慧農(nóng)信息系統(tǒng)。
【關(guān)鍵詞】:Web信息集成 同義實(shí)體識(shí)別 相似度計(jì)算 搜索引擎
【學(xué)位授予單位】:合肥工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 致謝7-8
- 摘要8-9
- ABSTRACT9-14
- 第一章 緒論14-19
- 1.1 課題研究背景14-15
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀15-18
- 1.2.1 數(shù)據(jù)集成概要15-17
- 1.2.2 同義實(shí)體識(shí)別概要17-18
- 1.3 本文主要研究?jī)?nèi)容18
- 1.4 論文結(jié)構(gòu)18-19
- 第二章 相關(guān)技術(shù)概述19-35
- 2.1 網(wǎng)頁(yè)采集技術(shù)19-24
- 2.1.1 網(wǎng)絡(luò)爬蟲(chóng)概要19-20
- 2.1.2 分布式爬蟲(chóng)Nutch20-24
- 2.2 信息抽取技術(shù)24-27
- 2.2.1 信息抽取技術(shù)概要24-25
- 2.2.2 信息抽取工具Jsoup25-27
- 2.3 數(shù)據(jù)清洗27-29
- 2.4 同義實(shí)體識(shí)別29-31
- 2.5 SOA與Web Service31-34
- 2.5.1 SOA31-32
- 2.5.2 Web Service32-34
- 2.6 本章小結(jié)34-35
- 第三章 基于搜索引擎的同義實(shí)體識(shí)別35-45
- 3.1 相關(guān)概念35-36
- 3.2 基于搜索引擎的相似度計(jì)算36-37
- 3.3 基于搜索引擎的同義實(shí)體識(shí)別37-39
- 3.4 實(shí)驗(yàn)及評(píng)價(jià)標(biāo)準(zhǔn)39-44
- 3.4.1 實(shí)驗(yàn)數(shù)據(jù)集39-40
- 3.4.2 評(píng)價(jià)標(biāo)準(zhǔn)40
- 3.4.3 實(shí)驗(yàn)結(jié)果40-42
- 3.4.4 討論42-44
- 3.5 本章小結(jié)44-45
- 第四章 基于同義實(shí)體識(shí)別的Web數(shù)據(jù)融合系統(tǒng)45-60
- 4.1 系統(tǒng)設(shè)計(jì)45-46
- 4.2 數(shù)據(jù)資源層46-51
- 4.2.1 數(shù)據(jù)采集模塊46-48
- 4.2.2 信息抽取模塊48-51
- 4.3 數(shù)據(jù)融合層51-57
- 4.3.1 數(shù)據(jù)預(yù)處理模塊51-55
- 4.3.2 數(shù)據(jù)融合模塊55-57
- 4.4 數(shù)據(jù)服務(wù)層57-59
- 4.5 本章小結(jié)59-60
- 第五章 慧農(nóng)農(nóng)數(shù)據(jù)集成系統(tǒng)60-75
- 5.1 系統(tǒng)架構(gòu)60-61
- 5.2 系統(tǒng)環(huán)境61-62
- 5.2.1 硬件環(huán)境61
- 5.2.2 存儲(chǔ)平臺(tái)層61-62
- 5.3 數(shù)據(jù)采集與結(jié)構(gòu)化62-67
- 5.3.1 基于Nutch的分布式爬蟲(chóng)集群62-63
- 5.3.2 數(shù)據(jù)建模63-66
- 5.3.3 數(shù)據(jù)抽取66-67
- 5.4 數(shù)據(jù)加工67-70
- 5.4.1 數(shù)據(jù)清洗67-68
- 5.4.2 數(shù)據(jù)融合68-69
- 5.4.3 數(shù)據(jù)統(tǒng)計(jì)與分析69-70
- 5.5 數(shù)據(jù)服務(wù)70-74
- 5.5.1 接口訪問(wèn)方式70-71
- 5.5.2 頁(yè)面訪問(wèn)方式71-74
- 5.6 本章小結(jié)74-75
- 第六章 總結(jié)與展望75-77
- 6.1 本文總結(jié)75
- 6.2 展望75-77
- 參考文獻(xiàn)77-81
- 攻讀碩士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況81-82
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 韓蕊;;大數(shù)據(jù)呼喚數(shù)據(jù)集成新思維[J];互聯(lián)網(wǎng)周刊;2013年22期
2 陳小慧;企業(yè)級(jí)工藝數(shù)據(jù)集成管理技術(shù)方案[J];機(jī)電信息;2001年10期
3 殷曉嵐,付遠(yuǎn)彬,李京;企業(yè)數(shù)據(jù)集成模式的研究[J];計(jì)算機(jī)工程與應(yīng)用;2002年12期
4 趙賽;陳松喬;鄧莎莎;;基于規(guī)則樹(shù)的Web數(shù)據(jù)集成包裝器的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年06期
5 潘曄;任廣偉;舒艷;;利用本體進(jìn)行Web數(shù)據(jù)集成[J];貴州工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年03期
6 唐桂芬;廖巍;陳犖;景寧;;面向地理數(shù)據(jù)服務(wù)的空間數(shù)據(jù)集成關(guān)鍵技術(shù)研究[J];計(jì)算機(jī)科學(xué);2007年09期
7 周冰;;調(diào)查顯示:數(shù)據(jù)集成獲中國(guó)企業(yè)認(rèn)同[J];信息化縱橫;2008年08期
8 董峰;李晉宏;;企業(yè)數(shù)據(jù)集成綜述[J];中國(guó)金屬通報(bào);2008年42期
9 韓明;;油田開(kāi)發(fā)數(shù)據(jù)綜合集成的研究[J];數(shù)字石油和化工;2009年07期
10 金芳;;基于虛擬化技術(shù)的高校數(shù)據(jù)集成[J];價(jià)值工程;2012年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 蔡彪;廖聞劍;彭艷兵;;Deep Web數(shù)據(jù)集成和關(guān)鍵技術(shù)綜述[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年
2 許國(guó)艷;王志堅(jiān);;基于主動(dòng)服務(wù)的領(lǐng)域數(shù)據(jù)集成研究[A];2008年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2008年
3 胥永康;吳志杰;席傳裕;岳筱玲;;基于數(shù)據(jù)拆分的數(shù)據(jù)集成技術(shù)研究[A];2005全國(guó)計(jì)算機(jī)程序設(shè)計(jì)類(lèi)課程教學(xué)研討會(huì)論文集[C];2005年
4 李宗華;肖道綱;彭明軍;;數(shù)字武漢空間基礎(chǔ)數(shù)據(jù)集成建庫(kù)及應(yīng)用[A];堅(jiān)持科學(xué)發(fā)展觀 推進(jìn)自主創(chuàng)新 促進(jìn)國(guó)家創(chuàng)新型城市建設(shè)——武漢市第二屆學(xué)術(shù)年會(huì)論文集[C];2006年
5 喬慧捷;趙海軍;紀(jì)力強(qiáng);;生物多樣性數(shù)據(jù)集成模式初探[A];第五屆全國(guó)生物多樣性保護(hù)與持續(xù)利用研討會(huì)論文摘要集[C];2002年
6 張壽明;張?jiān)粕?向風(fēng)紅;繆爾康;;異構(gòu)設(shè)備數(shù)據(jù)集成實(shí)踐[A];中國(guó)自動(dòng)化學(xué)會(huì)全國(guó)第九屆自動(dòng)化新技術(shù)學(xué)術(shù)交流會(huì)論文集[C];2004年
7 張德欽;饒克鋒;顧進(jìn)廣;;基于語(yǔ)義的工業(yè)聯(lián)合體數(shù)據(jù)集成機(jī)制[A];全國(guó)冶金自動(dòng)化信息網(wǎng)2014年會(huì)論文集[C];2014年
8 劉靖;劉江寧;;數(shù)據(jù)集成體系架構(gòu)及其實(shí)現(xiàn)框架研究[A];山東省計(jì)算機(jī)學(xué)會(huì)2005年信息技術(shù)與信息化研討會(huì)論文集(二)[C];2005年
9 李宗華;彭明軍;;規(guī)劃國(guó)土資源管理空間數(shù)據(jù)集成應(yīng)用與運(yùn)行機(jī)制探討[A];2004城市規(guī)劃年會(huì)論文集(下)[C];2004年
10 祝曉紅;劉煒;李俊麗;;用WPF進(jìn)行復(fù)雜數(shù)據(jù)集成的方法研究[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 于翔;集成即服務(wù):面向云的數(shù)據(jù)集成[N];網(wǎng)絡(luò)世界;2009年
2 鄒大斌;發(fā)揮數(shù)據(jù)的最大價(jià)值[N];計(jì)算機(jī)世界;2007年
3 于翔;誰(shuí)碾碎了數(shù)據(jù)?[N];網(wǎng)絡(luò)世界;2007年
4 本報(bào)記者 于翔;數(shù)據(jù)集成驅(qū)動(dòng)企業(yè)實(shí)時(shí)創(chuàng)新[N];網(wǎng)絡(luò)世界;2010年
5 本報(bào)記者 于翔;數(shù)據(jù)集成市場(chǎng)演繹“大國(guó)崛起”[N];網(wǎng)絡(luò)世界;2010年
6 本報(bào)記者 于翔;數(shù)據(jù)集成開(kāi)啟云征程[N];網(wǎng)絡(luò)世界;2010年
7 本報(bào)記者 于翔;數(shù)據(jù)集成進(jìn)入快速成長(zhǎng)期[N];網(wǎng)絡(luò)世界;2010年
8 于翔 王翔;收復(fù)數(shù)據(jù)孤島[N];網(wǎng)絡(luò)世界;2007年
9 朱文;CIO希望攻克數(shù)據(jù)質(zhì)量關(guān)[N];計(jì)算機(jī)世界;2008年
10 呂梁市煤炭設(shè)計(jì)研究院 張萍;淺析數(shù)據(jù)集成環(huán)境下煤炭企業(yè)管理信息系統(tǒng)的構(gòu)建[N];呂梁日?qǐng)?bào);2012年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 張燕;Web數(shù)據(jù)集成中實(shí)體演化與關(guān)聯(lián)問(wèn)題研究[D];山東大學(xué);2015年
2 鄂新華;面向服務(wù)的數(shù)據(jù)集成若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2015年
3 王欣;數(shù)據(jù)集成技術(shù)若干問(wèn)題的研究[D];上海交通大學(xué);2010年
4 張永新;面向Web數(shù)據(jù)集成的數(shù)據(jù)融合問(wèn)題研究[D];山東大學(xué);2012年
5 吳春明;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)及其在農(nóng)業(yè)領(lǐng)域的應(yīng)用[D];西南大學(xué);2011年
6 魏紅雨;基于4G地學(xué)空間數(shù)據(jù)集成關(guān)鍵技術(shù)研究[D];吉林大學(xué);2014年
7 曹順良;生物學(xué)數(shù)據(jù)集成若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2005年
8 周春英;超數(shù)據(jù)集成挖掘方法與技術(shù)研究[D];浙江大學(xué);2012年
9 陳義;面向數(shù)據(jù)集成的數(shù)據(jù)復(fù)制和查詢(xún)優(yōu)化[D];中國(guó)科學(xué)院研究生院(軟件研究所);2004年
10 劉杰;面向數(shù)據(jù)集成的數(shù)據(jù)清理關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 翟妍偉;基于聯(lián)邦的異構(gòu)數(shù)據(jù)集成與交換系統(tǒng)研究與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
2 賈存鑫;鏈接數(shù)據(jù)技術(shù)在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用技術(shù)研究[D];南京大學(xué);2015年
3 姜玉茹;變電站數(shù)據(jù)集成與智能化應(yīng)用研究[D];山東大學(xué);2015年
4 申亞鵬;基于用戶(hù)反饋的多源非結(jié)構(gòu)化數(shù)據(jù)集成研究[D];浙江大學(xué);2015年
5 李明;多元空間位置數(shù)據(jù)集成和服務(wù)方法研究[D];南京師范大學(xué);2015年
6 李莉;保障信息系統(tǒng)數(shù)據(jù)集成管理工具的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2014年
7 徐U嗞,
本文編號(hào):843092
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/843092.html