天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 航空航天論文 >

多源異構(gòu)民航旅客服務(wù)數(shù)據(jù)集成方法研究

發(fā)布時(shí)間:2020-11-08 08:32
   隨著中國民航業(yè)的蓬勃發(fā)展,越來越多的旅客選擇乘飛機(jī)出行,各大航空公司以及旅行網(wǎng)站每天都在產(chǎn)生海量的民航旅客服務(wù)數(shù)據(jù)。但是這些數(shù)據(jù)來源不同,存在模式異構(gòu)和數(shù)據(jù)冗余等問題,嚴(yán)重影響了數(shù)據(jù)的有效利用。數(shù)據(jù)集成正是解決這類問題的關(guān)鍵方法,因此,研究數(shù)據(jù)集成方法來消除多源異構(gòu)民航旅客服務(wù)數(shù)據(jù)的模式?jīng)_突和數(shù)據(jù)冗余從而提高數(shù)據(jù)質(zhì)量意義重大。首先,針對模式異構(gòu)問題,提出了一種基于SimHash和混合相似度的多模式匹配方法。該方法基于PMI-SimHash算法構(gòu)造屬性列的簽名來表示屬性特征以降低特征維度,然后在對屬性聚類分析的基礎(chǔ)上計(jì)算屬性的混合相似度并構(gòu)建屬性映射圖來展示屬性間的匹配關(guān)系。其次,針對數(shù)據(jù)冗余問題,提出一種面向?qū)嶓w匹配的無監(jiān)督自學(xué)習(xí)方法。該方法通過局部敏感性哈希算法對多源數(shù)據(jù)進(jìn)行分塊處理,將特征相似的記錄劃分到相同塊中,減少了候選匹配對的生成數(shù)量。然后基于無監(jiān)督種子挑選算法來選擇訓(xùn)練集并提出基于RVM的自學(xué)習(xí)算法生成有標(biāo)簽的實(shí)體數(shù)據(jù)集,避免了人工標(biāo)注數(shù)據(jù)的額外成本。最后,通過在真實(shí)的多源異構(gòu)民航旅客服務(wù)數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),證明了本文方法具有可行性,為解決多源異構(gòu)民航旅客服務(wù)數(shù)據(jù)集成中的模式?jīng)_突和數(shù)據(jù)冗余問題提供高效、可擴(kuò)展的解決方案。
【學(xué)位單位】:中國民航大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:V354
【部分圖文】:

流程圖,模式匹配,流程圖


通過給定的模式匹配算法 match 得出的匹配結(jié)果。例如表 2.3 表示兩個(gè)民航旅客購票記錄表模式 PR 和 PassagerRecord 的部分信息。其中屬性 PR.tk_no、PR.orgn_city、PR.desn_city 分 別 和 PassagerRecord.TICKET_NO 、 PassagerRecord.origin 、PassagerRecord.destination 存在映射關(guān)系。通過匹配算法 match 處理后,匹配結(jié)果 M 可以表示為 PR.tk_no=PassagerRecord.TICKET_NO,PR.orgn_city=PassagerRecord.origin,PR.desn_city=PassagerRecord.destination。2. 模式匹配流程多源異構(gòu)數(shù)據(jù)的模式具有異構(gòu)性,在對其進(jìn)行模式匹配時(shí)根據(jù)處理的步驟可以得出一個(gè)完整的模式匹配流程,如圖 2-1 所示。

流程圖,實(shí)體,流程,匹配算法


圖 2-2 實(shí)體匹配流程) 匹配處理階段。該階段主要通過實(shí)體匹配算法來判斷候選匹配集中的,傳統(tǒng)的實(shí)體匹配算法大多都基于機(jī)器學(xué)習(xí)算法。雖然已有的算法在匹達(dá)到一定的實(shí)用效果,但是實(shí)體匹配效率卻隨著數(shù)據(jù)量的增長而降低。匹配算法進(jìn)行實(shí)體匹配時(shí)需要構(gòu)造候選匹配集,該集合是通過對多源數(shù)積得出的結(jié)果集。例如,兩個(gè)待匹配數(shù)據(jù)源 T 和 S,其中 T 中包含 M 條 N 條記錄,那么由 T 和 S 中的記錄通過笛卡爾積操作可以得到包含M ×選匹配集。然而面對海量的多源數(shù)據(jù)集時(shí),通過笛卡爾積操作生成的結(jié)配時(shí)間開銷是不可預(yù)估的。因此,需要對現(xiàn)有的實(shí)體匹配算法進(jìn)行優(yōu)化間復(fù)雜度。目前,主流的用于優(yōu)化實(shí)體匹配的算法有實(shí)體分塊算法[41-42],此類算法主要是通過減少候選匹配集中記錄對的數(shù)量,以達(dá)到降低匹的目的。體分塊算法的原理是將匹配概率較大數(shù)據(jù)記錄分配到相同的實(shí)體塊中,

多模式匹配,方法流程


最后輸出屬性映射圖 G(R,E)(17-24 行)算法結(jié)束。最后相互匹配的屬性以邊的形式連接,而誤匹配的屬性以孤立點(diǎn)的形式存在。屬性之間的關(guān)系以圖的形式的準(zhǔn)確的表示出來。綜上所述,基于SimHash和混合相似度的多模式匹配方法的處理流程如圖3-2所示。
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 薛堯予;王建林;趙利強(qiáng);;分布式過程實(shí)時(shí)數(shù)據(jù)集成方法及其實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2010年03期

2 馮勇;王明玉;;基于語義的輕量級數(shù)據(jù)集成方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年01期

3 王磊;趙磊;鄭寶玉;;結(jié)合樸素貝葉斯和歐氏距離的二類非均衡數(shù)據(jù)集成方法[J];信號處理;2017年04期

4 周劍;朱耀琴;唐衛(wèi)清;;面向復(fù)雜產(chǎn)品協(xié)同開發(fā)的數(shù)據(jù)集成方法研究[J];計(jì)算機(jī)科學(xué);2009年12期

5 池斌;李軍生;邸凱;王海濤;;基于中間釋義庫的數(shù)據(jù)集成方法研究[J];價(jià)值工程;2014年34期

6 李兵,何克清,肖衛(wèi)軍,李瑞軒;CAX—一種有效的數(shù)據(jù)集成方法[J];小型微型計(jì)算機(jī)系統(tǒng);2003年08期

7 張忠平;欒建鋒;王昆波;;網(wǎng)格環(huán)境下基于P2P的數(shù)據(jù)集成方法[J];計(jì)算機(jī)工程;2009年12期

8 周海鵬;張璟;李軍懷;;信息系統(tǒng)中的數(shù)據(jù)集成方法研究與應(yīng)用[J];微電子學(xué)與計(jì)算機(jī);2008年05期

9 崔偉寧;陳頌;金傳洋;畢明光;;基于實(shí)體資源的數(shù)據(jù)集成方法研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年08期

10 郎炯;劉宴兵;熊仕勇;;基于SOA軟件架構(gòu)的數(shù)據(jù)集成方法[J];計(jì)算機(jī)應(yīng)用;2010年09期


相關(guān)博士學(xué)位論文 前1條

1 謝興生;基于數(shù)據(jù)服務(wù)匹配的數(shù)據(jù)集成方法研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2007年


相關(guān)碩士學(xué)位論文 前10條

1 胡煒;多源異構(gòu)民航旅客服務(wù)數(shù)據(jù)集成方法研究[D];中國民航大學(xué);2019年

2 何新;生產(chǎn)裝置異構(gòu)實(shí)時(shí)數(shù)據(jù)集成方法及應(yīng)用研究[D];北京化工大學(xué);2007年

3 韓松;基于本體的數(shù)據(jù)集成方法及應(yīng)用[D];曲阜師范大學(xué);2010年

4 宋春蕾;基于信息網(wǎng)格的數(shù)據(jù)集成方法的研究[D];大連海事大學(xué);2006年

5 王明玉;基于語義的輕量級數(shù)據(jù)集成方法研究[D];遼寧大學(xué);2011年

6 崔立成;基于Web服務(wù)的多PDM系統(tǒng)數(shù)據(jù)集成方法研究[D];大連海事大學(xué);2008年

7 張凱選;基于地質(zhì)災(zāi)害的異源空間數(shù)據(jù)集成方法研究[D];遼寧工程技術(shù)大學(xué);2004年

8 張峰;基于本體的海洋數(shù)據(jù)集成方法研究[D];中國海洋大學(xué);2008年

9 周偉;基于本體的電力系統(tǒng)中數(shù)據(jù)集成方法的研究[D];華北電力大學(xué);2012年

10 張鑫;基于分類的數(shù)據(jù)集成方法[D];廣東工業(yè)大學(xué);2013年



本文編號:2874536

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/hangkongsky/2874536.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶db067***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com