多源異構(gòu)民航旅客服務(wù)數(shù)據(jù)集成方法研究
【學(xué)位單位】:中國民航大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:V354
【部分圖文】:
通過給定的模式匹配算法 match 得出的匹配結(jié)果。例如表 2.3 表示兩個(gè)民航旅客購票記錄表模式 PR 和 PassagerRecord 的部分信息。其中屬性 PR.tk_no、PR.orgn_city、PR.desn_city 分 別 和 PassagerRecord.TICKET_NO 、 PassagerRecord.origin 、PassagerRecord.destination 存在映射關(guān)系。通過匹配算法 match 處理后,匹配結(jié)果 M 可以表示為 PR.tk_no=PassagerRecord.TICKET_NO,PR.orgn_city=PassagerRecord.origin,PR.desn_city=PassagerRecord.destination。2. 模式匹配流程多源異構(gòu)數(shù)據(jù)的模式具有異構(gòu)性,在對其進(jìn)行模式匹配時(shí)根據(jù)處理的步驟可以得出一個(gè)完整的模式匹配流程,如圖 2-1 所示。
圖 2-2 實(shí)體匹配流程) 匹配處理階段。該階段主要通過實(shí)體匹配算法來判斷候選匹配集中的,傳統(tǒng)的實(shí)體匹配算法大多都基于機(jī)器學(xué)習(xí)算法。雖然已有的算法在匹達(dá)到一定的實(shí)用效果,但是實(shí)體匹配效率卻隨著數(shù)據(jù)量的增長而降低。匹配算法進(jìn)行實(shí)體匹配時(shí)需要構(gòu)造候選匹配集,該集合是通過對多源數(shù)積得出的結(jié)果集。例如,兩個(gè)待匹配數(shù)據(jù)源 T 和 S,其中 T 中包含 M 條 N 條記錄,那么由 T 和 S 中的記錄通過笛卡爾積操作可以得到包含M ×選匹配集。然而面對海量的多源數(shù)據(jù)集時(shí),通過笛卡爾積操作生成的結(jié)配時(shí)間開銷是不可預(yù)估的。因此,需要對現(xiàn)有的實(shí)體匹配算法進(jìn)行優(yōu)化間復(fù)雜度。目前,主流的用于優(yōu)化實(shí)體匹配的算法有實(shí)體分塊算法[41-42],此類算法主要是通過減少候選匹配集中記錄對的數(shù)量,以達(dá)到降低匹的目的。體分塊算法的原理是將匹配概率較大數(shù)據(jù)記錄分配到相同的實(shí)體塊中,
最后輸出屬性映射圖 G(R,E)(17-24 行)算法結(jié)束。最后相互匹配的屬性以邊的形式連接,而誤匹配的屬性以孤立點(diǎn)的形式存在。屬性之間的關(guān)系以圖的形式的準(zhǔn)確的表示出來。綜上所述,基于SimHash和混合相似度的多模式匹配方法的處理流程如圖3-2所示。
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 薛堯予;王建林;趙利強(qiáng);;分布式過程實(shí)時(shí)數(shù)據(jù)集成方法及其實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2010年03期
2 馮勇;王明玉;;基于語義的輕量級數(shù)據(jù)集成方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年01期
3 王磊;趙磊;鄭寶玉;;結(jié)合樸素貝葉斯和歐氏距離的二類非均衡數(shù)據(jù)集成方法[J];信號處理;2017年04期
4 周劍;朱耀琴;唐衛(wèi)清;;面向復(fù)雜產(chǎn)品協(xié)同開發(fā)的數(shù)據(jù)集成方法研究[J];計(jì)算機(jī)科學(xué);2009年12期
5 池斌;李軍生;邸凱;王海濤;;基于中間釋義庫的數(shù)據(jù)集成方法研究[J];價(jià)值工程;2014年34期
6 李兵,何克清,肖衛(wèi)軍,李瑞軒;CAX—一種有效的數(shù)據(jù)集成方法[J];小型微型計(jì)算機(jī)系統(tǒng);2003年08期
7 張忠平;欒建鋒;王昆波;;網(wǎng)格環(huán)境下基于P2P的數(shù)據(jù)集成方法[J];計(jì)算機(jī)工程;2009年12期
8 周海鵬;張璟;李軍懷;;信息系統(tǒng)中的數(shù)據(jù)集成方法研究與應(yīng)用[J];微電子學(xué)與計(jì)算機(jī);2008年05期
9 崔偉寧;陳頌;金傳洋;畢明光;;基于實(shí)體資源的數(shù)據(jù)集成方法研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年08期
10 郎炯;劉宴兵;熊仕勇;;基于SOA軟件架構(gòu)的數(shù)據(jù)集成方法[J];計(jì)算機(jī)應(yīng)用;2010年09期
相關(guān)博士學(xué)位論文 前1條
1 謝興生;基于數(shù)據(jù)服務(wù)匹配的數(shù)據(jù)集成方法研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 胡煒;多源異構(gòu)民航旅客服務(wù)數(shù)據(jù)集成方法研究[D];中國民航大學(xué);2019年
2 何新;生產(chǎn)裝置異構(gòu)實(shí)時(shí)數(shù)據(jù)集成方法及應(yīng)用研究[D];北京化工大學(xué);2007年
3 韓松;基于本體的數(shù)據(jù)集成方法及應(yīng)用[D];曲阜師范大學(xué);2010年
4 宋春蕾;基于信息網(wǎng)格的數(shù)據(jù)集成方法的研究[D];大連海事大學(xué);2006年
5 王明玉;基于語義的輕量級數(shù)據(jù)集成方法研究[D];遼寧大學(xué);2011年
6 崔立成;基于Web服務(wù)的多PDM系統(tǒng)數(shù)據(jù)集成方法研究[D];大連海事大學(xué);2008年
7 張凱選;基于地質(zhì)災(zāi)害的異源空間數(shù)據(jù)集成方法研究[D];遼寧工程技術(shù)大學(xué);2004年
8 張峰;基于本體的海洋數(shù)據(jù)集成方法研究[D];中國海洋大學(xué);2008年
9 周偉;基于本體的電力系統(tǒng)中數(shù)據(jù)集成方法的研究[D];華北電力大學(xué);2012年
10 張鑫;基于分類的數(shù)據(jù)集成方法[D];廣東工業(yè)大學(xué);2013年
本文編號:2874536
本文鏈接:http://sikaile.net/kejilunwen/hangkongsky/2874536.html