天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 管理論文 > 信貸論文 >

征信系統(tǒng)中實(shí)體匹配方法及應(yīng)用研究

發(fā)布時(shí)間:2020-04-26 04:02
【摘要】: 實(shí)體是指社會(huì)經(jīng)濟(jì)運(yùn)行過(guò)程中有經(jīng)濟(jì)活動(dòng)能力個(gè)體或組織,在征信系統(tǒng)中它可以指稱個(gè)人、家庭、企業(yè)、企業(yè)集團(tuán)等。實(shí)體匹配就是判定語(yǔ)法不同的信用信息所描述的實(shí)體是否具有相同的語(yǔ)義。征信系統(tǒng)是覆蓋全國(guó)每一個(gè)有經(jīng)濟(jì)活動(dòng)能力的實(shí)體的信用檔案信息系統(tǒng),它通過(guò)采集分散在社會(huì)不同部門(mén)信用信息,并按照信用實(shí)體為主題進(jìn)行歸集和發(fā)布的信息系統(tǒng),為全國(guó)每一個(gè)有經(jīng)濟(jì)活動(dòng)能力的實(shí)體建立其信用檔案。征信系統(tǒng)是社會(huì)信用體系的基礎(chǔ)設(shè)施,隨著市場(chǎng)經(jīng)濟(jì)的不斷發(fā)展,征信系統(tǒng)在社會(huì)經(jīng)濟(jì)生活中扮演著越來(lái)越重要的角色。 實(shí)體匹配是建設(shè)全國(guó)統(tǒng)一征信系統(tǒng)的技術(shù)基礎(chǔ)。由于不同數(shù)據(jù)源信用記錄標(biāo)識(shí)主鍵不同,加之存在數(shù)據(jù)輸入錯(cuò)誤、格式、拼寫(xiě)差異等問(wèn)題,為了實(shí)現(xiàn)征信系統(tǒng)的功能目標(biāo),需要開(kāi)展大量信用記錄的實(shí)體模糊匹配運(yùn)算。征信系統(tǒng)中實(shí)體匹配可以分為三個(gè)層次的匹配運(yùn)算,分別是字段級(jí)匹配、記錄級(jí)匹配和復(fù)雜結(jié)構(gòu)級(jí)匹配。除此之外還需要解決征信系統(tǒng)所特有的匹配數(shù)據(jù)量大,采集數(shù)據(jù)源差別大,范圍廣,不斷擴(kuò)展等技術(shù)難點(diǎn)問(wèn)題。 本文以征信系統(tǒng)中實(shí)體匹配運(yùn)算為研究對(duì)象,按照從不同數(shù)據(jù)源數(shù)據(jù)特征學(xué)習(xí)相應(yīng)匹配函數(shù)的研究思路,主要進(jìn)行了以下幾方面研究: (1)研究了自適應(yīng)字段匹配問(wèn)題,提出了基于關(guān)聯(lián)token的自適應(yīng)字符串相似度計(jì)算方法。該算法通過(guò)關(guān)聯(lián)token操作集,形式化定義了同音字相似度,提煉不同數(shù)據(jù)源的詞頻與關(guān)聯(lián)操作頻度的數(shù)據(jù)特征,并通過(guò)對(duì)支持向量機(jī)訓(xùn)練,以計(jì)算適應(yīng)詞頻、關(guān)聯(lián)類型等數(shù)據(jù)特征的匹配分類及相似度計(jì)算函數(shù)。通過(guò)實(shí)驗(yàn)驗(yàn)證與對(duì)比分析,說(shuō)明了該算法對(duì)于數(shù)據(jù)源的數(shù)據(jù)質(zhì)量、關(guān)聯(lián)類型等都具有良好的適應(yīng)性。 (2)研究了有標(biāo)識(shí)字段的實(shí)體信用記錄高效匹配問(wèn)題,設(shè)計(jì)了聯(lián)合分組模型。為了解決大數(shù)據(jù)量實(shí)體信用記錄高效匹配問(wèn)題,通過(guò)分組算子抽取了索引和分組運(yùn)算特征,引入了析取式和析取范式的整體分組式概念,使用多個(gè)分組算子聯(lián)合對(duì)實(shí)體記錄進(jìn)行分組,設(shè)計(jì)了聯(lián)合分組模型,以減少匹配運(yùn)算中比較次數(shù),提高信用記錄匹配運(yùn)算的效率。最后使用求解覆蓋集方法,在保證匹配運(yùn)算精度的前提下,符合不同數(shù)據(jù)源特點(diǎn)的最優(yōu)整體分組式。通過(guò)實(shí)驗(yàn)驗(yàn)證以上方法具有較高的匹配運(yùn)算效率。 (3)研究了多數(shù)據(jù)源無(wú)標(biāo)識(shí)字段的實(shí)體記錄匹配問(wèn)題。設(shè)計(jì)了半監(jiān)督式基于主動(dòng)學(xué)習(xí)的實(shí)體匹配方法和無(wú)監(jiān)督式基于迭代SVM的自動(dòng)實(shí)體匹配方法。其中前者應(yīng)用主動(dòng)學(xué)習(xí)的思想,首先使用聚類隊(duì)列建立多個(gè)匹配函數(shù)學(xué)習(xí)機(jī)組成學(xué)習(xí)委員會(huì),其次使用匹配熵計(jì)算式,由學(xué)習(xí)委員會(huì)在候選訓(xùn)練樣本中主動(dòng)挑選最有利匹配函數(shù)學(xué)習(xí)的實(shí)體記錄對(duì),實(shí)現(xiàn)對(duì)實(shí)體記錄對(duì)標(biāo)識(shí)字段與匹配函數(shù)自主學(xué)習(xí)。后者是利用SVM學(xué)習(xí)機(jī)最大化分類超平面與支持向量之間距離的特性,自動(dòng)學(xué)習(xí)新數(shù)據(jù)源的標(biāo)識(shí)字段和匹配函數(shù)。首先使用最近鄰居法自動(dòng)選擇初始訓(xùn)練樣本集,其次應(yīng)用最大化分類間隔的特點(diǎn)迭代對(duì)SVM進(jìn)行自動(dòng)訓(xùn)練,使分類超平面逐步逼近匹配實(shí)體對(duì)與非匹配實(shí)體對(duì)的分類邊界,實(shí)現(xiàn)自動(dòng)的實(shí)體匹配函數(shù)的學(xué)習(xí)。通過(guò)實(shí)驗(yàn)分析了主動(dòng)學(xué)習(xí)實(shí)體匹配方法和迭代SVM自動(dòng)實(shí)體匹配方法的優(yōu)點(diǎn)及限制條件。 (4)研究了復(fù)雜數(shù)據(jù)結(jié)構(gòu)的記錄簇實(shí)體匹配問(wèn)題。根據(jù)記錄簇實(shí)體的特殊的數(shù)據(jù)結(jié)構(gòu),應(yīng)用賦權(quán)二部圖理論建立了規(guī)范的記錄簇實(shí)體匹配的數(shù)學(xué)模型。為了實(shí)現(xiàn)高效地記錄簇實(shí)體匹配運(yùn)算,設(shè)計(jì)了記錄簇實(shí)體上下界匹配算法,使用快速推導(dǎo)出匹配實(shí)體閾值的上下界,減少實(shí)體所屬子記錄最大權(quán)匹配的計(jì)算次數(shù)。通過(guò)數(shù)據(jù)實(shí)驗(yàn),驗(yàn)證了本文提出的匹配模型與方法可以有效提高記錄簇實(shí)體匹配精度和效率。 (5)研究了復(fù)雜數(shù)據(jù)結(jié)構(gòu)的XML半結(jié)構(gòu)化實(shí)體匹配問(wèn)題,通過(guò)計(jì)算XML文本中不同類型的屬性節(jié)點(diǎn)在父節(jié)點(diǎn)中的權(quán)重,設(shè)定匹配實(shí)體相似度閾值,求取XML轉(zhuǎn)換規(guī)則和實(shí)體匹配函數(shù),進(jìn)行XML實(shí)體的匹配運(yùn)算。使用實(shí)驗(yàn)數(shù)據(jù)說(shuō)明該方法具有良好的匹配分類效率。 本文是在中國(guó)人民銀行負(fù)責(zé)建設(shè)的全國(guó)集中統(tǒng)一的企業(yè)與個(gè)人征信系統(tǒng)的基礎(chǔ)上,通過(guò)總結(jié)其實(shí)體匹配運(yùn)算所面臨的技術(shù)瓶頸,分析目前方法中存在的缺陷,提煉,抽象出具體的研究問(wèn)題。本文提出的實(shí)體匹配方法,目前多數(shù)都已在個(gè)人與企業(yè)征信系統(tǒng)中投用,解決了征信系統(tǒng)建設(shè)過(guò)程中遇到的多數(shù)據(jù)源、海量數(shù)量、復(fù)雜結(jié)構(gòu)條件下的實(shí)體匹配技術(shù)難點(diǎn)問(wèn)題,取得了實(shí)驗(yàn)結(jié)果基本一致的良好使用效果。目前企業(yè)征信系統(tǒng)實(shí)現(xiàn)信貸、結(jié)算賬戶、社保繳費(fèi)、環(huán)境違法信息等15大類共882家機(jī)構(gòu)的信用信息采集與匹配運(yùn)算。個(gè)人征信系統(tǒng)實(shí)現(xiàn)信貸、公積金繳存、養(yǎng)老保險(xiǎn)、電信欠費(fèi)等11大類共702家機(jī)構(gòu)的信用信息采集與匹配運(yùn)算,基本實(shí)現(xiàn)了全面統(tǒng)一的實(shí)體信用信息歸集整理的征信系統(tǒng)建設(shè)目標(biāo)。
【圖文】:

操作集,關(guān)聯(lián)關(guān)系,字符串


的字符位置,它們序列的長(zhǎng)度也為n,例如tZ、CxZ、CyZ表示的就是X中第Cx:個(gè)token與Y中第CyZ個(gè)t。ke存在tZ關(guān)聯(lián)關(guān)系,,也就是它們通過(guò)t:可以相互轉(zhuǎn)換。在此通過(guò)兩個(gè)字符串的關(guān)聯(lián)關(guān)系圖來(lái)說(shuō)明關(guān)聯(lián)操作集定義,圖3.2是“上海市浦東新區(qū)卡園二路108號(hào)”與“蒲東區(qū)卡園2路108”兩個(gè)地址字符串的關(guān)聯(lián)關(guān)系圖與關(guān)聯(lián)操作集示例。通過(guò)圖3.2可以看出,關(guān)聯(lián)操作集是由一組關(guān)聯(lián)操作組成,每個(gè)關(guān)聯(lián)操作在字符串的一對(duì)token間建立映射關(guān)系,通過(guò)關(guān)聯(lián)操作集,字符串可以相互轉(zhuǎn)換。利用關(guān)聯(lián)操作集定義字符串之間關(guān)系,使用規(guī)范的數(shù)據(jù)描述相似程度。但是,我們可以明顯看出,對(duì)于任意兩個(gè)字符串,可以建立多個(gè)關(guān)聯(lián)操作集,每個(gè)關(guān)聯(lián)操作集代表了一種轉(zhuǎn)換方式。因此對(duì)于字符串相似度值的計(jì)算轉(zhuǎn)換為建立關(guān)聯(lián)操作集和為不同的關(guān)聯(lián)操作賦予適當(dāng)?shù)臋?quán)重值,以便計(jì)算出可以真正反映出實(shí)體匹配關(guān)系的屬性字符串的相似度值。也就是對(duì)于字符串對(duì)X和Y,通過(guò)關(guān)聯(lián)操作集T的映射,得到它們的相似度值Z

企業(yè)信貸,數(shù)據(jù)


3.5.3實(shí)驗(yàn)結(jié)果與分析使用以上四種方法應(yīng)用于企業(yè)信貸數(shù)據(jù)的信用實(shí)體屬性字符串的相似度計(jì)算,評(píng)價(jià)指標(biāo)的結(jié)果如圖3.4所示。從圖3.4實(shí)驗(yàn)結(jié)果來(lái)看,四種字符串相似度計(jì)算方法在數(shù)據(jù)量小、數(shù)據(jù)質(zhì)量較好的情況下。表現(xiàn)出了較好的準(zhǔn)確度,這主要是因?yàn)榕c個(gè)人實(shí)體相比,企業(yè)實(shí)體的數(shù)量少,所以企業(yè)實(shí)體的信用數(shù)據(jù)是三類測(cè)試數(shù)據(jù)中數(shù)據(jù)量最小的。同時(shí)它采集自全國(guó)性商業(yè)銀行,使用接口程序自動(dòng)從業(yè)務(wù)數(shù)據(jù)中生成上報(bào)的信用數(shù)據(jù),銀行業(yè)務(wù)系統(tǒng)的辦理程序較為規(guī)范,所以數(shù)據(jù)質(zhì)量較好,較少出現(xiàn)縮寫(xiě)詞、同音字輸入錯(cuò)誤等問(wèn)題。從算法的精確度分析,還可以發(fā)現(xiàn)Bigram法的精確度略好于Levenshtein法,這是因?yàn)锽igr別衛(wèi)法是基于token的字符串相似度算法,它適用于較長(zhǎng)字符串的相似度計(jì)算,而企業(yè)征信數(shù)據(jù)的屬性字符串的長(zhǎng)度一般都較長(zhǎng)
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2010
【分類號(hào)】:F832.4;F224

【引證文獻(xiàn)】

相關(guān)博士學(xué)位論文 前1條

1 白云峰;金融領(lǐng)域信用信息服務(wù)體系構(gòu)建與運(yùn)行機(jī)制研究[D];吉林大學(xué);2011年

相關(guān)碩士學(xué)位論文 前1條

1 袁菲;電子商務(wù)公共服務(wù)平臺(tái)中征信模型的構(gòu)建與應(yīng)用[D];東華大學(xué);2011年



本文編號(hào):2641064

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/bankxd/2641064.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3c33b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com