預(yù)訓(xùn)練深度學(xué)習(xí)架構(gòu)下的語義地址匹配與語義空間融合模型研究
發(fā)布時(shí)間:2021-10-07 13:21
隨著我國數(shù)字城市與智慧城市建設(shè)的不斷開展,地址信息作為戰(zhàn)略性的基礎(chǔ)地理信息及空間數(shù)據(jù)資源,在人們?nèi)粘I钪械淖饔糜l(fā)重要,而且在國家的經(jīng)濟(jì)建設(shè)、文化發(fā)展和社會(huì)管理等多方面也起到相當(dāng)關(guān)鍵的作用。在各行各業(yè)的基于位置服務(wù)的大數(shù)據(jù)應(yīng)用需求驅(qū)動(dòng)下,我國各相關(guān)部門采集和積累了海量異構(gòu)的地址數(shù)據(jù)。然而由于我國地址規(guī)范標(biāo)準(zhǔn)不統(tǒng)一以及人工采集與管理秩序的混亂,導(dǎo)致地址信息的解析和理解成為一大難題,也極大地限制了其在各個(gè)領(lǐng)域內(nèi)的應(yīng)用。因此,有必要從認(rèn)知地址文本信息和理解地址語義知識(shí)的角度出發(fā)以形成地址語義模型,讓其深入挖掘地址信息的語義特征內(nèi)涵并適用于計(jì)算機(jī)的高性能運(yùn)算。此外,地址特有的尋址屬性使得理解和融合其語義與空間信息具有重要的理論價(jià)值和實(shí)踐意義,也是當(dāng)前的學(xué)術(shù)熱點(diǎn)。針對(duì)現(xiàn)有的地址模型研究中所存在的語義信息表達(dá)不完善、信息智能化應(yīng)用不充分以及相關(guān)任務(wù)場景泛化性弱的困境,本文利用了深度神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制及“預(yù)訓(xùn)練-微調(diào)”模式,將地址語義理解、語義地址匹配和空間語義融合等關(guān)聯(lián)度較大的任務(wù)轉(zhuǎn)為可計(jì)算的深度神經(jīng)網(wǎng)絡(luò)模型的搭建和優(yōu)化問題。針對(duì)地址文本語料的特性,采用自監(jiān)督學(xué)習(xí)構(gòu)建深度學(xué)習(xí)架構(gòu)以形成地址語...
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:165 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
地名匹配的神經(jīng)網(wǎng)絡(luò)架構(gòu)(Santosetal.,2018)
浙江大學(xué)博士學(xué)位論文緒論13平臺(tái)下構(gòu)建了融合多距離信息的貝葉斯推理網(wǎng)絡(luò),提出了基于多準(zhǔn)則評(píng)判的中文地址匹配方法(許普樂等,2017)。該研究顯著提高了單句中文地址的匹配效率。上述中文地址匹配方法雖然啟用了人工智能領(lǐng)域的方法,但其總體流程中仍少不了針對(duì)地址的語義特性進(jìn)行復(fù)雜解析的過程。而在最近一兩年內(nèi),很多國內(nèi)研究者也使用了深層句子表征技術(shù)將每個(gè)地址映射為同一向量空間中具有固定大小長度的向量,因此省去了對(duì)地址元素做復(fù)雜的解析。此后受流行的句子表征模型的啟發(fā),有學(xué)者提出了一種基于深度語義地址表征的地址匹配方法(Shanetal.,2019)。該研究首先通過在網(wǎng)絡(luò)上檢索訓(xùn)練集中的每個(gè)地址的相關(guān)最新新聞,然后將這些新聞視為語料庫來豐富地址的語義信息,并使用Word2Vec方法來訓(xùn)練單詞向量。之后使用帶有兩個(gè)LSTM(Longshort-termmemory,長短時(shí)記憶網(wǎng)絡(luò))網(wǎng)絡(luò)的編碼解碼器體系結(jié)構(gòu)來學(xué)習(xí)地址字符串的語義矢量表征并對(duì)編碼器-解碼器模型中的地址進(jìn)行上采樣和子采樣以提高魯棒性。此外,該研究還在模型中應(yīng)用了注意力機(jī)制,以在其語義表征中突出顯示地址的重要特征。其地址編碼器-解碼器模型結(jié)構(gòu)如圖1.2所示:圖1.2地址編碼器-解碼器模型結(jié)構(gòu)示例(Shanetal.,2019)該研究者在兩個(gè)真實(shí)中文地名地址數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該模型在精度(高出5%)和召回率(高出8%)兩個(gè)指標(biāo)上都比之前最先進(jìn)的方法更好。
浙江大學(xué)博士學(xué)位論文緒論14Linetal.(2019)則將地址匹配問題理解并轉(zhuǎn)化成NLP中的一項(xiàng)任務(wù),借鑒了深度文本匹配的先進(jìn)模型進(jìn)行語義地址匹配任務(wù)。該研究也分為兩階段進(jìn)行,其中第一階段也類似Shan研究中所用的方式,將Word2Vec模型應(yīng)用于訓(xùn)練和獲取地址元素的單詞向量,并將輸入的地址記錄轉(zhuǎn)換為其相應(yīng)的向量表示形式。第二步則采用了深度文本匹配模型之一的增強(qiáng)順序推理模型(ESIM)(Chenetal.,2016),在比較的地址記錄(矢量格式)之間進(jìn)行本地和全局推理,并確定是否他們匹配。ESIM的整體流程結(jié)構(gòu)概況如圖1.3所示。該研究通過將NLP中的深度學(xué)習(xí)架構(gòu)引入地址匹配中,開發(fā)了一種有效且準(zhǔn)確的語義地址匹配方法來填補(bǔ)之前研究所沒有的空白。其不僅考慮地址記錄之間的字面相似性,還強(qiáng)調(diào)基于地址“理解”的語義鏈接:無論所比較的地址記錄是相似的,還是僅具有很少的文字重疊,該方法都能夠獲得較高的預(yù)測精度。圖1.3增強(qiáng)順序推理模型(ESIM)的整體流程結(jié)構(gòu)(Linetal.,2019)總的來說,將NLP中先進(jìn)的模型及方法應(yīng)用到地址匹配正變得越來越流行。但是基本上目前所有相關(guān)的研究都還停留在提取語義特征加后續(xù)任務(wù)型模型的模式階段。一來該模式使得地址的語義信息仍未得到充分的挖掘利用,二來任務(wù)型模型的設(shè)計(jì)相對(duì)獨(dú)立;同時(shí),上述的研究仍需要對(duì)地址要素進(jìn)行解析,雖然該步驟已經(jīng)越來越簡化。
【參考文獻(xiàn)】:
期刊論文
[1]基于BiLSTM-CRF的中文層級(jí)地址分詞[J]. 程博,李衛(wèi)紅,童昊昕. 地球信息科學(xué)學(xué)報(bào). 2019(08)
[2]智慧城市時(shí)空大數(shù)據(jù)云平臺(tái)建設(shè)技術(shù)大綱研究[J]. 郝利娟,劉冬枝. 地理空間信息. 2019(06)
[3]基于條件隨機(jī)場的非規(guī)范化中文地址解析方法[J]. 許也,申柏希,徐翔,李軍. 地理與地理信息科學(xué). 2019(02)
[4]城市地址模型概念框架的關(guān)鍵問題[J]. 張志軍,邱俊武,亢孟軍,毛海辰. 測繪通報(bào). 2018(09)
[5]面向?qū)I(yè)領(lǐng)域的中文分詞方法[J]. 成于思,施云濤. 計(jì)算機(jī)工程與應(yīng)用. 2018(17)
[6]基于空間語義的地理編碼在智慧城市信息系統(tǒng)中的應(yīng)用[J]. 康昆,李明峰,周醉,蔡煒珩. 現(xiàn)代測繪. 2018(03)
[7]大數(shù)據(jù)環(huán)境下基于貝葉斯推理的中文地名地址匹配方法[J]. 許普樂,王楊,黃亞坤,黃少芬,趙傳信,陳付龍. 計(jì)算機(jī)科學(xué). 2017(09)
[8]大數(shù)據(jù)驅(qū)動(dòng)的地名信息獲取與應(yīng)用[J]. 張雪英,閭國年,杜咪,葉鵬. 現(xiàn)代測繪. 2017(02)
[9]基于條件隨機(jī)場的中文地名識(shí)別方法[J]. 鄔倫,劉磊,李浩然,高勇. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2017(02)
[10]文本蘊(yùn)含關(guān)系識(shí)別與知識(shí)獲取研究進(jìn)展及展望[J]. 郭茂盛,張宇,劉挺. 計(jì)算機(jī)學(xué)報(bào). 2017(04)
博士論文
[1]深度神經(jīng)網(wǎng)絡(luò)下的規(guī)范化地址建設(shè)與語義空間模型研究[D]. 毛瑞琛.浙江大學(xué) 2019
[2]文本語義相似度計(jì)算方法研究[D]. 劉宏哲.北京交通大學(xué) 2012
碩士論文
[1]基于空間場景相似性的投訴地址推薦[D]. 萬海翔.武漢大學(xué) 2017
[2]基于條件隨機(jī)場和空間推理的地理編碼方法[D]. 周海.解放軍信息工程大學(xué) 2015
[3]城市地址編碼的技術(shù)及應(yīng)用[D]. 葉海波.中國石油大學(xué) 2009
本文編號(hào):3422128
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:165 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
地名匹配的神經(jīng)網(wǎng)絡(luò)架構(gòu)(Santosetal.,2018)
浙江大學(xué)博士學(xué)位論文緒論13平臺(tái)下構(gòu)建了融合多距離信息的貝葉斯推理網(wǎng)絡(luò),提出了基于多準(zhǔn)則評(píng)判的中文地址匹配方法(許普樂等,2017)。該研究顯著提高了單句中文地址的匹配效率。上述中文地址匹配方法雖然啟用了人工智能領(lǐng)域的方法,但其總體流程中仍少不了針對(duì)地址的語義特性進(jìn)行復(fù)雜解析的過程。而在最近一兩年內(nèi),很多國內(nèi)研究者也使用了深層句子表征技術(shù)將每個(gè)地址映射為同一向量空間中具有固定大小長度的向量,因此省去了對(duì)地址元素做復(fù)雜的解析。此后受流行的句子表征模型的啟發(fā),有學(xué)者提出了一種基于深度語義地址表征的地址匹配方法(Shanetal.,2019)。該研究首先通過在網(wǎng)絡(luò)上檢索訓(xùn)練集中的每個(gè)地址的相關(guān)最新新聞,然后將這些新聞視為語料庫來豐富地址的語義信息,并使用Word2Vec方法來訓(xùn)練單詞向量。之后使用帶有兩個(gè)LSTM(Longshort-termmemory,長短時(shí)記憶網(wǎng)絡(luò))網(wǎng)絡(luò)的編碼解碼器體系結(jié)構(gòu)來學(xué)習(xí)地址字符串的語義矢量表征并對(duì)編碼器-解碼器模型中的地址進(jìn)行上采樣和子采樣以提高魯棒性。此外,該研究還在模型中應(yīng)用了注意力機(jī)制,以在其語義表征中突出顯示地址的重要特征。其地址編碼器-解碼器模型結(jié)構(gòu)如圖1.2所示:圖1.2地址編碼器-解碼器模型結(jié)構(gòu)示例(Shanetal.,2019)該研究者在兩個(gè)真實(shí)中文地名地址數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該模型在精度(高出5%)和召回率(高出8%)兩個(gè)指標(biāo)上都比之前最先進(jìn)的方法更好。
浙江大學(xué)博士學(xué)位論文緒論14Linetal.(2019)則將地址匹配問題理解并轉(zhuǎn)化成NLP中的一項(xiàng)任務(wù),借鑒了深度文本匹配的先進(jìn)模型進(jìn)行語義地址匹配任務(wù)。該研究也分為兩階段進(jìn)行,其中第一階段也類似Shan研究中所用的方式,將Word2Vec模型應(yīng)用于訓(xùn)練和獲取地址元素的單詞向量,并將輸入的地址記錄轉(zhuǎn)換為其相應(yīng)的向量表示形式。第二步則采用了深度文本匹配模型之一的增強(qiáng)順序推理模型(ESIM)(Chenetal.,2016),在比較的地址記錄(矢量格式)之間進(jìn)行本地和全局推理,并確定是否他們匹配。ESIM的整體流程結(jié)構(gòu)概況如圖1.3所示。該研究通過將NLP中的深度學(xué)習(xí)架構(gòu)引入地址匹配中,開發(fā)了一種有效且準(zhǔn)確的語義地址匹配方法來填補(bǔ)之前研究所沒有的空白。其不僅考慮地址記錄之間的字面相似性,還強(qiáng)調(diào)基于地址“理解”的語義鏈接:無論所比較的地址記錄是相似的,還是僅具有很少的文字重疊,該方法都能夠獲得較高的預(yù)測精度。圖1.3增強(qiáng)順序推理模型(ESIM)的整體流程結(jié)構(gòu)(Linetal.,2019)總的來說,將NLP中先進(jìn)的模型及方法應(yīng)用到地址匹配正變得越來越流行。但是基本上目前所有相關(guān)的研究都還停留在提取語義特征加后續(xù)任務(wù)型模型的模式階段。一來該模式使得地址的語義信息仍未得到充分的挖掘利用,二來任務(wù)型模型的設(shè)計(jì)相對(duì)獨(dú)立;同時(shí),上述的研究仍需要對(duì)地址要素進(jìn)行解析,雖然該步驟已經(jīng)越來越簡化。
【參考文獻(xiàn)】:
期刊論文
[1]基于BiLSTM-CRF的中文層級(jí)地址分詞[J]. 程博,李衛(wèi)紅,童昊昕. 地球信息科學(xué)學(xué)報(bào). 2019(08)
[2]智慧城市時(shí)空大數(shù)據(jù)云平臺(tái)建設(shè)技術(shù)大綱研究[J]. 郝利娟,劉冬枝. 地理空間信息. 2019(06)
[3]基于條件隨機(jī)場的非規(guī)范化中文地址解析方法[J]. 許也,申柏希,徐翔,李軍. 地理與地理信息科學(xué). 2019(02)
[4]城市地址模型概念框架的關(guān)鍵問題[J]. 張志軍,邱俊武,亢孟軍,毛海辰. 測繪通報(bào). 2018(09)
[5]面向?qū)I(yè)領(lǐng)域的中文分詞方法[J]. 成于思,施云濤. 計(jì)算機(jī)工程與應(yīng)用. 2018(17)
[6]基于空間語義的地理編碼在智慧城市信息系統(tǒng)中的應(yīng)用[J]. 康昆,李明峰,周醉,蔡煒珩. 現(xiàn)代測繪. 2018(03)
[7]大數(shù)據(jù)環(huán)境下基于貝葉斯推理的中文地名地址匹配方法[J]. 許普樂,王楊,黃亞坤,黃少芬,趙傳信,陳付龍. 計(jì)算機(jī)科學(xué). 2017(09)
[8]大數(shù)據(jù)驅(qū)動(dòng)的地名信息獲取與應(yīng)用[J]. 張雪英,閭國年,杜咪,葉鵬. 現(xiàn)代測繪. 2017(02)
[9]基于條件隨機(jī)場的中文地名識(shí)別方法[J]. 鄔倫,劉磊,李浩然,高勇. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2017(02)
[10]文本蘊(yùn)含關(guān)系識(shí)別與知識(shí)獲取研究進(jìn)展及展望[J]. 郭茂盛,張宇,劉挺. 計(jì)算機(jī)學(xué)報(bào). 2017(04)
博士論文
[1]深度神經(jīng)網(wǎng)絡(luò)下的規(guī)范化地址建設(shè)與語義空間模型研究[D]. 毛瑞琛.浙江大學(xué) 2019
[2]文本語義相似度計(jì)算方法研究[D]. 劉宏哲.北京交通大學(xué) 2012
碩士論文
[1]基于空間場景相似性的投訴地址推薦[D]. 萬海翔.武漢大學(xué) 2017
[2]基于條件隨機(jī)場和空間推理的地理編碼方法[D]. 周海.解放軍信息工程大學(xué) 2015
[3]城市地址編碼的技術(shù)及應(yīng)用[D]. 葉海波.中國石油大學(xué) 2009
本文編號(hào):3422128
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3422128.html
最近更新
教材專著