深度神經(jīng)網(wǎng)絡(luò)下的規(guī)范化地址建設(shè)與語(yǔ)義空間模型研究
發(fā)布時(shí)間:2021-05-12 08:53
隨著GIS認(rèn)知與應(yīng)用能力的不斷提升,地址信息逐步成為智慧城市時(shí)代的核心資源,其內(nèi)容中所承載的語(yǔ)義和空間內(nèi)涵,更是構(gòu)建智慧城市中地理本體與時(shí)空語(yǔ)義框架的基礎(chǔ)支撐。因此,全方位開(kāi)展地名地址規(guī)范化建設(shè)與社會(huì)化應(yīng)用研究已成為當(dāng)前的學(xué)術(shù)界熱點(diǎn)。讓計(jì)算機(jī)從理解地址文本的角度出發(fā),深度提煉地名地址綜合特征并形成數(shù)值形式的量化表達(dá),使其具有人類(lèi)認(rèn)知水平的處理能力,是從根本上實(shí)現(xiàn)上述任務(wù)的關(guān)鍵前提,對(duì)于融合和理解城市語(yǔ)義與空間內(nèi)容具有重要的理論價(jià)值和實(shí)踐意義。然而當(dāng)前以非結(jié)構(gòu)化文本管理或地址編碼為核心的理論研究,由于無(wú)法深入挖掘文本的特征內(nèi)涵,導(dǎo)致其在任務(wù)處理時(shí)面臨信息孤島、附加數(shù)據(jù)依賴、泛化性弱等突出問(wèn)題,極大限制了地址數(shù)據(jù)在智慧城市領(lǐng)域內(nèi)的使用。針對(duì)現(xiàn)有地名地址研究中存在的信息特征表達(dá)不充分、數(shù)據(jù)建設(shè)工作不深入、應(yīng)用場(chǎng)景局限的困境,本文綜合利用現(xiàn)代人工智能方法的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),將文本特征提取、地址規(guī)范化建設(shè)和語(yǔ)義空間融合等任務(wù)轉(zhuǎn)化為可量化的深度神經(jīng)網(wǎng)絡(luò)模型構(gòu)建與訓(xùn)練優(yōu)化問(wèn)題。以地址中的字符為基本輸入單元,設(shè)計(jì)語(yǔ)言模型將其向量化表達(dá)。在此基礎(chǔ)上,將地名地址規(guī)范化建設(shè)的關(guān)鍵技術(shù)通過(guò)神經(jīng)網(wǎng)絡(luò)目標(biāo)任務(wù)加以...
【文章來(lái)源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:170 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
致謝
摘要
Abstract
術(shù)語(yǔ)縮寫(xiě)表
1 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外現(xiàn)狀
1.2.1 地址規(guī)范化建設(shè)方法研究
1.2.2 自然語(yǔ)言建模方法研究
1.2.3 存在問(wèn)題與不足
1.3 研究目的
1.4 研究?jī)?nèi)容
1.5 論文組織與章節(jié)安排
2 地名地址語(yǔ)義特征表達(dá)研究
2.1 深度神經(jīng)網(wǎng)絡(luò)下的語(yǔ)義表達(dá)方法
2.1.1 深度神經(jīng)網(wǎng)絡(luò)方法理論
2.1.2 自然語(yǔ)言自注意力機(jī)制理論
2.1.3 神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型結(jié)構(gòu)
2.2 地名地址語(yǔ)言模型設(shè)計(jì)
2.2.1 基于多頭自注意力的語(yǔ)義特征提取
2.2.2 位置順序加權(quán)的字符向量化表達(dá)
2.2.3 未知字符預(yù)測(cè)的目標(biāo)任務(wù)
2.2.4 整體模型結(jié)構(gòu)
2.3 地名地址語(yǔ)言模型訓(xùn)練框架
2.3.1 隨機(jī)屏蔽策略的自然語(yǔ)言訓(xùn)練方案
2.3.2 模型輸入與超參數(shù)構(gòu)造
2.3.3 目標(biāo)函數(shù)與損失函數(shù)
2.3.4 神經(jīng)網(wǎng)絡(luò)優(yōu)化器設(shè)計(jì)
2.3.5 模型語(yǔ)義輸出
2.4 實(shí)驗(yàn)設(shè)計(jì)與模型驗(yàn)證
2.4.1 實(shí)驗(yàn)設(shè)計(jì)
2.4.2 實(shí)驗(yàn)結(jié)果分析
2.5 本章小結(jié)
3 地址文本的規(guī)范化建設(shè)研究
3.1 復(fù)合神經(jīng)網(wǎng)絡(luò)的地址分詞語(yǔ)言模型
3.1.1 相關(guān)神經(jīng)網(wǎng)絡(luò)介紹
3.1.2 復(fù)合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)
3.2 無(wú)監(jiān)督分詞訓(xùn)練框架
3.2.1 最大化地址文本生成概率的訓(xùn)練方案
3.2.2 目標(biāo)函數(shù)與損失函數(shù)
3.2.3 模型輸入與超參數(shù)構(gòu)造
3.2.4 分詞結(jié)果輸出
3.3 微監(jiān)督分詞優(yōu)化策略
3.4 地理實(shí)體標(biāo)注與文本標(biāo)準(zhǔn)化
3.4.1 自學(xué)習(xí)的復(fù)合詞性標(biāo)注方法
3.4.2 TRIE樹(shù)規(guī)范下的地址標(biāo)準(zhǔn)化
3.5 實(shí)驗(yàn)設(shè)計(jì)與模型驗(yàn)證
3.5.1 實(shí)驗(yàn)設(shè)計(jì)
3.5.2 實(shí)驗(yàn)結(jié)果分析
3.6 本章小結(jié)
4 地名地址語(yǔ)義-空間特征融合研究
4.1 地址語(yǔ)義-空間加權(quán)聚類(lèi)方法
4.1.1 地址文本語(yǔ)義向量表達(dá)
4.1.2 K-Means聚類(lèi)理論
4.1.3 高維特征融合聚類(lèi)方法
4.2 地址語(yǔ)義-空間融合建模
4.2.1 深度神經(jīng)網(wǎng)絡(luò)模型微調(diào)理論
4.2.2 語(yǔ)義-空間加權(quán)建模與訓(xùn)練
4.3 空間坐標(biāo)預(yù)測(cè)的下游驗(yàn)證任務(wù)
4.4 實(shí)驗(yàn)設(shè)計(jì)與分析
4.4.1 實(shí)驗(yàn)設(shè)計(jì)
4.4.2 實(shí)驗(yàn)結(jié)果分析
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 研究總結(jié)
5.2 研究特色與創(chuàng)新
5.3 研究展望
參考文獻(xiàn)
作者簡(jiǎn)歷
【參考文獻(xiàn)】:
期刊論文
[1]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦穎,曾穎菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[2]基于復(fù)合字典的地名地址匹配技術(shù)[J]. 程琦,梁武衛(wèi),汪培. 城市勘測(cè). 2018(01)
[3]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J]. 金宸,李維華,姬晨,金緒澤,郭延哺. 中文信息學(xué)報(bào). 2018(02)
[4]一種基于復(fù)合特征的中文地名識(shí)別方法[J]. 魏勇,李鴻飛,胡丹露,李響,馬雷雷. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2018(01)
[5]基于LSTM網(wǎng)絡(luò)的中文地址分詞法的設(shè)計(jì)與實(shí)現(xiàn)[J]. 張文豪,盧山,程光. 計(jì)算機(jī)應(yīng)用研究. 2018(12)
[6]基于BI-LSTM-CRF模型的中文分詞法[J]. 張子睿,劉云清. 長(zhǎng)春理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(04)
[7]基于半監(jiān)督CRF的跨領(lǐng)域中文分詞[J]. 鄧麗萍,羅智勇. 中文信息學(xué)報(bào). 2017(04)
[8]基于BLSTM的命名實(shí)體識(shí)別方法[J]. 馮艷紅,于紅,孫庚,孫娟娟. 計(jì)算機(jī)科學(xué). 2018(02)
[9]基于門(mén)循環(huán)單元神經(jīng)網(wǎng)絡(luò)的中文分詞法[J]. 李雪蓮,段鴻,許牧. 廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[10]大數(shù)據(jù)驅(qū)動(dòng)的地名信息獲取與應(yīng)用[J]. 張雪英,閭國(guó)年,杜咪,葉鵬. 現(xiàn)代測(cè)繪. 2017(02)
博士論文
[1]基于地理信息公共服務(wù)平臺(tái)的語(yǔ)義地名地址匹配方法研究[D]. 呂歡歡.遼寧工程技術(shù)大學(xué) 2014
碩士論文
[1]基于GRU神經(jīng)網(wǎng)絡(luò)結(jié)合CRF的中文分詞研究分析[D]. 慕容偉波.華南理工大學(xué) 2018
[2]基于空間場(chǎng)景相似性的投訴地址推薦[D]. 萬(wàn)海翔.武漢大學(xué) 2017
[3]基于統(tǒng)計(jì)學(xué)方法的地址標(biāo)準(zhǔn)化模型的建立[D]. 簡(jiǎn)榮杰.云南大學(xué) 2015
[4]基于條件隨機(jī)場(chǎng)和空間推理的地理編碼方法[D]. 周海.解放軍信息工程大學(xué) 2015
[5]基于規(guī)則的中文地址分詞與匹配方法[D]. 譚侃侃.山東科技大學(xué) 2011
[6]基于CRF的中文地名識(shí)別研究[D]. 廖文平.大連理工大學(xué) 2010
本文編號(hào):3183126
【文章來(lái)源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:170 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
致謝
摘要
Abstract
術(shù)語(yǔ)縮寫(xiě)表
1 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外現(xiàn)狀
1.2.1 地址規(guī)范化建設(shè)方法研究
1.2.2 自然語(yǔ)言建模方法研究
1.2.3 存在問(wèn)題與不足
1.3 研究目的
1.4 研究?jī)?nèi)容
1.5 論文組織與章節(jié)安排
2 地名地址語(yǔ)義特征表達(dá)研究
2.1 深度神經(jīng)網(wǎng)絡(luò)下的語(yǔ)義表達(dá)方法
2.1.1 深度神經(jīng)網(wǎng)絡(luò)方法理論
2.1.2 自然語(yǔ)言自注意力機(jī)制理論
2.1.3 神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型結(jié)構(gòu)
2.2 地名地址語(yǔ)言模型設(shè)計(jì)
2.2.1 基于多頭自注意力的語(yǔ)義特征提取
2.2.2 位置順序加權(quán)的字符向量化表達(dá)
2.2.3 未知字符預(yù)測(cè)的目標(biāo)任務(wù)
2.2.4 整體模型結(jié)構(gòu)
2.3 地名地址語(yǔ)言模型訓(xùn)練框架
2.3.1 隨機(jī)屏蔽策略的自然語(yǔ)言訓(xùn)練方案
2.3.2 模型輸入與超參數(shù)構(gòu)造
2.3.3 目標(biāo)函數(shù)與損失函數(shù)
2.3.4 神經(jīng)網(wǎng)絡(luò)優(yōu)化器設(shè)計(jì)
2.3.5 模型語(yǔ)義輸出
2.4 實(shí)驗(yàn)設(shè)計(jì)與模型驗(yàn)證
2.4.1 實(shí)驗(yàn)設(shè)計(jì)
2.4.2 實(shí)驗(yàn)結(jié)果分析
2.5 本章小結(jié)
3 地址文本的規(guī)范化建設(shè)研究
3.1 復(fù)合神經(jīng)網(wǎng)絡(luò)的地址分詞語(yǔ)言模型
3.1.1 相關(guān)神經(jīng)網(wǎng)絡(luò)介紹
3.1.2 復(fù)合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)
3.2 無(wú)監(jiān)督分詞訓(xùn)練框架
3.2.1 最大化地址文本生成概率的訓(xùn)練方案
3.2.2 目標(biāo)函數(shù)與損失函數(shù)
3.2.3 模型輸入與超參數(shù)構(gòu)造
3.2.4 分詞結(jié)果輸出
3.3 微監(jiān)督分詞優(yōu)化策略
3.4 地理實(shí)體標(biāo)注與文本標(biāo)準(zhǔn)化
3.4.1 自學(xué)習(xí)的復(fù)合詞性標(biāo)注方法
3.4.2 TRIE樹(shù)規(guī)范下的地址標(biāo)準(zhǔn)化
3.5 實(shí)驗(yàn)設(shè)計(jì)與模型驗(yàn)證
3.5.1 實(shí)驗(yàn)設(shè)計(jì)
3.5.2 實(shí)驗(yàn)結(jié)果分析
3.6 本章小結(jié)
4 地名地址語(yǔ)義-空間特征融合研究
4.1 地址語(yǔ)義-空間加權(quán)聚類(lèi)方法
4.1.1 地址文本語(yǔ)義向量表達(dá)
4.1.2 K-Means聚類(lèi)理論
4.1.3 高維特征融合聚類(lèi)方法
4.2 地址語(yǔ)義-空間融合建模
4.2.1 深度神經(jīng)網(wǎng)絡(luò)模型微調(diào)理論
4.2.2 語(yǔ)義-空間加權(quán)建模與訓(xùn)練
4.3 空間坐標(biāo)預(yù)測(cè)的下游驗(yàn)證任務(wù)
4.4 實(shí)驗(yàn)設(shè)計(jì)與分析
4.4.1 實(shí)驗(yàn)設(shè)計(jì)
4.4.2 實(shí)驗(yàn)結(jié)果分析
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 研究總結(jié)
5.2 研究特色與創(chuàng)新
5.3 研究展望
參考文獻(xiàn)
作者簡(jiǎn)歷
【參考文獻(xiàn)】:
期刊論文
[1]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦穎,曾穎菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[2]基于復(fù)合字典的地名地址匹配技術(shù)[J]. 程琦,梁武衛(wèi),汪培. 城市勘測(cè). 2018(01)
[3]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J]. 金宸,李維華,姬晨,金緒澤,郭延哺. 中文信息學(xué)報(bào). 2018(02)
[4]一種基于復(fù)合特征的中文地名識(shí)別方法[J]. 魏勇,李鴻飛,胡丹露,李響,馬雷雷. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2018(01)
[5]基于LSTM網(wǎng)絡(luò)的中文地址分詞法的設(shè)計(jì)與實(shí)現(xiàn)[J]. 張文豪,盧山,程光. 計(jì)算機(jī)應(yīng)用研究. 2018(12)
[6]基于BI-LSTM-CRF模型的中文分詞法[J]. 張子睿,劉云清. 長(zhǎng)春理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(04)
[7]基于半監(jiān)督CRF的跨領(lǐng)域中文分詞[J]. 鄧麗萍,羅智勇. 中文信息學(xué)報(bào). 2017(04)
[8]基于BLSTM的命名實(shí)體識(shí)別方法[J]. 馮艷紅,于紅,孫庚,孫娟娟. 計(jì)算機(jī)科學(xué). 2018(02)
[9]基于門(mén)循環(huán)單元神經(jīng)網(wǎng)絡(luò)的中文分詞法[J]. 李雪蓮,段鴻,許牧. 廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[10]大數(shù)據(jù)驅(qū)動(dòng)的地名信息獲取與應(yīng)用[J]. 張雪英,閭國(guó)年,杜咪,葉鵬. 現(xiàn)代測(cè)繪. 2017(02)
博士論文
[1]基于地理信息公共服務(wù)平臺(tái)的語(yǔ)義地名地址匹配方法研究[D]. 呂歡歡.遼寧工程技術(shù)大學(xué) 2014
碩士論文
[1]基于GRU神經(jīng)網(wǎng)絡(luò)結(jié)合CRF的中文分詞研究分析[D]. 慕容偉波.華南理工大學(xué) 2018
[2]基于空間場(chǎng)景相似性的投訴地址推薦[D]. 萬(wàn)海翔.武漢大學(xué) 2017
[3]基于統(tǒng)計(jì)學(xué)方法的地址標(biāo)準(zhǔn)化模型的建立[D]. 簡(jiǎn)榮杰.云南大學(xué) 2015
[4]基于條件隨機(jī)場(chǎng)和空間推理的地理編碼方法[D]. 周海.解放軍信息工程大學(xué) 2015
[5]基于規(guī)則的中文地址分詞與匹配方法[D]. 譚侃侃.山東科技大學(xué) 2011
[6]基于CRF的中文地名識(shí)別研究[D]. 廖文平.大連理工大學(xué) 2010
本文編號(hào):3183126
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3183126.html
最近更新
教材專著