天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向少量標(biāo)記數(shù)據(jù)的中文地址分詞方法研究

發(fā)布時(shí)間:2022-11-05 12:24
  地址編碼技術(shù)是指將文字描述的中文地址映射成空間地理坐標(biāo),由地址標(biāo)準(zhǔn)化、地址分詞、地址匹配、地址定位等步驟組成。其中中文地址分詞是地址編碼的基礎(chǔ)工作,極大地影響了地址匹配和地址定位等后續(xù)工作的性能。中文地址分詞可以視為中文分詞在地址編碼領(lǐng)域的應(yīng)用,目前對(duì)于中文地址這一特定領(lǐng)域進(jìn)行分詞的研究工作較少。本文針對(duì)當(dāng)前中文地址分詞模型研究的不足和地址數(shù)據(jù)標(biāo)注成本較高的問(wèn)題,提出了一種面向少量標(biāo)記數(shù)據(jù)的中文地址分詞方法。本方法采用主動(dòng)學(xué)習(xí)算法,根據(jù)中文地址分詞模型對(duì)數(shù)據(jù)的標(biāo)簽預(yù)測(cè)以及地址樣本選擇策略,從無(wú)標(biāo)記地址數(shù)據(jù)中選取出最具有標(biāo)注價(jià)值的部分樣本進(jìn)行人工標(biāo)注,然后加入到訓(xùn)練集中迭代進(jìn)行訓(xùn)練。本方法分別對(duì)中文地址分詞模型和主動(dòng)學(xué)習(xí)地址樣本選擇策略進(jìn)行改進(jìn),由以下兩部分組成。1.基于改進(jìn)Transformer+CRF的中文地址分詞模型從模型研究入手,針對(duì)當(dāng)前主流的基于BiLSTM+CRF的中文地址分詞方法由于LSTM本身的結(jié)構(gòu)特點(diǎn)帶來(lái)的長(zhǎng)期依賴問(wèn)題和無(wú)法并行計(jì)算的缺點(diǎn),采用改進(jìn)Transformer代替BiLSTM進(jìn)行特征提取,一方面通過(guò)Attention機(jī)制使得模型在文本任一字符處都可以獲取到全局... 

【文章頁(yè)數(shù)】:73 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 研究背景與意義
    1.2 研究現(xiàn)狀
        1.2.1 中文分詞
        1.2.2 中文地址分詞
    1.3 本文研究?jī)?nèi)容
    1.4 組織結(jié)構(gòu)
    1.5 本章小結(jié)
第2章 相關(guān)技術(shù)綜述
    2.1 中文分詞方法
        2.1.1 基于詞典匹配的中文分詞方法
        2.1.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的中文分詞方法
        2.1.3 基于深度學(xué)習(xí)的中文分詞方法
    2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
        2.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)概述
        2.2.2 沿時(shí)間反向傳播算法
        2.2.3 長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)
        2.2.4 雙向LSTM神經(jīng)網(wǎng)絡(luò)
    2.3 主動(dòng)學(xué)習(xí)算法
        2.3.1 主動(dòng)學(xué)習(xí)算法概述
        2.3.2 主動(dòng)學(xué)習(xí)流程
    2.4 本章小結(jié)
第3章 地址語(yǔ)料數(shù)據(jù)及數(shù)據(jù)預(yù)處理
    3.1 地址語(yǔ)料數(shù)據(jù)
        3.1.1 標(biāo)準(zhǔn)結(jié)構(gòu)化地址
        3.1.2 非標(biāo)準(zhǔn)地址
    3.2 數(shù)據(jù)預(yù)處理
        3.2.1 數(shù)據(jù)清洗和篩選
        3.2.2 數(shù)據(jù)標(biāo)注
    3.3 本章小結(jié)
第4章 面向少量標(biāo)記數(shù)據(jù)的中文地址分詞方法
    4.1 總體架構(gòu)
    4.2 基于改進(jìn)Transformer+CRF的中文地址分詞模型
        4.2.1 問(wèn)題描述
        4.2.2 基于改進(jìn)Transformer+CRF的中文地址分詞模型
    4.3 地址樣本選擇策略
        4.3.1 問(wèn)題描述
        4.3.2 地址樣本選擇策略
    4.4 本章小結(jié)
第5章 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
    5.1 基于改進(jìn)Transformer+CRF的中文地址分詞模型
        5.1.1 數(shù)據(jù)準(zhǔn)備
        5.1.2 實(shí)驗(yàn)環(huán)境
        5.1.3 評(píng)價(jià)指標(biāo)
        5.1.4 實(shí)驗(yàn)設(shè)計(jì)
        5.1.5 實(shí)驗(yàn)結(jié)果與分析
    5.2 地址樣本選擇策略
        5.2.1 數(shù)據(jù)準(zhǔn)備
        5.2.2 實(shí)驗(yàn)環(huán)境
        5.2.3 評(píng)價(jià)指標(biāo)
        5.2.4 實(shí)驗(yàn)設(shè)計(jì)
        5.2.5 實(shí)驗(yàn)結(jié)果與分析
    5.3 本章小結(jié)
第6章 總結(jié)與展望
    6.1 總結(jié)
    6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間主要的研究成果
致謝


【參考文獻(xiàn)】:
期刊論文
[1]基于BiLSTM-CRF的中文層級(jí)地址分詞[J]. 程博,李衛(wèi)紅,童昊昕.  地球信息科學(xué)學(xué)報(bào). 2019(08)
[2]基于條件隨機(jī)場(chǎng)的非規(guī)范化中文地址解析方法[J]. 許也,申柏希,徐翔,李軍.  地理與地理信息科學(xué). 2019(02)
[3]統(tǒng)計(jì)決策樹下的城市地址集中文分詞[J]. 應(yīng)申,李威陽(yáng),賀彪,王維,萬(wàn)遠(yuǎn).  武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2019(02)
[4]基于λ-主動(dòng)學(xué)習(xí)方法的中文微博分詞[J]. 張婧,黃德根,黃鍇宇,劉壯,孟祥主.  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(03)
[5]基于LSTM網(wǎng)絡(luò)的中文地址分詞法的設(shè)計(jì)與實(shí)現(xiàn)[J]. 張文豪,盧山,程光.  計(jì)算機(jī)應(yīng)用研究. 2018(12)
[6]基于BI-LSTM-CRF模型的中文分詞法[J]. 張子睿,劉云清.  長(zhǎng)春理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(04)
[7]基于最近鄰的主動(dòng)學(xué)習(xí)分詞方法[J]. 梁喜濤,顧磊.  計(jì)算機(jī)科學(xué). 2015(06)
[8]地址要素識(shí)別機(jī)制的地名地址分詞算法[J]. 趙陽(yáng)陽(yáng),王亮,仇阿根.  測(cè)繪科學(xué). 2013(05)
[9]基于規(guī)則的中文地址要素解析方法[J]. 張雪英,閭國(guó)年,李伯秋,陳文君.  地球信息科學(xué)學(xué)報(bào). 2010(01)
[10]基于反序詞典的中文逆向最大匹配分詞系統(tǒng)設(shè)計(jì)[J]. 張李義,李亞子.  現(xiàn)代圖書情報(bào)技術(shù). 2006(08)

碩士論文
[1]基于條件隨機(jī)場(chǎng)的網(wǎng)絡(luò)文本分詞研究[D]. 崔彥翔.大連理工大學(xué) 2013



本文編號(hào):3702599

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3702599.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f3485***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com