基于特征對齊的中文分詞和用戶標(biāo)識識別研究
發(fā)布時間:2021-11-03 14:17
中文分詞是自然語言處理中的基石,由于中文在文本中的特殊性,它并不像英文一樣有明顯的空格分隔開,而是以單個字為單位,因此如果需要從文本中獲取有用的信息,一定需要有正確分詞后的文本,才能更好地進(jìn)行下一步的自然語言處理方面的工作。然而中文分詞的兩大難點——真歧義以及未登錄詞,至今仍舊沒有很好地解決。面對網(wǎng)絡(luò)上用戶的復(fù)雜信息,作為命名實體識別中必不可少的一部分,用戶標(biāo)識識別就可以發(fā)揮其作用。序列標(biāo)注模型在處理中文分詞和命名實體識別這一塊是卓有成效的,而條件隨機(jī)場更是序列標(biāo)注方法中的佼佼者。為了進(jìn)一步提高中文分詞的效果以及用戶標(biāo)識識別的準(zhǔn)確性,本文提出了一種基于特征對齊的方法,然后將分類器與條件隨機(jī)場結(jié)合來進(jìn)行序列標(biāo)注的任務(wù)。為了構(gòu)建特征對齊的序列標(biāo)注模型,本文主要完成的工作如下:1.結(jié)合分類器和條件隨機(jī)場的算法,提出了一種基于特征對齊的中文分詞方法。首先,針對文本中的字符二元組,抽取字符二元組的詞頻、信息熵、互信息、數(shù)字、標(biāo)點、句子語境等共19項特征,將每一個字符二元組表示成一個19維的向量。其次,對于關(guān)于頻數(shù)的13項特征利用地球移動距離(EMD)的方法使得標(biāo)記數(shù)據(jù)和無標(biāo)記數(shù)據(jù)進(jìn)行特征對齊,從...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
網(wǎng)絡(luò)新詞
遷移學(xué)習(xí)的實例
EMD示意圖
【參考文獻(xiàn)】:
期刊論文
[1]Xgboost算法在區(qū)域用電預(yù)測中的應(yīng)用![J]. 許裕栗,楊晶,李檸,甘中學(xué). 自動化儀表. 2018(07)
[2]基于XGBoost的企業(yè)倒閉風(fēng)險預(yù)測[J]. 石濤. 無線互聯(lián)科技. 2018(08)
[3]基于隱馬爾可夫模型在股票擇時上的應(yīng)用與研究[J]. 王曠羽. 電腦編程技巧與維護(hù). 2018(04)
[4]基于GBDT的商品分配層次化預(yù)測模型[J]. 朱振峰,湯靜遠(yuǎn),常冬霞,趙耀. 北京交通大學(xué)學(xué)報. 2018(02)
[5]基于GBDT和HOG特征的人臉關(guān)鍵點定位[J]. 張重生,彭國雯,于珂珂. 河南大學(xué)學(xué)報(自然科學(xué)版). 2018(02)
[6]基于Bi-LSTM的醫(yī)療事件識別研究[J]. 侯偉濤,姬東鴻. 計算機(jī)應(yīng)用研究. 2018(07)
[7]基于雙線性函數(shù)注意力Bi-LSTM模型的機(jī)器閱讀理解[J]. 劉飛龍,郝文寧,陳剛,靳大尉,宋佳星. 計算機(jī)科學(xué). 2017(S1)
[8]基于最大熵馬爾科夫模型的績效評價方法[J]. 朱磊,牛綠茵,宋士吉,張玉利. 控制理論與應(yīng)用. 2017(03)
[9]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶. 計算機(jī)學(xué)報. 2015(02)
[10]基于條件隨機(jī)場方法的開放領(lǐng)域新詞發(fā)現(xiàn)[J]. 陳飛,劉奕群,魏超,張云亮,張敏,馬少平. 軟件學(xué)報. 2013(05)
本文編號:3473841
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
網(wǎng)絡(luò)新詞
遷移學(xué)習(xí)的實例
EMD示意圖
【參考文獻(xiàn)】:
期刊論文
[1]Xgboost算法在區(qū)域用電預(yù)測中的應(yīng)用![J]. 許裕栗,楊晶,李檸,甘中學(xué). 自動化儀表. 2018(07)
[2]基于XGBoost的企業(yè)倒閉風(fēng)險預(yù)測[J]. 石濤. 無線互聯(lián)科技. 2018(08)
[3]基于隱馬爾可夫模型在股票擇時上的應(yīng)用與研究[J]. 王曠羽. 電腦編程技巧與維護(hù). 2018(04)
[4]基于GBDT的商品分配層次化預(yù)測模型[J]. 朱振峰,湯靜遠(yuǎn),常冬霞,趙耀. 北京交通大學(xué)學(xué)報. 2018(02)
[5]基于GBDT和HOG特征的人臉關(guān)鍵點定位[J]. 張重生,彭國雯,于珂珂. 河南大學(xué)學(xué)報(自然科學(xué)版). 2018(02)
[6]基于Bi-LSTM的醫(yī)療事件識別研究[J]. 侯偉濤,姬東鴻. 計算機(jī)應(yīng)用研究. 2018(07)
[7]基于雙線性函數(shù)注意力Bi-LSTM模型的機(jī)器閱讀理解[J]. 劉飛龍,郝文寧,陳剛,靳大尉,宋佳星. 計算機(jī)科學(xué). 2017(S1)
[8]基于最大熵馬爾科夫模型的績效評價方法[J]. 朱磊,牛綠茵,宋士吉,張玉利. 控制理論與應(yīng)用. 2017(03)
[9]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶. 計算機(jī)學(xué)報. 2015(02)
[10]基于條件隨機(jī)場方法的開放領(lǐng)域新詞發(fā)現(xiàn)[J]. 陳飛,劉奕群,魏超,張云亮,張敏,馬少平. 軟件學(xué)報. 2013(05)
本文編號:3473841
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3473841.html
最近更新
教材專著