無監(jiān)督分詞算法在新詞識(shí)別中的應(yīng)用
發(fā)布時(shí)間:2021-01-24 15:23
新詞識(shí)別過程中,使用分詞工具進(jìn)行預(yù)分詞的方法,受限于訓(xùn)練語料而對(duì)某些領(lǐng)域的分詞準(zhǔn)確率不佳.針對(duì)這個(gè)問題,本文提出了一種改進(jìn)方法.該方法首先基于元語言模型進(jìn)行無監(jiān)督預(yù)分詞,再將詞頻、互信息和鄰接熵作為主要特征進(jìn)行新詞發(fā)現(xiàn).同時(shí)方法中還結(jié)合了命名實(shí)體識(shí)別對(duì)發(fā)現(xiàn)的結(jié)果進(jìn)行過濾,得到候選詞組后使用網(wǎng)格搜索尋找最優(yōu)的超參數(shù)組合.實(shí)驗(yàn)選取四種不同領(lǐng)域的語料,在統(tǒng)一的超參數(shù)下,前10%的新詞準(zhǔn)確率分別達(dá)到了88. 3%、80. 5%、85. 9%、91. 9%.實(shí)驗(yàn)表明,這種無監(jiān)督的分詞方法適用于新詞識(shí)別領(lǐng)域,并具備良好的領(lǐng)域適應(yīng)性.
【文章來源】:小型微型計(jì)算機(jī)系統(tǒng). 2020,41(04)北大核心
【文章頁數(shù)】:5 頁
【部分圖文】:
算法流程圖
實(shí)驗(yàn)中需要重點(diǎn)對(duì)閾值超參數(shù)進(jìn)行搜索,其中包含詞頻閾值、互信息閾值、鄰接熵閾值.首先分析各特征對(duì)評(píng)價(jià)指標(biāo)的影響,如圖2-圖4所示.然后選取合適的區(qū)間和步長,構(gòu)成多維的網(wǎng)格空間,進(jìn)而進(jìn)行搜索.其中搜索中的評(píng)價(jià)指標(biāo)為F1值.本次實(shí)驗(yàn)中選取了頻次范圍為(5,20),互信息范圍為(5.0,15.0),鄰接熵范圍為(1.0,3.0),共構(gòu)成20000組參數(shù)進(jìn)行實(shí)驗(yàn),最終最優(yōu)參數(shù)組合為:頻次閾值為5,互信息閾值為5.6,鄰接熵閾值為1.4,搜索速度為326組/秒.5.4實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
互信息閾值對(duì)新詞識(shí)別結(jié)果的影響
【參考文獻(xiàn)】:
期刊論文
[1]N-gram模型綜述[J]. 尹陳,吳敏. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(10)
[2]面向中文社交媒體語料的無監(jiān)督新詞識(shí)別研究[J]. 張婧,黃鍇宇,梁晨,黃德根. 中文信息學(xué)報(bào). 2018(03)
[3]面向社會(huì)媒體的開放領(lǐng)域新詞發(fā)現(xiàn)[J]. 張華平,商建云. 中文信息學(xué)報(bào). 2017(03)
[4]基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)[J]. 杜麗萍,李曉戈,于根,劉春麗,劉睿. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(01)
[5]基于詞內(nèi)部結(jié)合度和邊界自由度的新詞發(fā)現(xiàn)[J]. 李文坤,張仰森,陳若愚. 計(jì)算機(jī)應(yīng)用研究. 2015(08)
[6]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶. 計(jì)算機(jī)學(xué)報(bào). 2015(02)
[7]一種基于改進(jìn)互信息和信息熵的文本特征選擇方法[J]. 成衛(wèi)青,唐旋. 南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(05)
[8]基于條件隨機(jī)場方法的開放領(lǐng)域新詞發(fā)現(xiàn)[J]. 陳飛,劉奕群,魏超,張?jiān)屏?張敏,馬少平. 軟件學(xué)報(bào). 2013(05)
[9]博客語料的新詞發(fā)現(xiàn)方法[J]. 黃軒,李熔烽. 現(xiàn)代電子技術(shù). 2013(02)
[10]中文新詞識(shí)別技術(shù)綜述[J]. 張海軍,史樹敏,朱朝勇,黃河燕. 計(jì)算機(jī)科學(xué). 2010(03)
本文編號(hào):2997478
【文章來源】:小型微型計(jì)算機(jī)系統(tǒng). 2020,41(04)北大核心
【文章頁數(shù)】:5 頁
【部分圖文】:
算法流程圖
實(shí)驗(yàn)中需要重點(diǎn)對(duì)閾值超參數(shù)進(jìn)行搜索,其中包含詞頻閾值、互信息閾值、鄰接熵閾值.首先分析各特征對(duì)評(píng)價(jià)指標(biāo)的影響,如圖2-圖4所示.然后選取合適的區(qū)間和步長,構(gòu)成多維的網(wǎng)格空間,進(jìn)而進(jìn)行搜索.其中搜索中的評(píng)價(jià)指標(biāo)為F1值.本次實(shí)驗(yàn)中選取了頻次范圍為(5,20),互信息范圍為(5.0,15.0),鄰接熵范圍為(1.0,3.0),共構(gòu)成20000組參數(shù)進(jìn)行實(shí)驗(yàn),最終最優(yōu)參數(shù)組合為:頻次閾值為5,互信息閾值為5.6,鄰接熵閾值為1.4,搜索速度為326組/秒.5.4實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
互信息閾值對(duì)新詞識(shí)別結(jié)果的影響
【參考文獻(xiàn)】:
期刊論文
[1]N-gram模型綜述[J]. 尹陳,吳敏. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(10)
[2]面向中文社交媒體語料的無監(jiān)督新詞識(shí)別研究[J]. 張婧,黃鍇宇,梁晨,黃德根. 中文信息學(xué)報(bào). 2018(03)
[3]面向社會(huì)媒體的開放領(lǐng)域新詞發(fā)現(xiàn)[J]. 張華平,商建云. 中文信息學(xué)報(bào). 2017(03)
[4]基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)[J]. 杜麗萍,李曉戈,于根,劉春麗,劉睿. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(01)
[5]基于詞內(nèi)部結(jié)合度和邊界自由度的新詞發(fā)現(xiàn)[J]. 李文坤,張仰森,陳若愚. 計(jì)算機(jī)應(yīng)用研究. 2015(08)
[6]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶. 計(jì)算機(jī)學(xué)報(bào). 2015(02)
[7]一種基于改進(jìn)互信息和信息熵的文本特征選擇方法[J]. 成衛(wèi)青,唐旋. 南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(05)
[8]基于條件隨機(jī)場方法的開放領(lǐng)域新詞發(fā)現(xiàn)[J]. 陳飛,劉奕群,魏超,張?jiān)屏?張敏,馬少平. 軟件學(xué)報(bào). 2013(05)
[9]博客語料的新詞發(fā)現(xiàn)方法[J]. 黃軒,李熔烽. 現(xiàn)代電子技術(shù). 2013(02)
[10]中文新詞識(shí)別技術(shù)綜述[J]. 張海軍,史樹敏,朱朝勇,黃河燕. 計(jì)算機(jī)科學(xué). 2010(03)
本文編號(hào):2997478
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2997478.html
最近更新
教材專著