中文分詞中未登錄詞分布規(guī)律及處理方法研究
本文關(guān)鍵詞:中文分詞中未登錄詞分布規(guī)律及處理方法研究
更多相關(guān)文章: 中文分詞 機(jī)器學(xué)習(xí) 未登錄詞 偽未登錄詞
【摘要】:本文以較大規(guī)模漢語(yǔ)語(yǔ)料庫(kù)為基礎(chǔ),對(duì)中文分詞中的未登錄詞分布規(guī)律進(jìn)行考察,提出了詞增長(zhǎng)代價(jià)、語(yǔ)料效率等評(píng)價(jià)指標(biāo),借此來(lái)定量考察語(yǔ)料規(guī)模與未登錄詞之間的內(nèi)在關(guān)系。調(diào)查結(jié)果顯示,隨著語(yǔ)料規(guī)模的不斷擴(kuò)大,未登錄詞的覆蓋率也隨之增大,但同時(shí)詞增長(zhǎng)代價(jià)也越來(lái)越大,而新增未登錄詞的詞例數(shù)占新增總詞例數(shù)的比例始終保持在一個(gè)較低水平,造成語(yǔ)料效率較低;谠撜{(diào)查結(jié)果,提出針對(duì)"偽未登錄詞"使用定向收集語(yǔ)料的方法來(lái)擴(kuò)充訓(xùn)練集,從而在不過(guò)分?jǐn)U大語(yǔ)料規(guī)模的前提下,更有針對(duì)性地為未登錄詞識(shí)別提供語(yǔ)言知識(shí),提高分詞的準(zhǔn)確率和領(lǐng)域適應(yīng)性。本文在SIGHAN組織的第二屆中文分詞評(píng)測(cè)語(yǔ)料上進(jìn)行實(shí)驗(yàn),結(jié)果顯示該方法能夠有效提高分詞準(zhǔn)確率。
【作者單位】: 解放軍外國(guó)語(yǔ)學(xué)院語(yǔ)言工程系;
【關(guān)鍵詞】: 中文分詞 機(jī)器學(xué)習(xí) 未登錄詞 偽未登錄詞
【分類(lèi)號(hào)】:H087
【正文快照】: 1.基于機(jī)器學(xué)習(xí)的中文分詞近年來(lái)機(jī)器學(xué)習(xí)方法被廣泛應(yīng)用到中文分詞之中,在相關(guān)分詞評(píng)測(cè)中獲得了較高的準(zhǔn)確率,被一些研究者認(rèn)為是當(dāng)前主流的分詞方法。(黃昌寧、趙海,2007;羅彥彥、黃根德,2009)利用機(jī)器學(xué)習(xí)方法進(jìn)行中文分詞的主要思路大概如下:1)構(gòu)建或選擇合適規(guī)模的分詞
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條
1 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報(bào);2007年03期
2 羅彥彥;黃德根;;基于CRFs邊緣概率的中文分詞[J];中文信息學(xué)報(bào);2009年05期
3 李壽山;黃居仁;;基于詞邊界分類(lèi)的中文分詞方法[J];中文信息學(xué)報(bào);2010年01期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 于江德;王希杰;;詞位標(biāo)注漢語(yǔ)分詞技術(shù)詳解[J];安陽(yáng)師范學(xué)院學(xué)報(bào);2010年05期
2 楊爾弘;;媒體5年詞語(yǔ)使用情況調(diào)查分析[J];北華大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2011年04期
3 劉文華;康海燕;;領(lǐng)域問(wèn)答系統(tǒng)生成器的研究[J];北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年03期
4 田占霄;韓憲忠;王克儉;;一種改進(jìn)的長(zhǎng)詞優(yōu)先逆向最大匹配分詞消歧策略[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2009年04期
5 李躍民;王浩;趙生慧;;有詞典中文分詞算法研究[J];滁州學(xué)院學(xué)報(bào);2008年03期
6 朱維彬;;語(yǔ)音合成中的語(yǔ)言學(xué)計(jì)算模型:現(xiàn)狀及展望[J];當(dāng)代語(yǔ)言學(xué);2009年02期
7 吳佩韋;李昌華;;一種基于Lucene的搜索推薦詞生成方法[J];電腦知識(shí)與技術(shù);2009年10期
8 明小娜;龍毅;錢(qián)程揚(yáng);張翎;;基于受限自然語(yǔ)言的GIS命令解析方法[J];地球信息科學(xué)學(xué)報(bào);2009年02期
9 朱聰慧;趙鐵軍;鄭德權(quán);;基于無(wú)向圖序列標(biāo)注模型的中文分詞詞性標(biāo)注一體化系統(tǒng)[J];電子與信息學(xué)報(bào);2010年03期
10 王希杰;;最大正向匹配分詞算法的VC++實(shí)現(xiàn)[J];福建電腦;2011年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 李金;宋陽(yáng);梁洪;;語(yǔ)言殘障患者醫(yī)療輔助系統(tǒng)設(shè)計(jì)[A];第九屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集Ⅱ[C];2011年
2 于江德;王希杰;樊孝忠;;漢語(yǔ)詞法分析中上文和下文孰重孰輕[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計(jì)量的多領(lǐng)域適應(yīng)性中文分詞方法[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細(xì)則[A];第五屆全國(guó)語(yǔ)言文字應(yīng)用學(xué)術(shù)研討會(huì)論文集[C];2007年
6 鄭亞斌;曹嘉偉;劉知遠(yuǎn);;基于最大匹配和馬爾科夫模型的對(duì)聯(lián)系統(tǒng)[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
7 李壽山;黃居仁;;基于詞邊界分類(lèi)的中文分詞方法[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
8 李月倫;常寶寶;;基于最大間隔馬爾可夫網(wǎng)模型的漢語(yǔ)分詞方法[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
9 丁大斌;黃昌寧;;漢語(yǔ)同音詞調(diào)查及拼音輸入法基線(xiàn)模型研究[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
10 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向?qū)@墨I(xiàn)的中文分詞技術(shù)的研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 荊濤;面向領(lǐng)域網(wǎng)頁(yè)的語(yǔ)義標(biāo)注若干問(wèn)題研究[D];吉林大學(xué);2011年
2 張海軍;基于大規(guī)模語(yǔ)料的中文新詞識(shí)別技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
3 屠曉;英文地址圖像識(shí)別與翻譯研究[D];華東師范大學(xué);2011年
4 李智星;用于文本分類(lèi)的簡(jiǎn)明語(yǔ)義分析技術(shù)研究[D];重慶大學(xué);2011年
5 陳博;WEB文本情感分類(lèi)中關(guān)鍵問(wèn)題的研究[D];北京郵電大學(xué);2008年
6 車(chē)海燕;面向中文自然語(yǔ)言Web文檔的自動(dòng)知識(shí)抽取和知識(shí)融合[D];吉林大學(xué);2008年
7 張格偉;基于工藝知識(shí)網(wǎng)格的可重構(gòu)CAPP系統(tǒng)關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2008年
8 胡東濱;決策問(wèn)題管理系統(tǒng)及其開(kāi)發(fā)組件研究[D];中南大學(xué);2008年
9 王小芳;文本主題域劃分與無(wú)監(jiān)督特征提取[D];吉林大學(xué);2009年
10 陳慧;基于DCC動(dòng)態(tài)流通語(yǔ)料庫(kù)的中文組織名考察與研究[D];北京語(yǔ)言大學(xué);2008年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 羅義兵;領(lǐng)域文本相似度計(jì)算方法研究[D];山東科技大學(xué);2010年
2 馮海瑛;《萬(wàn)歷野獲編》分詞理論與實(shí)踐[D];廣西師范學(xué)院;2010年
3 張燕麗;基于Winnow算法和CAPTCHA的垃圾短信過(guò)濾研究[D];鄭州大學(xué);2010年
4 劉金寧;詞性標(biāo)注體系對(duì)中文分詞的影響[D];大連理工大學(xué);2010年
5 王東亮;基于條件隨機(jī)場(chǎng)模型的中文人名識(shí)別的研究[D];大連理工大學(xué);2010年
6 趙蓮;大規(guī)模中英可比較語(yǔ)料庫(kù)構(gòu)建[D];大連理工大學(xué);2010年
7 紅霞;基于層疊條件隨機(jī)場(chǎng)的中文機(jī)構(gòu)名識(shí)別的研究[D];大連理工大學(xué);2010年
8 黃輝;基于LSI和SVC的網(wǎng)頁(yè)文本分類(lèi)算法研究[D];長(zhǎng)沙理工大學(xué);2010年
9 蘇保君;在線(xiàn)組合分類(lèi)器應(yīng)用于大規(guī)模垃圾郵件過(guò)濾的研究[D];浙江大學(xué);2010年
10 馬靜;基于web的數(shù)字化資源全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條
1 孫茂松,鄒嘉彥;漢語(yǔ)自動(dòng)分詞研究評(píng)述[J];當(dāng)代語(yǔ)言學(xué);2001年01期
2 吳春穎;王士同;;基于二元語(yǔ)法的N-最大概率中文粗分模型[J];計(jì)算機(jī)應(yīng)用;2007年12期
3 駱正清,陳增武,胡上序;一種改進(jìn)的MM分詞方法的算法設(shè)計(jì)[J];中文信息學(xué)報(bào);1996年03期
4 楊爾弘;方瑩;劉冬明;喬羽;;漢語(yǔ)自動(dòng)分詞和詞性標(biāo)注評(píng)測(cè)[J];中文信息學(xué)報(bào);2006年01期
5 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報(bào);2007年03期
6 趙海;揭春雨;;基于有效子串標(biāo)注的中文分詞[J];中文信息學(xué)報(bào);2007年05期
7 黃昌寧;中文信息處理中的分詞問(wèn)題[J];語(yǔ)言文字應(yīng)用;1997年01期
8 劉開(kāi)瑛;現(xiàn)代漢語(yǔ)自動(dòng)分詞評(píng)測(cè)技術(shù)研究[J];語(yǔ)言文字應(yīng)用;1997年01期
9 孫茂松;談?wù)劃h語(yǔ)分詞語(yǔ)料庫(kù)的一致性問(wèn)題[J];語(yǔ)言文字應(yīng)用;1999年02期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 ;徐立本教授[J];吉林大學(xué)社會(huì)科學(xué)學(xué)報(bào);2001年01期
2 韓彤;;基于歸納邏輯的人工智能研究[J];重慶科技學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版);2010年03期
3 里查德.S.米謝爾斯基;張令振;;人工智能和機(jī)器學(xué)習(xí)[J];應(yīng)用心理學(xué);1988年02期
4 易勇;鄭艷;何中市;李良炎;;基于機(jī)器學(xué)習(xí)的古典詩(shī)詞作者的判別研究[J];心智與計(jì)算;2007年03期
5 張寶燕;毛海飛;;漢語(yǔ)框架網(wǎng)絡(luò)學(xué)習(xí)策略研究[J];山西電子技術(shù);2008年06期
6 劉小虎,李生;機(jī)器翻譯系統(tǒng)中基于機(jī)器學(xué)習(xí)的目標(biāo)詞選擇[J];計(jì)算機(jī)研究與發(fā)展;1998年10期
7 王培鐸;幾類(lèi)基本學(xué)習(xí)認(rèn)知模型[J];武警學(xué)院學(xué)報(bào);1999年06期
8 鞠實(shí)兒;關(guān)于科學(xué)發(fā)現(xiàn)機(jī)器的研究[J];中山大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);1990年03期
9 ;學(xué)科帶頭人鐘明軍博士簡(jiǎn)介[J];大連民族學(xué)院學(xué)報(bào);2008年01期
10 揚(yáng)子江;;王胡裝機(jī)被宰記[J];電腦采購(gòu)周刊;2002年06期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 徐禮勝;李乃民;王寬全;張冬雨;耿斌;姜曉睿;陳超海;羅貴存;;機(jī)器學(xué)習(xí)在中醫(yī)計(jì)算機(jī)診斷識(shí)別系統(tǒng)中的應(yīng)用思考[A];第一屆全國(guó)中西醫(yī)結(jié)合診斷學(xué)術(shù)會(huì)議論文選集[C];2006年
2 李月倫;常寶寶;;基于最大間隔馬爾可夫網(wǎng)模型的漢語(yǔ)分詞方法[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
3 謝世朋;胡茂林;;基于局部仿射區(qū)域?qū)ο∈杓y理分類(lèi)的研究[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
4 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲(chóng)的研究[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年
5 張郴;;基于神經(jīng)網(wǎng)絡(luò)集成的旅游需求預(yù)測(cè)模型[A];中國(guó)地理學(xué)會(huì)百年慶典學(xué)術(shù)論文摘要集[C];2009年
6 吳憲祥;于培松;萬(wàn)e,
本文編號(hào):698851
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/698851.html