天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 漢語言論文 >

中文分詞中未登錄詞分布規(guī)律及處理方法研究

發(fā)布時間:2017-08-19 05:12

  本文關(guān)鍵詞:中文分詞中未登錄詞分布規(guī)律及處理方法研究


  更多相關(guān)文章: 中文分詞 機器學(xué)習(xí) 未登錄詞 偽未登錄詞


【摘要】:本文以較大規(guī)模漢語語料庫為基礎(chǔ),對中文分詞中的未登錄詞分布規(guī)律進行考察,提出了詞增長代價、語料效率等評價指標(biāo),借此來定量考察語料規(guī)模與未登錄詞之間的內(nèi)在關(guān)系。調(diào)查結(jié)果顯示,隨著語料規(guī)模的不斷擴大,未登錄詞的覆蓋率也隨之增大,但同時詞增長代價也越來越大,而新增未登錄詞的詞例數(shù)占新增總詞例數(shù)的比例始終保持在一個較低水平,造成語料效率較低;谠撜{(diào)查結(jié)果,提出針對"偽未登錄詞"使用定向收集語料的方法來擴充訓(xùn)練集,從而在不過分?jǐn)U大語料規(guī)模的前提下,更有針對性地為未登錄詞識別提供語言知識,提高分詞的準(zhǔn)確率和領(lǐng)域適應(yīng)性。本文在SIGHAN組織的第二屆中文分詞評測語料上進行實驗,結(jié)果顯示該方法能夠有效提高分詞準(zhǔn)確率。
【作者單位】: 解放軍外國語學(xué)院語言工程系;
【關(guān)鍵詞】中文分詞 機器學(xué)習(xí) 未登錄詞 偽未登錄詞
【分類號】:H087
【正文快照】: 1.基于機器學(xué)習(xí)的中文分詞近年來機器學(xué)習(xí)方法被廣泛應(yīng)用到中文分詞之中,在相關(guān)分詞評測中獲得了較高的準(zhǔn)確率,被一些研究者認(rèn)為是當(dāng)前主流的分詞方法。(黃昌寧、趙海,2007;羅彥彥、黃根德,2009)利用機器學(xué)習(xí)方法進行中文分詞的主要思路大概如下:1)構(gòu)建或選擇合適規(guī)模的分詞

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前3條

1 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報;2007年03期

2 羅彥彥;黃德根;;基于CRFs邊緣概率的中文分詞[J];中文信息學(xué)報;2009年05期

3 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[J];中文信息學(xué)報;2010年01期

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 于江德;王希杰;;詞位標(biāo)注漢語分詞技術(shù)詳解[J];安陽師范學(xué)院學(xué)報;2010年05期

2 楊爾弘;;媒體5年詞語使用情況調(diào)查分析[J];北華大學(xué)學(xué)報(社會科學(xué)版);2011年04期

3 劉文華;康海燕;;領(lǐng)域問答系統(tǒng)生成器的研究[J];北京信息科技大學(xué)學(xué)報(自然科學(xué)版);2009年03期

4 田占霄;韓憲忠;王克儉;;一種改進的長詞優(yōu)先逆向最大匹配分詞消歧策略[J];河北農(nóng)業(yè)大學(xué)學(xué)報;2009年04期

5 李躍民;王浩;趙生慧;;有詞典中文分詞算法研究[J];滁州學(xué)院學(xué)報;2008年03期

6 朱維彬;;語音合成中的語言學(xué)計算模型:現(xiàn)狀及展望[J];當(dāng)代語言學(xué);2009年02期

7 吳佩韋;李昌華;;一種基于Lucene的搜索推薦詞生成方法[J];電腦知識與技術(shù);2009年10期

8 明小娜;龍毅;錢程揚;張翎;;基于受限自然語言的GIS命令解析方法[J];地球信息科學(xué)學(xué)報;2009年02期

9 朱聰慧;趙鐵軍;鄭德權(quán);;基于無向圖序列標(biāo)注模型的中文分詞詞性標(biāo)注一體化系統(tǒng)[J];電子與信息學(xué)報;2010年03期

10 王希杰;;最大正向匹配分詞算法的VC++實現(xiàn)[J];福建電腦;2011年04期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 李金;宋陽;梁洪;;語言殘障患者醫(yī)療輔助系統(tǒng)設(shè)計[A];第九屆全國信息獲取與處理學(xué)術(shù)會議論文集Ⅱ[C];2011年

2 于江德;王希杰;樊孝忠;;漢語詞法分析中上文和下文孰重孰輕[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年

3 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計量的多領(lǐng)域適應(yīng)性中文分詞方法[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年

4 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年

5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細(xì)則[A];第五屆全國語言文字應(yīng)用學(xué)術(shù)研討會論文集[C];2007年

6 鄭亞斌;曹嘉偉;劉知遠(yuǎn);;基于最大匹配和馬爾科夫模型的對聯(lián)系統(tǒng)[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年

7 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年

8 李月倫;常寶寶;;基于最大間隔馬爾可夫網(wǎng)模型的漢語分詞方法[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年

9 丁大斌;黃昌寧;;漢語同音詞調(diào)查及拼音輸入法基線模型研究[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年

10 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向?qū)@墨I(xiàn)的中文分詞技術(shù)的研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 荊濤;面向領(lǐng)域網(wǎng)頁的語義標(biāo)注若干問題研究[D];吉林大學(xué);2011年

2 張海軍;基于大規(guī)模語料的中文新詞識別技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2011年

3 屠曉;英文地址圖像識別與翻譯研究[D];華東師范大學(xué);2011年

4 李智星;用于文本分類的簡明語義分析技術(shù)研究[D];重慶大學(xué);2011年

5 陳博;WEB文本情感分類中關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年

6 車海燕;面向中文自然語言Web文檔的自動知識抽取和知識融合[D];吉林大學(xué);2008年

7 張格偉;基于工藝知識網(wǎng)格的可重構(gòu)CAPP系統(tǒng)關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2008年

8 胡東濱;決策問題管理系統(tǒng)及其開發(fā)組件研究[D];中南大學(xué);2008年

9 王小芳;文本主題域劃分與無監(jiān)督特征提取[D];吉林大學(xué);2009年

10 陳慧;基于DCC動態(tài)流通語料庫的中文組織名考察與研究[D];北京語言大學(xué);2008年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 羅義兵;領(lǐng)域文本相似度計算方法研究[D];山東科技大學(xué);2010年

2 馮海瑛;《萬歷野獲編》分詞理論與實踐[D];廣西師范學(xué)院;2010年

3 張燕麗;基于Winnow算法和CAPTCHA的垃圾短信過濾研究[D];鄭州大學(xué);2010年

4 劉金寧;詞性標(biāo)注體系對中文分詞的影響[D];大連理工大學(xué);2010年

5 王東亮;基于條件隨機場模型的中文人名識別的研究[D];大連理工大學(xué);2010年

6 趙蓮;大規(guī)模中英可比較語料庫構(gòu)建[D];大連理工大學(xué);2010年

7 紅霞;基于層疊條件隨機場的中文機構(gòu)名識別的研究[D];大連理工大學(xué);2010年

8 黃輝;基于LSI和SVC的網(wǎng)頁文本分類算法研究[D];長沙理工大學(xué);2010年

9 蘇保君;在線組合分類器應(yīng)用于大規(guī)模垃圾郵件過濾的研究[D];浙江大學(xué);2010年

10 馬靜;基于web的數(shù)字化資源全文檢索系統(tǒng)的設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2010年

【二級參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前9條

1 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當(dāng)代語言學(xué);2001年01期

2 吳春穎;王士同;;基于二元語法的N-最大概率中文粗分模型[J];計算機應(yīng)用;2007年12期

3 駱正清,陳增武,胡上序;一種改進的MM分詞方法的算法設(shè)計[J];中文信息學(xué)報;1996年03期

4 楊爾弘;方瑩;劉冬明;喬羽;;漢語自動分詞和詞性標(biāo)注評測[J];中文信息學(xué)報;2006年01期

5 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報;2007年03期

6 趙海;揭春雨;;基于有效子串標(biāo)注的中文分詞[J];中文信息學(xué)報;2007年05期

7 黃昌寧;中文信息處理中的分詞問題[J];語言文字應(yīng)用;1997年01期

8 劉開瑛;現(xiàn)代漢語自動分詞評測技術(shù)研究[J];語言文字應(yīng)用;1997年01期

9 孫茂松;談?wù)劃h語分詞語料庫的一致性問題[J];語言文字應(yīng)用;1999年02期

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 ;徐立本教授[J];吉林大學(xué)社會科學(xué)學(xué)報;2001年01期

2 韓彤;;基于歸納邏輯的人工智能研究[J];重慶科技學(xué)院學(xué)報(社會科學(xué)版);2010年03期

3 里查德.S.米謝爾斯基;張令振;;人工智能和機器學(xué)習(xí)[J];應(yīng)用心理學(xué);1988年02期

4 易勇;鄭艷;何中市;李良炎;;基于機器學(xué)習(xí)的古典詩詞作者的判別研究[J];心智與計算;2007年03期

5 張寶燕;毛海飛;;漢語框架網(wǎng)絡(luò)學(xué)習(xí)策略研究[J];山西電子技術(shù);2008年06期

6 劉小虎,李生;機器翻譯系統(tǒng)中基于機器學(xué)習(xí)的目標(biāo)詞選擇[J];計算機研究與發(fā)展;1998年10期

7 王培鐸;幾類基本學(xué)習(xí)認(rèn)知模型[J];武警學(xué)院學(xué)報;1999年06期

8 鞠實兒;關(guān)于科學(xué)發(fā)現(xiàn)機器的研究[J];中山大學(xué)學(xué)報(社會科學(xué)版);1990年03期

9 ;學(xué)科帶頭人鐘明軍博士簡介[J];大連民族學(xué)院學(xué)報;2008年01期

10 揚子江;;王胡裝機被宰記[J];電腦采購周刊;2002年06期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 徐禮勝;李乃民;王寬全;張冬雨;耿斌;姜曉睿;陳超海;羅貴存;;機器學(xué)習(xí)在中醫(yī)計算機診斷識別系統(tǒng)中的應(yīng)用思考[A];第一屆全國中西醫(yī)結(jié)合診斷學(xué)術(shù)會議論文選集[C];2006年

2 李月倫;常寶寶;;基于最大間隔馬爾可夫網(wǎng)模型的漢語分詞方法[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年

3 謝世朋;胡茂林;;基于局部仿射區(qū)域?qū)ο∈杓y理分類的研究[A];第一屆建立和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2005)論文集[C];2005年

4 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲的研究[A];第十屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2009年

5 張郴;;基于神經(jīng)網(wǎng)絡(luò)集成的旅游需求預(yù)測模型[A];中國地理學(xué)會百年慶典學(xué)術(shù)論文摘要集[C];2009年

6 吳憲祥;于培松;萬e,

本文編號:698851


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/698851.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶01ed0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com