呂蘇語(yǔ)口語(yǔ)標(biāo)注語(yǔ)料的自動(dòng)分詞方法研究
本文選題:呂蘇語(yǔ) + 漢語(yǔ)標(biāo)注語(yǔ)料; 參考:《計(jì)算機(jī)應(yīng)用研究》2017年05期
【摘要】:瀕危語(yǔ)言典藏以搶救和長(zhǎng)久保存瀕危語(yǔ)言口語(yǔ)中所包含的聲學(xué)、語(yǔ)言學(xué)以及文學(xué)、歷史、傳統(tǒng)文化等內(nèi)涵的全部信息為目的,呂蘇語(yǔ)作為一種無(wú)文字文獻(xiàn)記錄的瀕危語(yǔ)言,對(duì)其口語(yǔ)語(yǔ)料典藏意義重大。呂蘇語(yǔ)口語(yǔ)的漢語(yǔ)標(biāo)注語(yǔ)料自動(dòng)分詞是后續(xù)建立高質(zhì)量的呂蘇語(yǔ)口語(yǔ)語(yǔ)料庫(kù)和呂蘇語(yǔ)典藏系統(tǒng)的基礎(chǔ)性工作。目前對(duì)于呂蘇語(yǔ)標(biāo)注語(yǔ)料分詞的研究幾乎為零,對(duì)呂蘇語(yǔ)特點(diǎn)進(jìn)行了分析,同時(shí)將中文自動(dòng)分詞結(jié)巴方法應(yīng)用到呂蘇語(yǔ)漢語(yǔ)標(biāo)注語(yǔ)料中;并針對(duì)結(jié)巴分詞算法對(duì)呂蘇語(yǔ)標(biāo)注語(yǔ)料分詞存在的誤分詞問(wèn)題,提出了改進(jìn)結(jié)巴算法。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比,改進(jìn)結(jié)巴的分詞方法準(zhǔn)確率更高,提高了呂蘇語(yǔ)漢語(yǔ)標(biāo)注語(yǔ)料的分詞效果。
[Abstract]:The purpose of the endangered language collection is to save and preserve for a long time the acoustic, linguistic, literary, historical, traditional and other connotations contained in the spoken language of the endangered language. Lu Su, as an endangered language without written documentation, It is of great significance to the collection of oral data. The automatic segmentation of Chinese tagged corpus in Lu Su's spoken language is the basic work for the establishment of a high quality spoken corpus of Luthu and the collection system of Luthu. At present, the research on the tagging corpus segmentation of Lusu is almost zero. This paper analyzes the characteristics of Lusu, and applies the method of Chinese automatic segmentation and stutter to the Chinese tagging corpus of Lusu. In order to solve the problem of incorrect segmentation of Lusu tagged corpus, an improved algorithm of stutter is put forward. The experimental results show that the improved segmentation method is more accurate and improves the segmentation effect of Chinese tagging corpus in Luthu language.
【作者單位】: 北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院;中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所;
【基金】:國(guó)家社會(huì)科學(xué)基金重大資助項(xiàng)目(14ZDB156) 國(guó)家教育部人文社會(huì)科學(xué)研究規(guī)劃基金資助項(xiàng)目(15YJCZH224)
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 尹蔚彬;;從拉塢戎語(yǔ)看瀕危語(yǔ)言的特點(diǎn)[J];西北民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2016年02期
2 陶偉;;警務(wù)應(yīng)用中基于雙向最大匹配法的中文分詞算法實(shí)現(xiàn)[J];電子技術(shù)與軟件工程;2016年04期
3 尹蔚彬;;四川省藏區(qū)語(yǔ)言生態(tài)研究及價(jià)值[J];中國(guó)藏學(xué);2016年01期
4 馬寧;李亞超;何向真;于洪志;;一種實(shí)用的資源稀缺條件下的分詞方法[J];計(jì)算機(jī)應(yīng)用研究;2016年01期
5 胡發(fā)剛;謝軍;;基于文本挖掘的電商企業(yè)評(píng)論打分機(jī)制有效性驗(yàn)證[J];吉林工商學(xué)院學(xué)報(bào);2015年03期
6 徐世璇;;我國(guó)瀕危語(yǔ)言研究的歷程和前景[J];西北民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2015年01期
7 奉國(guó)和;鄭偉;;國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J];圖書情報(bào)工作;2011年02期
8 陳明華;殷景華;舒昌;王明江;;基于正反向最大匹配分詞系統(tǒng)的實(shí)現(xiàn)[J];信息技術(shù);2009年06期
9 趙偉,戴新宇,尹存燕,陳家駿;一種規(guī)則與統(tǒng)計(jì)相結(jié)合的漢語(yǔ)分詞方法[J];計(jì)算機(jī)應(yīng)用研究;2004年03期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 許宇華;黃倩云;;統(tǒng)一智能搜索處理技術(shù)的研究與應(yīng)用[J];自動(dòng)化與儀器儀表;2017年05期
2 劉鍇鋒;王紅軍;左云波;;基于本體及Web文本的數(shù)控機(jī)床知識(shí)獲取[J];電子測(cè)量與儀器學(xué)報(bào);2017年04期
3 于清;陳永杰;丁巖;;適用于醫(yī)療衛(wèi)生領(lǐng)域的中文分詞方法研究[J];新疆師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年01期
4 吳春燕;黃巧梅;劉海清;張捷;;文本主要信息的自動(dòng)獲取和主體挖掘[J];信息技術(shù)與信息化;2017年03期
5 徐懿彬;;基于Aho-Corasick自動(dòng)機(jī)算法的概率模型中文分詞CPACA算法[J];電子科技大學(xué)學(xué)報(bào);2017年02期
6 孔雪娜;孫紅;;中文微博文本采集與預(yù)處理綜述[J];軟件導(dǎo)刊;2017年02期
7 劉菖;;標(biāo)準(zhǔn)全文檢索系統(tǒng)及關(guān)鍵技術(shù)研究[J];標(biāo)準(zhǔn)科學(xué);2017年01期
8 鄭偉;;大數(shù)據(jù)對(duì)財(cái)務(wù)分析工作的影響和對(duì)策[J];財(cái)會(huì)學(xué)習(xí);2017年02期
9 張昭楠;馬亞蕾;;基于SQL Server的中文分詞系統(tǒng)設(shè)計(jì)及應(yīng)用[J];電子設(shè)計(jì)工程;2016年17期
10 于重重;操鐳;尹蔚彬;張澤宇;鄭雅;;呂蘇語(yǔ)口語(yǔ)標(biāo)注語(yǔ)料的自動(dòng)分詞方法研究[J];計(jì)算機(jī)應(yīng)用研究;2017年05期
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張孝飛;;藏語(yǔ)網(wǎng)絡(luò)語(yǔ)言生活調(diào)查分析與思考[J];西藏民族學(xué)院學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2013年06期
2 陳文娟;呂貴金;江靜;陳新一;;藏文網(wǎng)絡(luò)社區(qū)內(nèi)話題演變的研究[J];西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年03期
3 鄧競(jìng)偉;鄧凱英;李永生;李應(yīng)興;;基于藏文網(wǎng)絡(luò)的輿情傳播模型[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年03期
4 梅紹祖;;中美韓電子商務(wù)發(fā)展現(xiàn)狀分析研究[J];辦公自動(dòng)化;2011年13期
5 馬夢(mèng)玲;;青海境內(nèi)語(yǔ)言研究的語(yǔ)言生態(tài)學(xué)意義[J];青海師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2011年03期
6 范俊軍;;少數(shù)民族瀕危語(yǔ)言有聲語(yǔ)檔建設(shè)三論[J];北方民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2011年03期
7 范俊軍;;少數(shù)民族瀕危語(yǔ)言有聲語(yǔ)檔建設(shè)初探[J];中央民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2011年01期
8 范俊軍;;少數(shù)民族瀕危語(yǔ)言有聲語(yǔ)檔建設(shè)再論——OLAC技術(shù)規(guī)范及其適應(yīng)性[J];西北民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2010年06期
9 李實(shí);葉強(qiáng);李一軍;羅嗣卿;;挖掘中文網(wǎng)絡(luò)客戶評(píng)論的產(chǎn)品特征及情感傾向[J];計(jì)算機(jī)應(yīng)用研究;2010年08期
10 姚繼偉;趙東范;;基于短語(yǔ)匹配的中文分詞消歧方法[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2010年03期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張大方,戴明堅(jiān);多遍掃描聯(lián)想自動(dòng)分詞系統(tǒng)[J];微電子學(xué)與計(jì)算機(jī);1991年03期
2 張琪玉;;自動(dòng)抽詞與自動(dòng)分詞[J];圖書館雜志;2002年03期
3 陳斌;;基于數(shù)學(xué)設(shè)計(jì)的計(jì)算機(jī)自動(dòng)分詞算法[J];江西科學(xué);2009年05期
4 王成平;;彝文自動(dòng)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];中國(guó)西部科技;2012年03期
5 蘇惠明;;自動(dòng)分詞模型中的歧義字段消除探討[J];價(jià)值工程;2012年09期
6 王成平;金騁;;基于既定詞表的彝文自動(dòng)分詞技術(shù)研究[J];科學(xué)技術(shù)與工程;2012年10期
7 王成平;;計(jì)算機(jī)彝文自動(dòng)分詞技術(shù)的設(shè)計(jì)研究[J];湘潭大學(xué)自然科學(xué)學(xué)報(bào);2012年03期
8 江孝感,徐羅丁,李長(zhǎng)寧;漢語(yǔ)詞素自動(dòng)分詞的一個(gè)理想方法[J];現(xiàn)代圖書情報(bào)技術(shù);1989年02期
9 梁南元;漢語(yǔ)計(jì)算機(jī)自動(dòng)分詞知識(shí)[J];中文信息學(xué)報(bào);1990年02期
10 楊長(zhǎng)生,潘凌云;基于知識(shí)的漢語(yǔ)拼音自動(dòng)分詞[J];浙江大學(xué)學(xué)報(bào)(自然科學(xué)版);1992年02期
相關(guān)會(huì)議論文 前7條
1 黃昌寧;高劍峰;李沐;;對(duì)自動(dòng)分詞的反思[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
2 鄭澤之;;中文自動(dòng)分詞的一些問(wèn)題[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
3 徐潤(rùn)華;陳小荷;;一種利用注疏的《左傳》分詞新方法[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 黃昌寧;林娟;孫承杰;;何謂金本位[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
5 陳曉;;中文文本自動(dòng)分詞研究述要[A];第四屆全國(guó)語(yǔ)言文字應(yīng)用學(xué)術(shù)研討會(huì)論文集[C];2005年
6 劉懷t,
本文編號(hào):1923186
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1923186.html