基于N-Gram模型的蒙古語文本語種識(shí)別算法的研究
本文關(guān)鍵詞:基于N-Gram模型的蒙古語文本語種識(shí)別算法的研究
更多相關(guān)文章: 語種識(shí)別 N-Gram模型 平均距離識(shí)別算法 蒙古語文本
【摘要】:互聯(lián)網(wǎng)上蒙古語文本正在不斷地增加,如何讓網(wǎng)絡(luò)中的蒙古語內(nèi)容為搜索引擎和輿情分析等應(yīng)用提供服務(wù)引起了社會(huì)的高度關(guān)注。首先要解決如何采集網(wǎng)絡(luò)中蒙古語文本數(shù)據(jù),核心是準(zhǔn)確識(shí)別網(wǎng)絡(luò)中蒙古語文本的問題。該文提出了基于N-Gram模型的平均距離識(shí)別算法,建立了一個(gè)能夠?qū)δ繕?biāo)語種識(shí)別的實(shí)驗(yàn)平臺(tái)。實(shí)驗(yàn)結(jié)果表明,識(shí)別算法能夠很好地從中文、英文、蒙古文以及混合語言文本中識(shí)別出蒙古語文本,準(zhǔn)確率達(dá)到99.5%以上。
【作者單位】: 內(nèi)蒙古工業(yè)大學(xué)信息工程學(xué)院;
【關(guān)鍵詞】: 語種識(shí)別 N-Gram模型 平均距離識(shí)別算法 蒙古語文本
【基金】:國家自然科學(xué)基金(61363052) 內(nèi)蒙古自治區(qū)自然科學(xué)基金(2014MS0608) 內(nèi)蒙古自治區(qū)高等學(xué)?茖W(xué)研究項(xiàng)目(NJZY12052) 內(nèi)蒙古工業(yè)大學(xué)重點(diǎn)基金(ZD201118)
【分類號(hào)】:TP391.1
【正文快照】: 1研究背景蒙古語是古老的民族語言之一,是內(nèi)蒙古自治區(qū)的通用語言文字。蒙古語語言文字是一種以詞為單位豎寫的語言,詞與詞之間用空格分開,采取從上到下,從左到右的書寫順序。蒙古語語言文字有33個(gè)字母,其中7個(gè)元音、17個(gè)基本輔音和9個(gè)借詞輔音。字母可以放置在詞首、詞中和詞
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 S·蘇雅拉圖;蒙古語動(dòng)詞計(jì)算機(jī)生成研究[J];計(jì)算機(jī)學(xué)報(bào);2002年11期
2 唐恩博;熊曉曉;哈斯;;蒙古語詞匯語義網(wǎng)查詢平臺(tái)設(shè)計(jì)[J];電子技術(shù)與軟件工程;2013年19期
3 王斯日古楞;;英語到蒙古語轉(zhuǎn)換生成規(guī)則的研究[J];內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版);2005年04期
4 雪艷;;關(guān)于用XML語言組織蒙古語語料庫的設(shè)想[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版);2006年01期
5 趙斯琴,高光來,何敏;蒙古語語料庫的研究與建設(shè)[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年05期
6 伊·達(dá)瓦;張玉潔;上園一知;大川茂樹;章森;井佐原均;白井克彥;;蒙古語語言-文字的自動(dòng)化處理[J];中文信息學(xué)報(bào);2006年04期
7 包艷花;;關(guān)于進(jìn)一步提高蒙古語語料庫質(zhì)量的思考[J];呼倫貝爾學(xué)院學(xué)報(bào);2009年02期
8 侯宏旭;劉群;那順烏日?qǐng)D;;基于實(shí)例的漢蒙機(jī)器翻譯[J];中文信息學(xué)報(bào);2007年04期
9 ;[J];;年期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前5條
1 呼和;陶建華;;蒙古語和蒙古語的合成[A];第九屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2007年
2 達(dá)胡白乙拉;薩仁圖雅;;蒙古語助動(dòng)詞標(biāo)注與分析[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
3 華沙寶;巴達(dá)瑪敖德斯?fàn)?;蒙古語語料庫建設(shè)現(xiàn)狀分析和完善策略[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
4 德·薩日娜;;蒙古語屬格短語的類型分析[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
5 華沙寶;;蒙古語作者專門語料庫建設(shè)及新一代詞典編纂進(jìn)展[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 李慧;蒙古語語義知識(shí)詞典的研究與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2012年
2 陳紅波;基于蒙古語課程領(lǐng)域語義Web的推理與檢索方法的研究[D];內(nèi)蒙古工業(yè)大學(xué);2014年
3 樊川;基于蒙古語的自然災(zāi)害本體的研究[D];內(nèi)蒙古工業(yè)大學(xué);2014年
4 熊曉曉;基于蒙古語名詞語義網(wǎng)的同形詞歧義消除算法的研究[D];內(nèi)蒙古師范大學(xué);2015年
,本文編號(hào):893812
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/893812.html