基于N-gram的維、哈、柯文網(wǎng)頁(yè)文種識(shí)別研究
發(fā)布時(shí)間:2017-04-03 07:07
本文關(guān)鍵詞:基于N-gram的維、哈、柯文網(wǎng)頁(yè)文種識(shí)別研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:文種識(shí)別(Language Identification,簡(jiǎn)稱LID)是一種識(shí)別已用于書寫各種類型的文檔的預(yù)定義的語(yǔ)言的過程,經(jīng)常被用作機(jī)器翻譯,分類,搜索,信息檢索中的文本處理系統(tǒng)的第一步。在我們做諸如生成詞典,配置文件,停用詞列表等一系列相關(guān)工作之前需要知道給定文本的語(yǔ)言類別。維吾爾文、哈薩克文和柯爾克孜文(簡(jiǎn)稱維、哈、柯文)是新疆少數(shù)民族最常使用的三種語(yǔ)言,三者同屬阿爾泰語(yǔ)系突厥語(yǔ)族,屬黏著型語(yǔ)言,單詞的形態(tài)變化十分豐富,導(dǎo)致使用者難以避免拼寫和語(yǔ)法錯(cuò)誤。基于上述情況,本文使用了基于N-gram的三種方法對(duì)維、哈、柯文網(wǎng)頁(yè)的文種識(shí)別進(jìn)行研究,因?yàn)榛贜-gram的方法是可靠的,對(duì)拼寫錯(cuò)誤、語(yǔ)法錯(cuò)誤和其它各種文本錯(cuò)誤的容錯(cuò)能力強(qiáng),無需了解語(yǔ)言相關(guān)知識(shí)。本文從互聯(lián)網(wǎng)上提取2512篇維吾爾文,2137篇哈薩克文,1274篇柯爾克孜文網(wǎng)頁(yè)文本文檔,均以.txt文本格式進(jìn)行保存,形成了原始的語(yǔ)料集。之后大致按照2:1的比例將這三種語(yǔ)言的語(yǔ)料集分成了訓(xùn)練集和測(cè)試集兩部分,分別選用N=2,3,4,5項(xiàng),使用頻率統(tǒng)計(jì)方法構(gòu)建了每種語(yǔ)言的N-gram特征庫(kù)。使用了基于距離測(cè)量的ONG方法,基于布爾匹配的MNG方法,以及同時(shí)使用了N-gram頻率和N-gram位置的ING方法,分別選取了這三種語(yǔ)言N-gram特征庫(kù)中的前100,200,300,400,500個(gè)特征進(jìn)行了維、哈、柯文網(wǎng)頁(yè)文種識(shí)別實(shí)驗(yàn),并使用精度、召回率和F1方法評(píng)估了這三種方法的有效性。實(shí)驗(yàn)結(jié)果表明,MNG方法對(duì)三種語(yǔ)言的識(shí)別性能最佳,ING方法次之,ONG方法識(shí)別效果最差。整體來說,參數(shù)N=2時(shí),三種方法的識(shí)別效果都是最好的,且三種方法均對(duì)維文的識(shí)別性能最好,哈文次之,對(duì)柯文的識(shí)別最差。基于上述工作,本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于N-gram的維、哈、柯文網(wǎng)頁(yè)文種識(shí)別系統(tǒng)。
【關(guān)鍵詞】:維吾爾文、哈薩克文、柯爾克孜文 網(wǎng)頁(yè)文種識(shí)別 N-gram方法
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092;TP391.1
本文關(guān)鍵詞:基于N-gram的維、哈、柯文網(wǎng)頁(yè)文種識(shí)別研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):283898
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/283898.html
最近更新
教材專著