哈薩克語(yǔ)文本分類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:哈薩克語(yǔ)文本分類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
《電子科技大學(xué)》 2014年
哈薩克語(yǔ)文本分類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
木回提
【摘要】:近些年隨著計(jì)算機(jī)技術(shù)在新疆少數(shù)民族地區(qū)的廣泛應(yīng)用,基于哈薩克文的電子文檔也逐漸增加,并且堆積起來(lái)。如何對(duì)這些越來(lái)越多的電子文檔數(shù)據(jù)進(jìn)行有效的管理,并為廣大的用戶(hù)提供方便快捷的信息檢索成為了數(shù)據(jù)挖掘技術(shù)的一個(gè)重要內(nèi)容。文本分類(lèi)就是針對(duì)于這一問(wèn)題的一門(mén)技術(shù),并為此提出了一系列的解決方案。文本分類(lèi)這一人工智能信息處理技術(shù),主要應(yīng)用于信息的過(guò)濾、信息的檢索、數(shù)據(jù)庫(kù)應(yīng)用和數(shù)字圖書(shū)館建設(shè)等領(lǐng)域。文本分類(lèi)就是將待分類(lèi)的文本根據(jù)內(nèi)容自動(dòng)劃分到預(yù)先規(guī)定好的類(lèi)別中。文本分類(lèi)的步驟一般包括文本預(yù)處理、特征選擇、特征權(quán)值計(jì)算、分類(lèi)和性能評(píng)估等。特征權(quán)重計(jì)算是文本分類(lèi)中關(guān)鍵的一個(gè)環(huán)節(jié),關(guān)系到文本分類(lèi)的最終結(jié)果和質(zhì)量。傳統(tǒng)的特征權(quán)重計(jì)算算法IDFTF-是重點(diǎn)考慮該特征項(xiàng)在一篇文本中出現(xiàn)的次數(shù),同時(shí)在其他文本中出現(xiàn)較少這樣的特性。在特征選擇的過(guò)程中實(shí)現(xiàn)了利用詞頻統(tǒng)計(jì)信息和語(yǔ)言信息相結(jié)合的方法,計(jì)算特征項(xiàng)詞匯的權(quán)重值時(shí)不僅考慮詞頻,還對(duì)特征項(xiàng)詞匯的集中度、分散度進(jìn)行計(jì)算。利用上述信息對(duì)訓(xùn)練集文本和測(cè)試集文本中的每一類(lèi)文本形成特征項(xiàng)詞匯的權(quán)重向量,形成所有訓(xùn)練集文本的多維向量空間,并利用K最近距離方法得到對(duì)測(cè)試集文本的分類(lèi)結(jié)果。通過(guò)此方法有效提高了哈薩克文文本分類(lèi)的準(zhǔn)確率,取得了較好的效果。本文利用K最近距離方法,對(duì)哈薩克語(yǔ)文本信息進(jìn)行分類(lèi)研究(主要針對(duì)哈薩克文報(bào)紙中的文本),介紹了文本分類(lèi)的相關(guān)技術(shù)及有關(guān)算法,利用軟件工程的基本思想設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)用于哈薩克語(yǔ)文本的分類(lèi)系統(tǒng)。本系統(tǒng)分為以下幾個(gè)部分:(1)哈薩克語(yǔ)文本預(yù)處理模塊,主要處理哈薩克文的分詞,詞干提取和停用詞過(guò)濾;(2)詞頻統(tǒng)計(jì)模塊,按照K最近距離方法的要求以及特征選取算法的特點(diǎn)從哈薩克語(yǔ)文本中統(tǒng)計(jì)文檔中特征詞的出現(xiàn)頻率;(3)特征選擇模塊;(4)權(quán)重計(jì)算模塊,實(shí)現(xiàn)TF和IDFTF-的計(jì)算;(5)分類(lèi)器實(shí)現(xiàn)算法,實(shí)現(xiàn)K最近距離的哈薩克語(yǔ)文本分類(lèi)算法;(6)分類(lèi)器評(píng)價(jià)模塊,從查全率、查準(zhǔn)率等方面進(jìn)行評(píng)價(jià)。同時(shí)進(jìn)行了一定的軟件測(cè)試方面的工作。
【關(guān)鍵詞】:
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP311.52;TP391.1
【目錄】:
下載全文 更多同類(lèi)文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買(mǎi)知網(wǎng)充值卡、在線(xiàn)充值、在線(xiàn)咨詢(xún))
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條
1 吐?tīng)柛ひ啦祭?袁保社;;新疆少數(shù)民族語(yǔ)言文字信息處理研究與應(yīng)用[J];中文信息學(xué)報(bào);2011年06期
2 艾海麥提江·阿布來(lái)提;吐?tīng)柕亍ね泻咸?艾斯卡爾·艾木都拉;;基于Naive Bayes的維吾爾文文本分類(lèi)算法及其性能分析[J];計(jì)算機(jī)應(yīng)用與軟件;2012年12期
3 耿世民;;哈薩克族的語(yǔ)言和文字[J];西北民族研究;2006年02期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李淑霞;馬英連;;新疆哈薩克文字地圖的編制[J];測(cè)繪標(biāo)準(zhǔn)化;2008年01期
2 穆妮熱·穆合塔爾;艾孜爾古麗;玉素甫·艾白都拉;;現(xiàn)代維吾爾語(yǔ)簡(jiǎn)單句識(shí)別研究[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2014年13期
3 楊建萍;年梅;買(mǎi)日葉木·卡地爾;;維吾爾文初中生物教材中生物詞匯的統(tǒng)計(jì)分析[J];電腦知識(shí)與技術(shù);2015年13期
4 王亞娟;;面向機(jī)器翻譯的漢維詞語(yǔ)對(duì)齊規(guī)范研究[J];電腦知識(shí)與技術(shù);2015年20期
5 莫禮平;曾水玲;周愷卿;;音形結(jié)合的方塊苗文輸入編碼方案研究[J];計(jì)算機(jī)科學(xué)與探索;2014年08期
6 買(mǎi)買(mǎi)提依明·哈斯木;吾守爾·斯拉木;維尼拉·木沙江;努爾麥麥提·尤魯瓦斯;;基于統(tǒng)計(jì)專(zhuān)用字符的維、哈、柯文文種識(shí)別研究[J];中文信息學(xué)報(bào);2015年02期
7 李波;王江晴;魏紅昀;孫陽(yáng)光;王新年;徐凌;;一種女書(shū)手寫(xiě)字符規(guī)范字形自動(dòng)生成方法[J];中文信息學(xué)報(bào);2015年02期
8 柯慶梅;;Characteristics Studies on Kazak Place Names in Ili Kazak Autonomous Prefecture[J];海外英語(yǔ);2015年17期
9 鄒岳琳;吐?tīng)柛ひ啦祭?麥熱哈巴·艾力;艾山·吾買(mǎi)爾;帕力旦·吐?tīng)栠d;;基于詞干提取的維吾爾語(yǔ)事件類(lèi)時(shí)間短語(yǔ)識(shí)別[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年02期
10 阿米妮古麗·奧斯曼;加日拉·買(mǎi)買(mǎi)提熱依木;吐?tīng)柛ひ啦祭?;維漢/漢維機(jī)器翻譯譯后編輯器的設(shè)計(jì)與實(shí)現(xiàn)[J];新疆大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年04期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 朱澤德;網(wǎng)絡(luò)雙語(yǔ)語(yǔ)料挖掘關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2014年
2 麥熱哈巴·艾力;基于實(shí)例的維漢機(jī)器翻譯若干關(guān)鍵問(wèn)題研究[D];新疆大學(xué);2014年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 黃小勇;獨(dú)立后吉爾吉斯斯坦語(yǔ)言政策及其特征研究[D];新疆師范大學(xué);2011年
2 李萍;高考信息采集與考務(wù)管理系統(tǒng)多語(yǔ)言支持研究[D];新疆農(nóng)業(yè)大學(xué);2008年
3 仲崇峰;哈薩克語(yǔ)中的漢語(yǔ)借詞研究[D];中央民族大學(xué);2009年
4 卡哈爾江·阿比的熱西提;基于實(shí)例的漢維—維漢雙向機(jī)器翻譯系統(tǒng)的研究[D];上海交通大學(xué);2012年
5 祖麗皮亞·買(mǎi)買(mǎi)提明;維吾爾語(yǔ)基本動(dòng)詞短語(yǔ)自動(dòng)識(shí)別研究[D];北京郵電大學(xué);2012年
6 吳小川;泛化的基于實(shí)例方法的漢語(yǔ)維吾爾語(yǔ)模板庫(kù)的構(gòu)建[D];新疆大學(xué);2012年
7 鄧俊;基于A(yíng)ndroid平臺(tái)的維吾爾文網(wǎng)頁(yè)瀏覽器的設(shè)計(jì)與實(shí)現(xiàn)[D];新疆大學(xué);2013年
8 阿米妮古麗·奧斯曼;維漢/漢維機(jī)器翻譯譯后編輯器的設(shè)計(jì)與實(shí)現(xiàn)[D];新疆大學(xué);2013年
9 申屠文勝;新疆南疆三地州農(nóng)業(yè)信息服務(wù)模式研究[D];石河子大學(xué);2013年
10 古麗孜亞·阿布都吉力;漢—哈薩克雙語(yǔ)電子詞典的設(shè)計(jì)與實(shí)現(xiàn)[D];廈門(mén)大學(xué);2013年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 張廣達(dá);碎葉城今地考[J];北京大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);1979年05期
2 塞麥提·麥麥提敏;塞麥提·麥麥提敏;塞麥提·麥麥提敏;;基于統(tǒng)計(jì)的維吾爾文信息熵的估計(jì)[J];電腦知識(shí)與技術(shù);2009年04期
3 袁保社,王新平,吐?tīng)柛?24W系列維漢英電子打字機(jī)的研制[J];電子技術(shù)應(yīng)用;1989年08期
4 王昆侖;基于CDCPM的維吾爾語(yǔ)非特定人語(yǔ)音識(shí)別[J];計(jì)算機(jī)研究與發(fā)展;2001年10期
5 達(dá)吾勒·阿布都哈依爾;古麗拉·阿東別克;;基于A(yíng)NN的哈薩克文手寫(xiě)文字識(shí)別系統(tǒng)的研究[J];計(jì)算機(jī)工程與應(yīng)用;2008年01期
6 達(dá)吾勒·阿布都哈依爾;古麗拉·阿東別克;;哈薩克語(yǔ)詞法分析器的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2008年19期
7 劉艷;古麗拉.阿東別克;伊力亞爾;;哈薩克語(yǔ)詞性自動(dòng)標(biāo)注研究初探[J];計(jì)算機(jī)工程與應(yīng)用;2008年20期
8 侯呈風(fēng);古麗拉·阿東別克;;改進(jìn)的HMM應(yīng)用于哈薩克語(yǔ)詞性標(biāo)注[J];計(jì)算機(jī)工程與應(yīng)用;2010年36期
9 繆成,袁保社,吾守爾·斯拉木,李莉;維、哈、柯、漢、英多文種處理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2004年10期
10 吐?tīng)柕亍ね泻咸?維尼拉·木沙江;艾斯卡爾·艾木都拉;;維、哈、柯全文搜索引擎檢索器的關(guān)鍵技術(shù)[J];計(jì)算機(jī)工程;2008年21期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條
1 玉素甫.艾白都拉;阿不都熱依木沙力;熱孜萬(wàn);;現(xiàn)代維語(yǔ)語(yǔ)料庫(kù)加工處理中的機(jī)器詞根詞典研究[A];第十屆全國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年
2 伊力亞爾.加爾木哈買(mǎi)提;古麗拉.阿東別克;;中國(guó)哈薩克阿拉伯文與哈薩克斯拉夫文文本轉(zhuǎn)換[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 畢麗克孜;現(xiàn)代維吾爾語(yǔ)語(yǔ)料庫(kù)詞頻統(tǒng)計(jì)實(shí)驗(yàn)性研究[D];新疆大學(xué);2003年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 唐亮;段建國(guó);許洪波;梁玲;;基于信息論的文本分類(lèi)模型[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年24期
2 施化吉;王賢川;李星毅;;基于規(guī)則重構(gòu)的關(guān)聯(lián)文本分類(lèi)[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年03期
3 劉伍穎;王挺;;適于垃圾文本流過(guò)濾的條件概率集成方法[J];計(jì)算機(jī)科學(xué)與探索;2010年05期
4 張征杰;王自強(qiáng);;文本分類(lèi)及算法綜述[J];電腦知識(shí)與技術(shù);2012年04期
5 彭其華;;關(guān)聯(lián)挖掘下的海量文本信息深入挖掘?qū)崿F(xiàn)[J];微電子學(xué)與計(jì)算機(jī);2013年10期
6 汪明霓;BASIC文本系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;1988年01期
7 王東興,冷惠文;大量編程用文本數(shù)據(jù)的統(tǒng)一處理[J];鞍山鋼鐵學(xué)院學(xué)報(bào);1997年06期
8 周鵬;數(shù)據(jù)庫(kù)中不規(guī)范文本文件的數(shù)據(jù)轉(zhuǎn)換[J];電腦編程技巧與維護(hù);2005年05期
9 谷峰;吳揚(yáng)揚(yáng);;文本分類(lèi)關(guān)鍵技術(shù)[J];福建電腦;2006年09期
10 宋東風(fēng);張志浩;;短文本數(shù)據(jù)的自動(dòng)分類(lèi)[J];電腦與信息技術(shù);2007年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測(cè)[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類(lèi)中的應(yīng)用[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
4 李文波;孫樂(lè);黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類(lèi)新算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 黃云平;孫樂(lè);李文波;;基于上下文圖模型文本表示的文本分類(lèi)研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫(xiě)文本行提取方法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測(cè)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類(lèi)的方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開(kāi)創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2001年
10 江荻;;藏語(yǔ)文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前2條
1 戴洪玲;[N];中國(guó)電腦教育報(bào);2004年
2 山東 黃家貞;[N];電腦報(bào);2001年
《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)》電子雜志社有限公司
同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司
地址:北京清華大學(xué) 84-48信箱 知識(shí)超市公司
京ICP證040441號(hào)
互聯(lián)網(wǎng)出版許可證 新出網(wǎng)證(京)字008號(hào)
出版物經(jīng)營(yíng)許可證 新出發(fā)京批字第直0595號(hào)
訂購(gòu)熱線(xiàn):400-819-9993 010-62982499
服務(wù)熱線(xiàn):010-62985026 010-62791813
在線(xiàn)咨詢(xún):
傳真:010-62780361
京公網(wǎng)安備11010802020475號(hào)
本文關(guān)鍵詞:哈薩克語(yǔ)文本分類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):103720
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/103720.html