哈薩克語文本分類系統(tǒng)的設(shè)計與實現(xiàn)
本文關(guān)鍵詞:哈薩克語文本分類系統(tǒng)的設(shè)計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
《電子科技大學(xué)》 2014年
哈薩克語文本分類系統(tǒng)的設(shè)計與實現(xiàn)
木回提
【摘要】:近些年隨著計算機技術(shù)在新疆少數(shù)民族地區(qū)的廣泛應(yīng)用,基于哈薩克文的電子文檔也逐漸增加,并且堆積起來。如何對這些越來越多的電子文檔數(shù)據(jù)進行有效的管理,并為廣大的用戶提供方便快捷的信息檢索成為了數(shù)據(jù)挖掘技術(shù)的一個重要內(nèi)容。文本分類就是針對于這一問題的一門技術(shù),并為此提出了一系列的解決方案。文本分類這一人工智能信息處理技術(shù),主要應(yīng)用于信息的過濾、信息的檢索、數(shù)據(jù)庫應(yīng)用和數(shù)字圖書館建設(shè)等領(lǐng)域。文本分類就是將待分類的文本根據(jù)內(nèi)容自動劃分到預(yù)先規(guī)定好的類別中。文本分類的步驟一般包括文本預(yù)處理、特征選擇、特征權(quán)值計算、分類和性能評估等。特征權(quán)重計算是文本分類中關(guān)鍵的一個環(huán)節(jié),關(guān)系到文本分類的最終結(jié)果和質(zhì)量。傳統(tǒng)的特征權(quán)重計算算法IDFTF-是重點考慮該特征項在一篇文本中出現(xiàn)的次數(shù),同時在其他文本中出現(xiàn)較少這樣的特性。在特征選擇的過程中實現(xiàn)了利用詞頻統(tǒng)計信息和語言信息相結(jié)合的方法,計算特征項詞匯的權(quán)重值時不僅考慮詞頻,還對特征項詞匯的集中度、分散度進行計算。利用上述信息對訓(xùn)練集文本和測試集文本中的每一類文本形成特征項詞匯的權(quán)重向量,形成所有訓(xùn)練集文本的多維向量空間,并利用K最近距離方法得到對測試集文本的分類結(jié)果。通過此方法有效提高了哈薩克文文本分類的準確率,取得了較好的效果。本文利用K最近距離方法,對哈薩克語文本信息進行分類研究(主要針對哈薩克文報紙中的文本),介紹了文本分類的相關(guān)技術(shù)及有關(guān)算法,利用軟件工程的基本思想設(shè)計并實現(xiàn)了一個用于哈薩克語文本的分類系統(tǒng)。本系統(tǒng)分為以下幾個部分:(1)哈薩克語文本預(yù)處理模塊,主要處理哈薩克文的分詞,詞干提取和停用詞過濾;(2)詞頻統(tǒng)計模塊,按照K最近距離方法的要求以及特征選取算法的特點從哈薩克語文本中統(tǒng)計文檔中特征詞的出現(xiàn)頻率;(3)特征選擇模塊;(4)權(quán)重計算模塊,實現(xiàn)TF和IDFTF-的計算;(5)分類器實現(xiàn)算法,實現(xiàn)K最近距離的哈薩克語文本分類算法;(6)分類器評價模塊,從查全率、查準率等方面進行評價。同時進行了一定的軟件測試方面的工作。
【關(guān)鍵詞】:
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.52;TP391.1
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 吐爾根·依布拉音;袁保社;;新疆少數(shù)民族語言文字信息處理研究與應(yīng)用[J];中文信息學(xué)報;2011年06期
2 艾海麥提江·阿布來提;吐爾地·托合提;艾斯卡爾·艾木都拉;;基于Naive Bayes的維吾爾文文本分類算法及其性能分析[J];計算機應(yīng)用與軟件;2012年12期
3 耿世民;;哈薩克族的語言和文字[J];西北民族研究;2006年02期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李淑霞;馬英連;;新疆哈薩克文字地圖的編制[J];測繪標準化;2008年01期
2 穆妮熱·穆合塔爾;艾孜爾古麗;玉素甫·艾白都拉;;現(xiàn)代維吾爾語簡單句識別研究[J];計算機光盤軟件與應(yīng)用;2014年13期
3 楊建萍;年梅;買日葉木·卡地爾;;維吾爾文初中生物教材中生物詞匯的統(tǒng)計分析[J];電腦知識與技術(shù);2015年13期
4 王亞娟;;面向機器翻譯的漢維詞語對齊規(guī)范研究[J];電腦知識與技術(shù);2015年20期
5 莫禮平;曾水玲;周愷卿;;音形結(jié)合的方塊苗文輸入編碼方案研究[J];計算機科學(xué)與探索;2014年08期
6 買買提依明·哈斯木;吾守爾·斯拉木;維尼拉·木沙江;努爾麥麥提·尤魯瓦斯;;基于統(tǒng)計專用字符的維、哈、柯文文種識別研究[J];中文信息學(xué)報;2015年02期
7 李波;王江晴;魏紅昀;孫陽光;王新年;徐凌;;一種女書手寫字符規(guī)范字形自動生成方法[J];中文信息學(xué)報;2015年02期
8 柯慶梅;;Characteristics Studies on Kazak Place Names in Ili Kazak Autonomous Prefecture[J];海外英語;2015年17期
9 鄒岳琳;吐爾根·依布拉音;麥熱哈巴·艾力;艾山·吾買爾;帕力旦·吐爾遜;;基于詞干提取的維吾爾語事件類時間短語識別[J];計算機工程與設(shè)計;2014年02期
10 阿米妮古麗·奧斯曼;加日拉·買買提熱依木;吐爾根·依布拉音;;維漢/漢維機器翻譯譯后編輯器的設(shè)計與實現(xiàn)[J];新疆大學(xué)學(xué)報(自然科學(xué)版);2013年04期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 朱澤德;網(wǎng)絡(luò)雙語語料挖掘關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2014年
2 麥熱哈巴·艾力;基于實例的維漢機器翻譯若干關(guān)鍵問題研究[D];新疆大學(xué);2014年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 黃小勇;獨立后吉爾吉斯斯坦語言政策及其特征研究[D];新疆師范大學(xué);2011年
2 李萍;高考信息采集與考務(wù)管理系統(tǒng)多語言支持研究[D];新疆農(nóng)業(yè)大學(xué);2008年
3 仲崇峰;哈薩克語中的漢語借詞研究[D];中央民族大學(xué);2009年
4 卡哈爾江·阿比的熱西提;基于實例的漢維—維漢雙向機器翻譯系統(tǒng)的研究[D];上海交通大學(xué);2012年
5 祖麗皮亞·買買提明;維吾爾語基本動詞短語自動識別研究[D];北京郵電大學(xué);2012年
6 吳小川;泛化的基于實例方法的漢語維吾爾語模板庫的構(gòu)建[D];新疆大學(xué);2012年
7 鄧俊;基于Android平臺的維吾爾文網(wǎng)頁瀏覽器的設(shè)計與實現(xiàn)[D];新疆大學(xué);2013年
8 阿米妮古麗·奧斯曼;維漢/漢維機器翻譯譯后編輯器的設(shè)計與實現(xiàn)[D];新疆大學(xué);2013年
9 申屠文勝;新疆南疆三地州農(nóng)業(yè)信息服務(wù)模式研究[D];石河子大學(xué);2013年
10 古麗孜亞·阿布都吉力;漢—哈薩克雙語電子詞典的設(shè)計與實現(xiàn)[D];廈門大學(xué);2013年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張廣達;碎葉城今地考[J];北京大學(xué)學(xué)報(哲學(xué)社會科學(xué)版);1979年05期
2 塞麥提·麥麥提敏;塞麥提·麥麥提敏;塞麥提·麥麥提敏;;基于統(tǒng)計的維吾爾文信息熵的估計[J];電腦知識與技術(shù);2009年04期
3 袁保社,王新平,吐爾根;24W系列維漢英電子打字機的研制[J];電子技術(shù)應(yīng)用;1989年08期
4 王昆侖;基于CDCPM的維吾爾語非特定人語音識別[J];計算機研究與發(fā)展;2001年10期
5 達吾勒·阿布都哈依爾;古麗拉·阿東別克;;基于ANN的哈薩克文手寫文字識別系統(tǒng)的研究[J];計算機工程與應(yīng)用;2008年01期
6 達吾勒·阿布都哈依爾;古麗拉·阿東別克;;哈薩克語詞法分析器的研究與實現(xiàn)[J];計算機工程與應(yīng)用;2008年19期
7 劉艷;古麗拉.阿東別克;伊力亞爾;;哈薩克語詞性自動標注研究初探[J];計算機工程與應(yīng)用;2008年20期
8 侯呈風;古麗拉·阿東別克;;改進的HMM應(yīng)用于哈薩克語詞性標注[J];計算機工程與應(yīng)用;2010年36期
9 繆成,袁保社,吾守爾·斯拉木,李莉;維、哈、柯、漢、英多文種處理平臺的設(shè)計與實現(xiàn)[J];計算機工程;2004年10期
10 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;維、哈、柯全文搜索引擎檢索器的關(guān)鍵技術(shù)[J];計算機工程;2008年21期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 玉素甫.艾白都拉;阿不都熱依木沙力;熱孜萬;;現(xiàn)代維語語料庫加工處理中的機器詞根詞典研究[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集[C];2005年
2 伊力亞爾.加爾木哈買提;古麗拉.阿東別克;;中國哈薩克阿拉伯文與哈薩克斯拉夫文文本轉(zhuǎn)換[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 畢麗克孜;現(xiàn)代維吾爾語語料庫詞頻統(tǒng)計實驗性研究[D];新疆大學(xué);2003年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 唐亮;段建國;許洪波;梁玲;;基于信息論的文本分類模型[J];計算機工程與設(shè)計;2008年24期
2 施化吉;王賢川;李星毅;;基于規(guī)則重構(gòu)的關(guān)聯(lián)文本分類[J];計算機工程與設(shè)計;2009年03期
3 劉伍穎;王挺;;適于垃圾文本流過濾的條件概率集成方法[J];計算機科學(xué)與探索;2010年05期
4 張征杰;王自強;;文本分類及算法綜述[J];電腦知識與技術(shù);2012年04期
5 彭其華;;關(guān)聯(lián)挖掘下的海量文本信息深入挖掘?qū)崿F(xiàn)[J];微電子學(xué)與計算機;2013年10期
6 汪明霓;BASIC文本系統(tǒng)[J];計算機應(yīng)用研究;1988年01期
7 王東興,冷惠文;大量編程用文本數(shù)據(jù)的統(tǒng)一處理[J];鞍山鋼鐵學(xué)院學(xué)報;1997年06期
8 周鵬;數(shù)據(jù)庫中不規(guī)范文本文件的數(shù)據(jù)轉(zhuǎn)換[J];電腦編程技巧與維護;2005年05期
9 谷峰;吳揚揚;;文本分類關(guān)鍵技術(shù)[J];福建電腦;2006年09期
10 宋東風;張志浩;;短文本數(shù)據(jù)的自動分類[J];電腦與信息技術(shù);2007年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進展[A];開創(chuàng)新世紀的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會議論文集[C];2001年
10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前2條
1 戴洪玲;[N];中國電腦教育報;2004年
2 山東 黃家貞;[N];電腦報;2001年
《中國學(xué)術(shù)期刊(光盤版)》電子雜志社有限公司
同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司
地址:北京清華大學(xué) 84-48信箱 知識超市公司
京ICP證040441號
互聯(lián)網(wǎng)出版許可證 新出網(wǎng)證(京)字008號
出版物經(jīng)營許可證 新出發(fā)京批字第直0595號
訂購熱線:400-819-9993 010-62982499
服務(wù)熱線:010-62985026 010-62791813
在線咨詢:
傳真:010-62780361
京公網(wǎng)安備11010802020475號
本文關(guān)鍵詞:哈薩克語文本分類系統(tǒng)的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:103720
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/103720.html