天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 信息工程論文 >

哈薩克語文本分類系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2016-08-25 22:20

  本文關(guān)鍵詞:哈薩克語文本分類系統(tǒng)的設(shè)計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。


《電子科技大學(xué)》 2014年

哈薩克語文本分類系統(tǒng)的設(shè)計與實現(xiàn)

木回提  

【摘要】:近些年隨著計算機技術(shù)在新疆少數(shù)民族地區(qū)的廣泛應(yīng)用,基于哈薩克文的電子文檔也逐漸增加,并且堆積起來。如何對這些越來越多的電子文檔數(shù)據(jù)進行有效的管理,并為廣大的用戶提供方便快捷的信息檢索成為了數(shù)據(jù)挖掘技術(shù)的一個重要內(nèi)容。文本分類就是針對于這一問題的一門技術(shù),并為此提出了一系列的解決方案。文本分類這一人工智能信息處理技術(shù),主要應(yīng)用于信息的過濾、信息的檢索、數(shù)據(jù)庫應(yīng)用和數(shù)字圖書館建設(shè)等領(lǐng)域。文本分類就是將待分類的文本根據(jù)內(nèi)容自動劃分到預(yù)先規(guī)定好的類別中。文本分類的步驟一般包括文本預(yù)處理、特征選擇、特征權(quán)值計算、分類和性能評估等。特征權(quán)重計算是文本分類中關(guān)鍵的一個環(huán)節(jié),關(guān)系到文本分類的最終結(jié)果和質(zhì)量。傳統(tǒng)的特征權(quán)重計算算法IDFTF-是重點考慮該特征項在一篇文本中出現(xiàn)的次數(shù),同時在其他文本中出現(xiàn)較少這樣的特性。在特征選擇的過程中實現(xiàn)了利用詞頻統(tǒng)計信息和語言信息相結(jié)合的方法,計算特征項詞匯的權(quán)重值時不僅考慮詞頻,還對特征項詞匯的集中度、分散度進行計算。利用上述信息對訓(xùn)練集文本和測試集文本中的每一類文本形成特征項詞匯的權(quán)重向量,形成所有訓(xùn)練集文本的多維向量空間,并利用K最近距離方法得到對測試集文本的分類結(jié)果。通過此方法有效提高了哈薩克文文本分類的準確率,取得了較好的效果。本文利用K最近距離方法,對哈薩克語文本信息進行分類研究(主要針對哈薩克文報紙中的文本),介紹了文本分類的相關(guān)技術(shù)及有關(guān)算法,利用軟件工程的基本思想設(shè)計并實現(xiàn)了一個用于哈薩克語文本的分類系統(tǒng)。本系統(tǒng)分為以下幾個部分:(1)哈薩克語文本預(yù)處理模塊,主要處理哈薩克文的分詞,詞干提取和停用詞過濾;(2)詞頻統(tǒng)計模塊,按照K最近距離方法的要求以及特征選取算法的特點從哈薩克語文本中統(tǒng)計文檔中特征詞的出現(xiàn)頻率;(3)特征選擇模塊;(4)權(quán)重計算模塊,實現(xiàn)TF和IDFTF-的計算;(5)分類器實現(xiàn)算法,實現(xiàn)K最近距離的哈薩克語文本分類算法;(6)分類器評價模塊,從查全率、查準率等方面進行評價。同時進行了一定的軟件測試方面的工作。

【關(guān)鍵詞】:
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.52;TP391.1
【目錄】:

下載全文 更多同類文獻

CAJ全文下載

(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

CAJViewer閱讀器支持CAJ、PDF文件格式


【參考文獻】

中國期刊全文數(shù)據(jù)庫 前3條

1 吐爾根·依布拉音;袁保社;;新疆少數(shù)民族語言文字信息處理研究與應(yīng)用[J];中文信息學(xué)報;2011年06期

2 艾海麥提江·阿布來提;吐爾地·托合提;艾斯卡爾·艾木都拉;;基于Naive Bayes的維吾爾文文本分類算法及其性能分析[J];計算機應(yīng)用與軟件;2012年12期

3 耿世民;;哈薩克族的語言和文字[J];西北民族研究;2006年02期

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 李淑霞;馬英連;;新疆哈薩克文字地圖的編制[J];測繪標準化;2008年01期

2 穆妮熱·穆合塔爾;艾孜爾古麗;玉素甫·艾白都拉;;現(xiàn)代維吾爾語簡單句識別研究[J];計算機光盤軟件與應(yīng)用;2014年13期

3 楊建萍;年梅;買日葉木·卡地爾;;維吾爾文初中生物教材中生物詞匯的統(tǒng)計分析[J];電腦知識與技術(shù);2015年13期

4 王亞娟;;面向機器翻譯的漢維詞語對齊規(guī)范研究[J];電腦知識與技術(shù);2015年20期

5 莫禮平;曾水玲;周愷卿;;音形結(jié)合的方塊苗文輸入編碼方案研究[J];計算機科學(xué)與探索;2014年08期

6 買買提依明·哈斯木;吾守爾·斯拉木;維尼拉·木沙江;努爾麥麥提·尤魯瓦斯;;基于統(tǒng)計專用字符的維、哈、柯文文種識別研究[J];中文信息學(xué)報;2015年02期

7 李波;王江晴;魏紅昀;孫陽光;王新年;徐凌;;一種女書手寫字符規(guī)范字形自動生成方法[J];中文信息學(xué)報;2015年02期

8 柯慶梅;;Characteristics Studies on Kazak Place Names in Ili Kazak Autonomous Prefecture[J];海外英語;2015年17期

9 鄒岳琳;吐爾根·依布拉音;麥熱哈巴·艾力;艾山·吾買爾;帕力旦·吐爾遜;;基于詞干提取的維吾爾語事件類時間短語識別[J];計算機工程與設(shè)計;2014年02期

10 阿米妮古麗·奧斯曼;加日拉·買買提熱依木;吐爾根·依布拉音;;維漢/漢維機器翻譯譯后編輯器的設(shè)計與實現(xiàn)[J];新疆大學(xué)學(xué)報(自然科學(xué)版);2013年04期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 朱澤德;網(wǎng)絡(luò)雙語語料挖掘關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2014年

2 麥熱哈巴·艾力;基于實例的維漢機器翻譯若干關(guān)鍵問題研究[D];新疆大學(xué);2014年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 黃小勇;獨立后吉爾吉斯斯坦語言政策及其特征研究[D];新疆師范大學(xué);2011年

2 李萍;高考信息采集與考務(wù)管理系統(tǒng)多語言支持研究[D];新疆農(nóng)業(yè)大學(xué);2008年

3 仲崇峰;哈薩克語中的漢語借詞研究[D];中央民族大學(xué);2009年

4 卡哈爾江·阿比的熱西提;基于實例的漢維—維漢雙向機器翻譯系統(tǒng)的研究[D];上海交通大學(xué);2012年

5 祖麗皮亞·買買提明;維吾爾語基本動詞短語自動識別研究[D];北京郵電大學(xué);2012年

6 吳小川;泛化的基于實例方法的漢語維吾爾語模板庫的構(gòu)建[D];新疆大學(xué);2012年

7 鄧俊;基于Android平臺的維吾爾文網(wǎng)頁瀏覽器的設(shè)計與實現(xiàn)[D];新疆大學(xué);2013年

8 阿米妮古麗·奧斯曼;維漢/漢維機器翻譯譯后編輯器的設(shè)計與實現(xiàn)[D];新疆大學(xué);2013年

9 申屠文勝;新疆南疆三地州農(nóng)業(yè)信息服務(wù)模式研究[D];石河子大學(xué);2013年

10 古麗孜亞·阿布都吉力;漢—哈薩克雙語電子詞典的設(shè)計與實現(xiàn)[D];廈門大學(xué);2013年

【二級參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 張廣達;碎葉城今地考[J];北京大學(xué)學(xué)報(哲學(xué)社會科學(xué)版);1979年05期

2 塞麥提·麥麥提敏;塞麥提·麥麥提敏;塞麥提·麥麥提敏;;基于統(tǒng)計的維吾爾文信息熵的估計[J];電腦知識與技術(shù);2009年04期

3 袁保社,王新平,吐爾根;24W系列維漢英電子打字機的研制[J];電子技術(shù)應(yīng)用;1989年08期

4 王昆侖;基于CDCPM的維吾爾語非特定人語音識別[J];計算機研究與發(fā)展;2001年10期

5 達吾勒·阿布都哈依爾;古麗拉·阿東別克;;基于ANN的哈薩克文手寫文字識別系統(tǒng)的研究[J];計算機工程與應(yīng)用;2008年01期

6 達吾勒·阿布都哈依爾;古麗拉·阿東別克;;哈薩克語詞法分析器的研究與實現(xiàn)[J];計算機工程與應(yīng)用;2008年19期

7 劉艷;古麗拉.阿東別克;伊力亞爾;;哈薩克語詞性自動標注研究初探[J];計算機工程與應(yīng)用;2008年20期

8 侯呈風;古麗拉·阿東別克;;改進的HMM應(yīng)用于哈薩克語詞性標注[J];計算機工程與應(yīng)用;2010年36期

9 繆成,袁保社,吾守爾·斯拉木,李莉;維、哈、柯、漢、英多文種處理平臺的設(shè)計與實現(xiàn)[J];計算機工程;2004年10期

10 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;維、哈、柯全文搜索引擎檢索器的關(guān)鍵技術(shù)[J];計算機工程;2008年21期

中國重要會議論文全文數(shù)據(jù)庫 前2條

1 玉素甫.艾白都拉;阿不都熱依木沙力;熱孜萬;;現(xiàn)代維語語料庫加工處理中的機器詞根詞典研究[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集[C];2005年

2 伊力亞爾.加爾木哈買提;古麗拉.阿東別克;;中國哈薩克阿拉伯文與哈薩克斯拉夫文文本轉(zhuǎn)換[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 畢麗克孜;現(xiàn)代維吾爾語語料庫詞頻統(tǒng)計實驗性研究[D];新疆大學(xué);2003年

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 唐亮;段建國;許洪波;梁玲;;基于信息論的文本分類模型[J];計算機工程與設(shè)計;2008年24期

2 施化吉;王賢川;李星毅;;基于規(guī)則重構(gòu)的關(guān)聯(lián)文本分類[J];計算機工程與設(shè)計;2009年03期

3 劉伍穎;王挺;;適于垃圾文本流過濾的條件概率集成方法[J];計算機科學(xué)與探索;2010年05期

4 張征杰;王自強;;文本分類及算法綜述[J];電腦知識與技術(shù);2012年04期

5 彭其華;;關(guān)聯(lián)挖掘下的海量文本信息深入挖掘?qū)崿F(xiàn)[J];微電子學(xué)與計算機;2013年10期

6 汪明霓;BASIC文本系統(tǒng)[J];計算機應(yīng)用研究;1988年01期

7 王東興,冷惠文;大量編程用文本數(shù)據(jù)的統(tǒng)一處理[J];鞍山鋼鐵學(xué)院學(xué)報;1997年06期

8 周鵬;數(shù)據(jù)庫中不規(guī)范文本文件的數(shù)據(jù)轉(zhuǎn)換[J];電腦編程技巧與維護;2005年05期

9 谷峰;吳揚揚;;文本分類關(guān)鍵技術(shù)[J];福建電腦;2006年09期

10 宋東風;張志浩;;短文本數(shù)據(jù)的自動分類[J];電腦與信息技術(shù);2007年01期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進展[A];開創(chuàng)新世紀的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

中國重要報紙全文數(shù)據(jù)庫 前2條

1 戴洪玲;[N];中國電腦教育報;2004年

2 山東 黃家貞;[N];電腦報;2001年

中國知網(wǎng)廣告投放

哈薩克語文本分類系統(tǒng)的設(shè)計與實現(xiàn)

《中國學(xué)術(shù)期刊(光盤版)》電子雜志社有限公司
同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司
地址:北京清華大學(xué) 84-48信箱 知識超市公司
京ICP證040441號
互聯(lián)網(wǎng)出版許可證 新出網(wǎng)證(京)字008號
出版物經(jīng)營許可證 新出發(fā)京批字第直0595號

訂購熱線:400-819-9993 010-62982499
服務(wù)熱線:010-62985026 010-62791813
在線咨詢:
傳真:010-62780361
京公網(wǎng)安備11010802020475號



  本文關(guān)鍵詞:哈薩克語文本分類系統(tǒng)的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:103720

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/103720.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶384df***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产av一二三区在线观看| 亚洲男人天堂成人在线视频| 我要看日本黄色小视频| 丝袜av一区二区三区四区五区| 91插插插外国一区二区| 国产又粗又猛又大爽又黄同志| 亚洲视频一区二区久久久| 国产丝袜极品黑色高跟鞋| 九九热这里只有精品视频| 日本不卡在线一区二区三区| 久久这里只精品免费福利| 一区二区日本一区二区欧美| 五月婷婷综合缴情六月| 久久99爱爱视频视频| 国产精品免费福利在线| 99久久精品一区二区国产| 情一色一区二区三区四| 人妻乱近亲奸中文字幕| 欧美同性视频免费观看| 成人精品视频一区二区在线观看| 欧美日韩精品一区二区三区不卡| 日韩一区二区三区久久| 中文字幕91在线观看| 伊人欧美一区二区三区| 大尺度激情福利视频在线观看 | 国内尹人香蕉综合在线| 亚洲夫妻性生活免费视频| 九九热九九热九九热九九热| 99国产高清不卡视频| 亚洲欧美中文日韩综合| 亚洲做性视频在线播放| 美女黄片大全在线观看| 成人午夜爽爽爽免费视频| 人妻中文一区二区三区| 欧美成人高清在线播放| 久久女同精品一区二区| 久久天堂夜夜一本婷婷| 91免费精品国自产拍偷拍| 内射精子视频欧美一区二区 | 中文字幕人妻一区二区免费| 免费在线播放一区二区|