天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

哈薩克語文本分類系統(tǒng)的設(shè)計與實現(xiàn).pdf 全文免費在線閱讀

發(fā)布時間:2016-11-03 13:10

  本文關(guān)鍵詞:哈薩克語文本分類系統(tǒng)的設(shè)計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。


網(wǎng)友2830622664近日為您收集整理了關(guān)于哈薩克語文本分類系統(tǒng)的設(shè)計與實現(xiàn)的文檔,希望對您的工作和學(xué)習(xí)有所幫助。以下是文檔介紹:分類號密級UDC注 1學(xué)位論文哈薩克語文本分類系統(tǒng)的設(shè)計與實現(xiàn)(題名和副題名)木回提(作者姓名)指導(dǎo)教師王佳昊副教授電子科技大學(xué)成都張杰高工新疆金牛生物有限公司烏魯木齊(姓名、職稱、單位名稱)申請學(xué)位級別碩士專業(yè)學(xué)位類別工程碩士工程領(lǐng)域名稱軟件工程提交論文日期 2014.3.25 論文答辯日期 2014.5.9學(xué)位授予單位和日期電子科技大學(xué) 2014 年 6 月 25 日答辯委員會主席評閱人注 1:注明《國際十進(jìn)分類法 UDC》的類號。DESIGN AND IMPLEMENTATION OF KAZAKTEXT CATEGORIZATION SYSTEMA Master Thesis Submitted toUniversity of Electronic Science and Technology of ChinaMajor: Master of EngineeringAuthor: Mu HuitiAdvisor: Wang JiahaoSchool : School of Information and Software Engineering獨創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學(xué)或其它教育機構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。作者簽名: 日期: 年月日論文使用授權(quán)本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)電子科技大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定)作者簽名: 導(dǎo)師簽名:日期: 年月日摘要I摘要近些年隨著計算機技術(shù)在新疆少數(shù)民族地區(qū)的廣泛應(yīng)用,基于哈薩克文的電子文檔也逐漸增加,并且堆積起來。如何對這些越來越多的電子文檔數(shù)據(jù)進(jìn)行有效的管理,并為廣大的用戶提供方便快捷的信息檢索成為了數(shù)據(jù)挖掘技術(shù)的一個重要內(nèi)容。文本分類就是針對于這一問題的一門技術(shù),并為此提出了一系列的解決方案。文本分類這一人工智能信息處理技術(shù),主要應(yīng)用于信息的過濾、信息的檢索、數(shù)據(jù)庫應(yīng)用和數(shù)字圖書館建設(shè)等領(lǐng)域。文本分類就是將待分類的文本根據(jù)內(nèi)容自動劃分到預(yù)先規(guī)定好的類別中。文本分類的步驟一般包括文本預(yù)處理、特征選擇、特征權(quán)值計算、分類和性能評估等。特征權(quán)重計算是文本分類中關(guān)鍵的一個環(huán)節(jié),關(guān)系到文本分類的最終結(jié)果和質(zhì)量。傳統(tǒng)的特征權(quán)重計算算法 IDFTF - 是重點考慮該特征項在一篇文本中出現(xiàn)的次數(shù),同時在其他文本中出現(xiàn)較少這樣的特性。在特征選擇的過程中實現(xiàn)了利用詞頻統(tǒng)計信息和語言信息相結(jié)合的方法,計算特征項詞匯的權(quán)重值時不僅考慮詞頻,還對特征項詞匯的集中度、分散度進(jìn)行計算。利用上述信息對訓(xùn)練集文本和測試集文本中的每一類文本形成特征項詞匯的權(quán)重向量,形成所有訓(xùn)練集文本的多維向量空間,并利用 K 最近距離方法得到對測試集文本的分類結(jié)果。通過此方法有效提高了哈薩克文文本分類的準(zhǔn)確率,取得了較好的效果。本文利用 K 最近距離方法,對哈薩克語文本信息進(jìn)行分類研究(主要針對哈薩克文報紙中的文本),介紹了文本分類的相關(guān)技術(shù)及有關(guān)算法,利用軟件工程的基本思想設(shè)計并實現(xiàn)了一個用于哈薩克語文本的分類系統(tǒng)。本系統(tǒng)分為以下幾個部分:(1)哈薩克語文本預(yù)處理模塊,主要處理哈薩克文的分詞,詞干提取和停用詞過濾;(2)詞頻統(tǒng)計模塊,按照 K 最近距離方法的要求以及特征選取算法的特點從哈薩克語文本中統(tǒng)計文檔中特征詞的出現(xiàn)頻率;(3)特征選擇模塊;(4)權(quán)重計算模塊,實現(xiàn)TF 和 IDFTF - 的計算;(5)分類器實現(xiàn)算法,實現(xiàn) K 最近距離的哈薩克語文本分類算法;(6)分類器評價模塊,從查全率、查準(zhǔn)率等方面進(jìn)行評價。同時進(jìn)行了一定的軟件測試方面的工作。關(guān)鍵詞:哈薩克語文本,文本分類,K 最近距離算法,特征選擇,權(quán)重計算ABSTRACTIIABSTRACTWith the extensive application puter technology in recent years in theminority areas of Xinjiang, Kazakh-based electronic document is also increasing, andpile up. How many of these more effective electronic document data management, andfor the majority of users to provide convenient and efficient information retrieval e an important data mining technology content. Text classification is for atechnology to this problem, and has proposed a series of solutions. The artificialintelligence of text classification information processing technology , mainly used infiltering information in the field of information retrieval , database applications anddigital library construction.Text classification is to divide a large text document into one or a group ofcategories, making the content of each category represents a different theme.At present, the text classification mainly uses the vector space model based onstatistics, related to the text pre-processing, Kazakh word stemming, feature selection,feature weighting methods, classification algorithms, classification performanceevaluation and other processes.Feature weighting methods is an important issue of text classificatio

12>



播放器加載中,請稍候...
系統(tǒng)無法檢測到您的Adobe Flash Player版本
建議您在線安裝最新版本的Flash Player 在線安裝


  本文關(guān)鍵詞:哈薩克語文本分類系統(tǒng)的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:163023

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/163023.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3b812***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com