天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

哈薩克語文本分類系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn).pdf 全文免費(fèi)在線閱讀

發(fā)布時(shí)間:2016-11-03 13:10

  本文關(guān)鍵詞:哈薩克語文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


網(wǎng)友pk5235近日為您收集整理了關(guān)于哈薩克語文本分類系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)的文檔,,希望對(duì)您的工作和學(xué)習(xí)有所幫助。以下是文檔介紹:論文題目哈薩克語文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)專業(yè)學(xué)位類別工程碩士學(xué)號(hào) 201192232224作者姓名木回提指導(dǎo)教師王佳昊副教授分類號(hào)密級(jí)UDC注 1學(xué)位論文哈薩克語文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)(題名和副題名)木回提(作者姓名)指導(dǎo)教師王佳昊副教授電子科技大學(xué)成都張杰高工新疆金牛生物有限公司烏魯木齊(姓名、職稱、單位名稱)申請(qǐng)學(xué)位級(jí)別碩士專業(yè)學(xué)位類別工程碩士工程領(lǐng)域名稱軟件工程提交論文日期 2014.3.25 論文答辯日期 2014.5.9學(xué)位授予單位和日期電子科技大學(xué) 2014 年 6 月 25 日答辯委員會(huì)主席評(píng)閱人注 1:注明《國(guó)際十進(jìn)分類法 UDC》的類號(hào)。DESIGN AND IMPLEMENTATION OF KAZAKTEXT CATEGORIZATION SYSTEMA Master Thesis Submitted toUniversity of Electronic Science and Technology of ChinaMajor: Master of EngineeringAuthor: Mu HuitiAdvisor: Wang JiahaoSchool : S(來源:[])chool of Information and Software Engineering獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。作者簽名: 日期: 年月日論文使用授權(quán)本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)電子科技大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定)作者簽名: 導(dǎo)師簽名:日期: 年月日摘要I摘要近些年隨著計(jì)算機(jī)技術(shù)在新疆少數(shù)民族地區(qū)的廣泛應(yīng)用,基于哈薩克文的電子文檔也逐漸增加,并且堆積起來。如何(來源:[])對(duì)這些越來越多的電子文檔數(shù)據(jù)進(jìn)行有效的管理,并為廣大的用戶提供方便快捷的信息檢索成為了數(shù)據(jù)挖掘技術(shù)的一個(gè)重要內(nèi)容。文本分類就是針對(duì)于這一問題的一門技術(shù),并為此提出了一系列的解決方案。文本分類這一人工智能信息處理技術(shù),主要應(yīng)用于信息的過濾、信息的檢索、數(shù)據(jù)庫應(yīng)用和數(shù)字圖書館建設(shè)等領(lǐng)域。文本分類就是將待分類的文本根據(jù)內(nèi)容自動(dòng)劃分到預(yù)先規(guī)定好的類別中。文本分類的步驟一般包括文本預(yù)處理、特征選擇、特征權(quán)值計(jì)算、分類和性能評(píng)估等。特征權(quán)重計(jì)算是文本分類中關(guān)鍵的一個(gè)環(huán)節(jié),關(guān)系到文本分類的最終結(jié)果和質(zhì)量。傳統(tǒng)的特征權(quán)重計(jì)算算法 IDFTF - 是重點(diǎn)考慮該特征項(xiàng)在一篇文本中出現(xiàn)的次數(shù),同時(shí)在其他文本中出現(xiàn)較少這樣的特性。在特征選擇的過程中實(shí)現(xiàn)了利用詞頻統(tǒng)計(jì)信息和語言信息相結(jié)合的方法,計(jì)算特征項(xiàng)詞匯的權(quán)重值時(shí)不僅考慮詞頻,還對(duì)特征項(xiàng)詞匯的集中度、分散度進(jìn)行計(jì)算。利用上述信息對(duì)訓(xùn)練集文本和測(cè)試集文本中的每一類文本形成特征項(xiàng)詞匯的權(quán)重向量,形成所有訓(xùn)練集文本的多維向量空間,并利用 K 最近距離方法得到對(duì)測(cè)試集文(來源:[])本的分類結(jié)果。通過此方法有效提高了哈薩克文文本分類的準(zhǔn)確率,取得了較好的效果。本文利用 K 最近距離方法,對(duì)哈薩克語文本信息進(jìn)行分類研究(主要針對(duì)哈薩克文報(bào)紙中的文本),介紹了文本分類的相關(guān)技術(shù)及有關(guān)算法,利用軟件工程的基本思想設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)用于哈薩克語文本的分類系統(tǒng)。本系統(tǒng)分為以下幾個(gè)部分:(1)哈薩克語文本預(yù)處理模塊,主要處理哈薩克文的分詞,詞干提取和停用詞過濾;(2)詞頻統(tǒng)計(jì)模塊,按照 K 最近距離方法的要求以及特征選取算法的特點(diǎn)從哈薩克語文本中統(tǒng)計(jì)文檔中特征詞的出現(xiàn)頻率;(3)特征選擇模塊;(4)權(quán)重計(jì)算模塊,實(shí)現(xiàn)TF 和 IDFTF - 的計(jì)算;(5)分類器實(shí)現(xiàn)算法,實(shí)現(xiàn) K 最近距離的哈薩克語文本分類算法;(6)分類器評(píng)價(jià)模塊,從查全率、查準(zhǔn)率等方面進(jìn)行評(píng)價(jià)。同時(shí)進(jìn)行了一定的軟件測(cè)試方面的工作。關(guān)鍵詞:哈薩克語文本,文本分類,K 最近距離算法,特征選擇,權(quán)重計(jì)算ABSTRACTIIABSTRACTWith the extensive application puter tech(來源:[])nology in recent years in theminority areas of Xinjiang, Kazakh-based electronic document is also increasing, andpile up. How many of these more effective electronic document data management, andfor the majority of users to provide convenient and efficient information retrieval e an important data mining technology content. Text classification is for atechnology to this problem, and has proposed a series of solutions. The artificialintelligence of (來源:[])text classification information processing technology , mainly used infiltering information in the field of information retrieval , database applications anddigital library construction.Text classification is to divide a large text document into one or a group ofcategories, making the content of each category represents a different theme.At present, the text classification mainly us

12>



播放器加載中,請(qǐng)稍候...
系統(tǒng)無法檢測(cè)到您的Adobe Flash Player版本
建議您在線安裝最新版本的Flash Player 在線安裝


  本文關(guān)鍵詞:哈薩克語文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號(hào):163022

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/163022.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶24044***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com