天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

面向中文資訊文本的分類算法研究及應(yīng)用

發(fā)布時(shí)間:2017-10-19 03:47

  本文關(guān)鍵詞:面向中文資訊文本的分類算法研究及應(yīng)用


  更多相關(guān)文章: 貝葉斯分類算法 K最鄰近分類算法 支持向量機(jī)算法 關(guān)聯(lián)規(guī)則 屬性簡(jiǎn)約


【摘要】:在信息以及科技高速發(fā)展的今天,互聯(lián)網(wǎng)已經(jīng)成為正常的工作和生活中不可缺少的部分,由于每時(shí)每刻都會(huì)產(chǎn)生來自各個(gè)領(lǐng)域的,紛繁復(fù)雜的新聞信息、圖片以及視頻信息等等,這些數(shù)據(jù)正呈現(xiàn)著飛速的增長(zhǎng)狀態(tài)。如何在繁雜的信息資源中尋找自己需要的,把它們分門別類的歸置好,己經(jīng)成為當(dāng)今研究的一個(gè)熱門。本文是面向中文資訊文本的分類算法的研究及應(yīng)用,首先,就要了解這些分類算法,在本文中,主要介紹并實(shí)現(xiàn)了幾種算法,包括樸素貝葉斯分類算法、K最鄰近分類算法以及支持向量機(jī)分類算法,在此之前就有很多來自不同學(xué)科的人們對(duì)這些算法進(jìn)行了各式各樣的探索和研究,也應(yīng)用在不同的環(huán)境模式中。本文通過研究和分析這幾種算法的數(shù)學(xué)原理,然后再與本文的環(huán)境所結(jié)合,最終使得這幾種算法都能夠很好的適用于本文中對(duì)于資訊文本的分類。同時(shí)還對(duì)樸素貝葉斯分類算法進(jìn)行了增加關(guān)聯(lián)規(guī)則和屬性簡(jiǎn)約的方式來改進(jìn)其分類的準(zhǔn)確率,經(jīng)過實(shí)驗(yàn)證明,該算法在本文所對(duì)應(yīng)的模型下,提高了對(duì)本文中中文文本分類的準(zhǔn)確率。本文所研究的環(huán)境是一款名為圓橙高考的手機(jī)APP,這款手機(jī)APP是可以以家長(zhǎng)或者考生的身份來做高考方面的相關(guān)咨詢,還可以查看各個(gè)城市的各個(gè)學(xué)校在不同的年份中的高考分?jǐn)?shù)線等等方面的信息。而在其中有資訊這一欄,這一欄就是一些相應(yīng)的資訊,其中有報(bào)考、就業(yè)、留學(xué)和校園幾個(gè)部分。如何把一個(gè)新聞或者文本資訊按照內(nèi)容分到相應(yīng)的類中去,由于每天可能會(huì)有成千上萬的數(shù)據(jù),如果單憑手工去分類,那樣的工作量會(huì)非常大,幾乎也是不可能的,所以采用自動(dòng)分類的算法來代替繁瑣的人工操作,這樣不僅減少人力,物力,也能提高效率。
【關(guān)鍵詞】:貝葉斯分類算法 K最鄰近分類算法 支持向量機(jī)算法 關(guān)聯(lián)規(guī)則 屬性簡(jiǎn)約
【學(xué)位授予單位】:安徽理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP18;TP391.1
【目錄】:
  • 摘要5-6
  • Abstract6-12
  • 引言12-14
  • 1 緒論14-19
  • 1.1 國(guó)內(nèi)外研究現(xiàn)狀14-16
  • 1.1.1 國(guó)外研究現(xiàn)狀14-15
  • 1.1.2 國(guó)內(nèi)研究現(xiàn)狀15
  • 1.1.3 中文文本分類的現(xiàn)狀15-16
  • 1.2 選題背景及意義16-17
  • 1.2.1 課題的背景16-17
  • 1.2.2 課題的目的和意義17
  • 1.3 論文的組織結(jié)構(gòu)17-18
  • 1.4 本章小結(jié)18-19
  • 2 中文文本自動(dòng)分類技術(shù)及算法19-30
  • 2.1 文本分類定義19-20
  • 2.2 文本分類流程20-21
  • 2.3 文本的預(yù)處理21-24
  • 2.3.1 文本標(biāo)記預(yù)處理21-22
  • 2.3.2 特征選擇22-23
  • 2.3.3 文本的分詞方法23-24
  • 2.3.4 拓展詞24
  • 2.4 K最近鄰算法24-26
  • 2.4.1 K最近鄰分類算法的背景和基礎(chǔ)24-26
  • 2.4.2 K最近鄰算法工作流程26
  • 2.4.3 KNN算法的優(yōu)缺點(diǎn)26
  • 2.5 支持向量機(jī)分類算法26-29
  • 2.5.1 支持向量機(jī)分類算法的背景和基礎(chǔ)26-27
  • 2.5.2 支持向量機(jī)分類算法的流程27-29
  • 2.6 本章小結(jié)29-30
  • 3 分類算法的研究及改進(jìn)30-41
  • 3.1 樸素貝葉斯分類算法30-34
  • 3.1.1 貝葉斯分類算法背景和基礎(chǔ)30-31
  • 3.1.2 貝葉斯定理31-34
  • 3.2 改進(jìn)的樸素貝葉斯分類算法34-36
  • 3.2.1 樸素貝葉斯分類器缺點(diǎn)34-35
  • 3.2.2 改進(jìn)思想35
  • 3.2.3 粗糙集對(duì)屬性約簡(jiǎn)35-36
  • 3.3 關(guān)聯(lián)規(guī)則36-39
  • 3.4 RWNBC模型和算法39-40
  • 3.5 本章小結(jié)40-41
  • 4 實(shí)驗(yàn)結(jié)果及分析41-46
  • 4.1 實(shí)驗(yàn)環(huán)境41
  • 4.2 實(shí)驗(yàn)數(shù)據(jù)41-42
  • 4.3 實(shí)驗(yàn)方法及分析42-45
  • 4.4 本章小結(jié)45-46
  • 5 總結(jié)和展望46-47
  • 參考文獻(xiàn)47-51
  • 附錄A 樸素貝葉斯分類算法實(shí)現(xiàn)51-57
  • 致謝57-58
  • 作者簡(jiǎn)介及讀研期間主要科研成果58

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 張翔;周明全;董麗麗;閆清波;;結(jié)合粗糙集與集成學(xué)習(xí)的中文文本分類方法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2011年01期

2 李凱齊;刁興春;曹建軍;李峰;;基于改進(jìn)蟻群算法的高精度文本特征選擇方法[J];解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年06期

3 王衛(wèi)玲;劉培玉;初建崇;;一種改進(jìn)的基于條件互信息的特征選擇算法[J];計(jì)算機(jī)應(yīng)用;2007年02期

4 陳文亮;朱靖波;朱慕華;姚天順;;基于領(lǐng)域詞典的文本特征表示[J];計(jì)算機(jī)研究與發(fā)展;2005年12期

5 田鳳占,黃麗,于劍,黃厚寬;包含隱變量的貝葉斯網(wǎng)絡(luò)增量學(xué)習(xí)方法[J];電子學(xué)報(bào);2005年11期

6 馬光志,陳鳳華;基于關(guān)聯(lián)規(guī)則的ABN分類器構(gòu)造[J];計(jì)算機(jī)工程與科學(xué);2005年05期

7 李榮陸,王建會(huì),陳曉云,陶曉鵬,胡運(yùn)發(fā);使用最大熵模型進(jìn)行中文文本分類[J];計(jì)算機(jī)研究與發(fā)展;2005年01期

8 王雙成,苑森淼;具有丟失數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)研究[J];軟件學(xué)報(bào);2004年07期

9 周茜,趙明生,扈e,

本文編號(hào):1058890


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1058890.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7b83c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com