特征選取和SVM算法研究及在股市行業(yè)資訊中的應(yīng)用
本文關(guān)鍵詞:特征選取和SVM算法研究及在股市行業(yè)資訊中的應(yīng)用
更多相關(guān)文章: 文本分類 支持向量機(jī) 二叉樹 詞頻 特征項
【摘要】:在信息化時代的今天,隨著存儲容量的翻倍增長和網(wǎng)絡(luò)通訊速度的不斷提高,海量文本信息的傳輸和保存已變得異乎平常。很顯然的是傳統(tǒng)的信息獲取技術(shù)早已跟不上時代的步伐,如何在信息高速膨脹的文本數(shù)據(jù)庫中及時地檢索到我們想要的文本信息問題顯得日益突出。文本挖掘也正是為解決這一需求而在近些年得到了迅猛的發(fā)展。文本挖掘涉及文本聚類、文本分類、信息提取等多個方面,其中文本分類是當(dāng)前數(shù)據(jù)挖掘研究領(lǐng)域的熱點內(nèi)容之一。目前,文本分類技術(shù)已被成功應(yīng)用到多個領(lǐng)域,如郵件服務(wù)器使用的垃圾郵件過濾技術(shù)、網(wǎng)頁搜索引擎公司采用的檢索技術(shù)等等。 文本分類就是按照一定的分類規(guī)則對未知類別的文本進(jìn)行類別的劃分,這里的分類規(guī)則指的是區(qū)分文本類別的特征信息。為了實現(xiàn)文本的自動分類,故需將文本分類規(guī)則數(shù)字化成分類器,也就是由分類器來決定待分文本的類別。文本分類是有監(jiān)督的機(jī)器學(xué)習(xí),也就是在訓(xùn)練分類器之前樣本的類別是已知的。 通常情況下,文本分類包含的步驟有:文本信息的預(yù)處理、文本特征項的選取、文本分類器的生成、文本分類性能測試、分類效果評價等。其中文本特征項的選取和文本分類器的生成是本文的重要研究內(nèi)容,不同的特征選取方式和選擇不同的分類算法將對分類的性能產(chǎn)生較大的影響。 本文首先介紹了文本分類研究的背景和意義、國內(nèi)外研究現(xiàn)狀。與國外相比,國內(nèi)文本分類的研究起步較晚,但隨著網(wǎng)絡(luò)技術(shù)取得了突破性的發(fā)展,文本分類技術(shù)逐漸受到國內(nèi)各級、各類計算機(jī)研究機(jī)構(gòu)的重視,并研究出了一系列符合中文文本分類的技術(shù)。 接著對文本分類的相關(guān)技術(shù)作了概要的描述,包括文本的預(yù)處理、特征項的選取和文本分類算法。針對使用TF*IDF計算特征詞的權(quán)重時存在的不足,提出了改進(jìn)的TF*IDF權(quán)重計算方法,同時為了有效地降低文本訓(xùn)練的時間和空間復(fù)雜度,而又盡量地減少因降低向量維數(shù)對分類精度的影響,本文引入了特征相關(guān)度的概念,并使用特征相關(guān)系數(shù)來衡量特征項之間的關(guān)聯(lián)程度。當(dāng)特征項之間的特征相關(guān)系數(shù)大于約定的閾值時,采用一級特征項取代二級特征項來降低特征項集中同義或近義的冗余特征項。 然后對SVM算法如何解決多類分類問題進(jìn)行了研究,其中二叉樹分類方法應(yīng)用最為廣泛,但不同的二叉樹結(jié)構(gòu)會產(chǎn)生不同的分類結(jié)果。目前在生成二叉樹結(jié)構(gòu)時,通常依據(jù)樣本的分布情況或樣本類別間的距離來確定樣本在樹中節(jié)點的位置。本文提出了改進(jìn)的方法,即在生成多類分類二叉樹時,綜合考慮了樣本的分布情況和樣本類別間的距離,通過實驗分析比較改進(jìn)的算法的推廣性能較好。 最后本文設(shè)計了一個文本分類應(yīng)用在股市行業(yè)資訊上的自動分類系統(tǒng),在特征提取模塊中采用本文改進(jìn)的TF*IDF權(quán)重計算方法和文本特征項降維方法;在分類模塊中采用本文改進(jìn)的基于二叉樹的SVM多類分類方法。之后,總結(jié)了本文所做的工作,同時對本文研究過程中未能深入探討的相關(guān)問題,提出了需進(jìn)一步研究的方向。
【關(guān)鍵詞】:文本分類 支持向量機(jī) 二叉樹 詞頻 特征項
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1;TP181
【目錄】:
- 摘要3-5
- Abstract5-7
- 目錄7-10
- 第一章 緒論10-15
- 1.1 論文研究背景及意義10-11
- 1.2 文本分類國內(nèi)外研究現(xiàn)狀11-13
- 1.2.1 國外研究現(xiàn)狀11
- 1.2.2 國內(nèi)研究現(xiàn)狀11-13
- 1.3 論文的主要研究內(nèi)容13-14
- 1.4 論文的組織結(jié)構(gòu)14-15
- 第二章 文本分類相關(guān)技術(shù)概述15-26
- 2.1 文本預(yù)處理16-18
- 2.1.1 文本分詞16-17
- 2.1.2 去除文本停用詞17-18
- 2.2 文本表示18-19
- 2.3 特征選取19-21
- 2.3.1 詞頻*逆文檔頻率(TF~*IDF)19-20
- 2.3.2 互信息(MI)20
- 2.3.3 信息增益(IG)20-21
- 2.3.4 期望交叉熵(ECE)21
- 2.4 文本分類算法21-25
- 2.4.1 樸素貝葉斯算法22
- 2.4.2 K近鄰算法22-23
- 2.4.3 支持向量機(jī)算法23-25
- 2.5 本章小結(jié)25-26
- 第三章 TF~*IDF方法計算特征項權(quán)重的改進(jìn)和特征項的降維26-34
- 3.1 改進(jìn)的詞頻和逆文檔頻率26-29
- 3.1.1 詞對于類別之間的區(qū)分能力27-28
- 3.1.2 詞對于類別內(nèi)部的區(qū)分能力28-29
- 3.1.3 改進(jìn)的TF~*IDF公式29
- 3.2 文本特征項的降維29-33
- 3.3 本章小結(jié)33-34
- 第四章 支持向量機(jī)在多類別問題中的應(yīng)用34-40
- 4.1 SVM多類分類方法34-38
- 4.1.1 一對多分類方法34-35
- 4.1.2 一對一分類方法35
- 4.1.3 二叉樹分類方法35-37
- 4.1.4 有向無環(huán)圖分類方法37
- 4.1.5 改進(jìn)的二叉樹分類方法37-38
- 4.2 實驗分析38-39
- 4.3 本章小結(jié)39-40
- 第五章 文本分類應(yīng)用與結(jié)果分析40-48
- 5.1 文本分類應(yīng)用設(shè)計40-42
- 5.1.1 實驗環(huán)境40
- 5.1.2 分類語料庫40-41
- 5.1.3 分類應(yīng)用總體流程41-42
- 5.2 分類應(yīng)用流程模塊42-45
- 5.2.1 預(yù)處理模塊42-44
- 5.2.2 文本表示模塊44
- 5.2.3 特征選取模塊44
- 5.2.4 分類模塊44-45
- 5.3 文本分類結(jié)果分析45-46
- 5.4 本章小結(jié)46-48
- 第六章 總結(jié)與展望48-50
- 6.1 工作總結(jié)48-49
- 6.2 研究展望49-50
- 參考文獻(xiàn)50-54
- 附錄A 圖目錄54-55
- Appendix A:Figure index55-56
- 致謝56-57
- 攻讀碩士學(xué)位期間發(fā)表的論文57
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 顧益軍,樊孝忠,王建華,汪濤,黃維金;中文停用詞表的自動選取[J];北京理工大學(xué)學(xué)報;2005年04期
2 葉磊;駱興國;;支持向量機(jī)應(yīng)用概述[J];電腦知識與技術(shù);2010年34期
3 朱聰慧;趙鐵軍;鄭德權(quán);;基于無向圖序列標(biāo)注模型的中文分詞詞性標(biāo)注一體化系統(tǒng)[J];電子與信息學(xué)報;2010年03期
4 何偉;胡學(xué)鋼;謝飛;;基于張量空間模型的中文文本分類[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2010年12期
5 李榮陸,王建會,陳曉云,陶曉鵬,胡運發(fā);使用最大熵模型進(jìn)行中文文本分類[J];計算機(jī)研究與發(fā)展;2005年01期
6 劉遷;賈惠波;;中文信息處理中自動分詞技術(shù)的研究與展望[J];計算機(jī)工程與應(yīng)用;2006年03期
7 劉健;劉忠;熊鷹;;改進(jìn)的二叉樹支持向量機(jī)多類分類算法研究[J];計算機(jī)工程與應(yīng)用;2010年33期
8 顧亞祥;丁世飛;;支持向量機(jī)研究進(jìn)展[J];計算機(jī)科學(xué);2011年02期
9 盧祖友;桑永勝;;基于球向量機(jī)的中文文本分類[J];計算機(jī)工程與科學(xué);2008年12期
10 孟媛媛,劉希玉;一種新的基于二叉樹的SVM多類分類方法[J];計算機(jī)應(yīng)用;2005年11期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 劉赫;文本分類中若干問題研究[D];吉林大學(xué);2009年
2 高鵬毅;BP神經(jīng)網(wǎng)絡(luò)分類器優(yōu)化技術(shù)研究[D];華中科技大學(xué);2012年
3 楊杰明;文本分類中文本表示模型和特征選擇算法研究[D];吉林大學(xué);2013年
,本文編號:806394
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/806394.html