天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于SVM的文本信息過(guò)濾算法研究

發(fā)布時(shí)間:2017-10-05 12:15

  本文關(guān)鍵詞:基于SVM的文本信息過(guò)濾算法研究


  更多相關(guān)文章: 信息過(guò)濾 英文文本 特征提取 支持向量機(jī) 機(jī)器學(xué)習(xí)


【摘要】:當(dāng)今社會(huì),信息資源非常豐富,已成為行業(yè)競(jìng)爭(zhēng)的焦點(diǎn),誰(shuí)掌握了信息資源誰(shuí)就掌握了未來(lái)。隨著互聯(lián)網(wǎng)、信息技術(shù)的迅速發(fā)展,數(shù)據(jù)存貯技術(shù)越來(lái)越高,因此計(jì)算機(jī)能夠讀取的文本信息也就逐漸增多。相對(duì)于一些特定的用戶來(lái)說(shuō),他們需要的信息通常只是這些信息中特別少的一部分。隨著特定用戶和規(guī)模龐大的信息資源對(duì)特定文本信息的需求逐漸增多,信息用戶急需一套大規(guī)模文本信息處理軟件。但是,要想從規(guī)模龐大的信息資源中獲得用戶所需的文本信息,對(duì)文本信息處理的精確度、準(zhǔn)確性的要求較高。文本信息過(guò)濾算法主要研究的是怎樣把用戶的需求準(zhǔn)確地表達(dá)出來(lái),然后用戶在規(guī)模龐大的信息資源中自動(dòng)獲取所需的有用信息。目前,英語(yǔ)在國(guó)際交流上是一種最常用的通用語(yǔ)言,而且對(duì)于國(guó)際化企業(yè)來(lái)說(shuō),有價(jià)值的信息資料一般都是用英文存檔的,因此,對(duì)英文文本信息過(guò)濾進(jìn)行研究具實(shí)用價(jià)值和現(xiàn)實(shí)意義。文本信息過(guò)濾是通過(guò)計(jì)算機(jī)對(duì)文本信息進(jìn)行自動(dòng)過(guò)濾的過(guò)程,是在文本信息內(nèi)容的基礎(chǔ)上對(duì)文本信息進(jìn)行自動(dòng)分類、過(guò)濾的一種核心技術(shù)。由于文本信息過(guò)濾問(wèn)題具有信息特征間的相關(guān)性大、文本向量稀維數(shù)高、稀疏性大等特點(diǎn),支持向量機(jī)(SVM)適用于文本信息過(guò)濾問(wèn)題,在文本信息過(guò)濾中的應(yīng)用潛力非常大。在文本信息過(guò)濾過(guò)程中,怎樣降低特征向量空間的高維性,實(shí)現(xiàn)文本信息過(guò)濾算法的高效性,是急需解決的一個(gè)首要問(wèn)題。因此,本文從特征值提取算法選取、信息過(guò)濾算法改進(jìn),算法參數(shù)優(yōu)化等方面分別做了相應(yīng)的研究,具體包括以下幾個(gè)方面工作:1、分析傳統(tǒng)特征提取方法的特點(diǎn),在分析原有CHI特征選擇和信息增益特征選擇優(yōu)缺點(diǎn)的基礎(chǔ)上,提出了一種維數(shù)自適應(yīng)結(jié)合的特征選擇方法。通過(guò)實(shí)驗(yàn)對(duì)比傳統(tǒng)的CHI特征選擇、信息增益和維數(shù)自適應(yīng)結(jié)合方法,維數(shù)自適應(yīng)結(jié)合方法使得訓(xùn)練數(shù)據(jù)的交叉驗(yàn)證準(zhǔn)確率以及訓(xùn)練驗(yàn)證準(zhǔn)確率得到顯著提高。2、針對(duì)SVM在訓(xùn)練過(guò)程中存在不平衡樣本以及無(wú)用樣本的缺點(diǎn),并且在文本過(guò)濾中存在一些判別困難區(qū)域,本文采取了融合K-Means算法進(jìn)行改進(jìn),通過(guò)K-Means算法選取合適的SVM訓(xùn)練子集,進(jìn)而優(yōu)化訓(xùn)練樣本;通過(guò)確定正例樣本聚類中心集區(qū)域,在進(jìn)行SVM文本信息過(guò)濾時(shí),對(duì)于判別困難的數(shù)據(jù)可以再次進(jìn)行聚類決策,提高SVM算法在信息過(guò)濾中的精度。3、在SVM算法實(shí)際應(yīng)用中,懲罰因子、核函數(shù)及其核參數(shù)這三個(gè)參數(shù)對(duì)分類精度影響較大。本文采用了一種可變步長(zhǎng)迭代選取算法,以交叉驗(yàn)證準(zhǔn)確率最佳為目的,通過(guò)粗選、精選兩個(gè)過(guò)程,從而快速的確定最優(yōu)參數(shù)。實(shí)驗(yàn)證明,改進(jìn)的SVM算法,在文本信息過(guò)濾過(guò)程中,查準(zhǔn)率、查全率以及F值等評(píng)測(cè)指標(biāo)有顯著的提高。4、在算法研究基礎(chǔ)上,本文采用C#語(yǔ)言調(diào)用C++組件進(jìn)行了算法系統(tǒng)化實(shí)現(xiàn),并對(duì)該算法做了實(shí)際運(yùn)行測(cè)試。實(shí)驗(yàn)證明,基于SVM的文本信息過(guò)濾算法的過(guò)濾性能較好。
【關(guān)鍵詞】:信息過(guò)濾 英文文本 特征提取 支持向量機(jī) 機(jī)器學(xué)習(xí)
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要4-6
  • Abstract6-13
  • 第1章 緒論13-18
  • 1.1 研究背景及意義13-14
  • 1.1.1 研究背景13-14
  • 1.1.2 研究意義14
  • 1.2 文本信息過(guò)濾的研究現(xiàn)狀14-16
  • 1.2.1 國(guó)外研究現(xiàn)狀14-15
  • 1.2.2 國(guó)內(nèi)研究現(xiàn)狀15-16
  • 1.3 研究?jī)?nèi)容16-17
  • 1.4 本文的組織結(jié)構(gòu)17-18
  • 第2章 文本信息過(guò)濾相關(guān)理論18-29
  • 2.1 文本信息過(guò)濾概述18-23
  • 2.1.1 文本信息過(guò)濾的概念及特點(diǎn)18-19
  • 2.1.2 信息過(guò)濾的分類方法19-20
  • 2.1.3 信息過(guò)濾模型20-22
  • 2.1.4 文本分類與信息過(guò)濾22-23
  • 2.2 英文文本信息過(guò)濾的特點(diǎn)23
  • 2.3 機(jī)器學(xué)習(xí)23-25
  • 2.3.1 機(jī)器學(xué)習(xí)的定義及目的23-24
  • 2.3.2 機(jī)器學(xué)習(xí)的分類24-25
  • 2.4 文本信息過(guò)濾相關(guān)算法25-28
  • 2.4.1 類中心向量算法25-26
  • 2.4.2 K-鄰近算法26
  • 2.4.3 樸素貝葉斯算法26-27
  • 2.4.4 決策樹算法27
  • 2.4.5 神經(jīng)網(wǎng)絡(luò)算法27-28
  • 2.4.6 支持向量機(jī)算法28
  • 2.5 本章小結(jié)28-29
  • 第3章 文本信息預(yù)處理及特征提取算法29-39
  • 3.1 文本信息預(yù)處理29-30
  • 3.1.1 分詞處理29
  • 3.1.2 停用詞處理29
  • 3.1.3 詞根還原29-30
  • 3.2 特征提取算法30-32
  • 3.2.1 文檔頻率30-31
  • 3.2.2 互信息31
  • 3.2.3 信息增益31-32
  • 3.2.4 CHI統(tǒng)計(jì)32
  • 3.3 特征提取算法的改進(jìn)32-34
  • 3.3.1 信息增益的優(yōu)缺點(diǎn)33
  • 3.3.2 CHI統(tǒng)計(jì)的優(yōu)缺點(diǎn)33
  • 3.3.3 特征提取算法的改進(jìn)33-34
  • 3.4 權(quán)重計(jì)算34-35
  • 3.5 實(shí)驗(yàn)結(jié)果及分析35-38
  • 3.5.1 實(shí)驗(yàn)環(huán)境35
  • 3.5.2 實(shí)驗(yàn)數(shù)據(jù)集35
  • 3.5.3 實(shí)驗(yàn)結(jié)果分析35-38
  • 3.6 本章小結(jié)38-39
  • 第4章 SVM文本信息過(guò)濾算法改進(jìn)39-51
  • 4.1 SVM理論基礎(chǔ)39-41
  • 4.1.1 SVM算法的基本原理39-40
  • 4.1.2 SVM算法的特點(diǎn)40-41
  • 4.2 SVM算法改進(jìn)41-47
  • 4.2.1 K-Means算法簡(jiǎn)介41-42
  • 4.2.2 融合K-Means的SVM算法改進(jìn)42-44
  • 4.2.3 SVM參數(shù)優(yōu)化44-46
  • 4.2.4 改進(jìn)后的算法46-47
  • 4.3 實(shí)驗(yàn)結(jié)果與分析47-50
  • 4.3.1 評(píng)價(jià)標(biāo)準(zhǔn)47-48
  • 4.3.2 實(shí)驗(yàn)結(jié)果與分析48-50
  • 4.4 本章小結(jié)50-51
  • 第5章 文本信息過(guò)濾算法系統(tǒng)化實(shí)現(xiàn)51-60
  • 5.1 算法實(shí)現(xiàn)工具51-54
  • 5.1.1.NET平臺(tái)51-52
  • 5.1.2 Libsvm組件52-54
  • 5.2 算法實(shí)現(xiàn)過(guò)程54-56
  • 5.2.1 算法流程54
  • 5.2.2 數(shù)據(jù)預(yù)處理54-55
  • 5.2.3 特征提取55-56
  • 5.2.4 訓(xùn)練過(guò)程56
  • 5.2.5 過(guò)濾過(guò)程56
  • 5.3 運(yùn)行測(cè)試56-59
  • 5.3.1 樣本要求56
  • 5.3.2 操作界面56-58
  • 5.3.3 運(yùn)行測(cè)試分析58-59
  • 5.4 本章小結(jié)59-60
  • 第6章 結(jié)論與展望60-62
  • 6.1 結(jié)論60-61
  • 6.2 展望61-62
  • 參考文獻(xiàn)62-67
  • 作者簡(jiǎn)介及在學(xué)期間科研成果67-68
  • 致謝68

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 李盛瑜;何文;;一種對(duì)聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期

2 蔣志方;祝翠玲;吳強(qiáng);;一個(gè)對(duì)不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期

3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國(guó)審計(jì);2007年18期

4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期

5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期

6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期

7 諶志群;;文本趨勢(shì)挖掘綜述[J];情報(bào)科學(xué);2010年02期

8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期

9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期

10 陳福海;C++中用>>和<<重載實(shí)現(xiàn)文本文件的方便存取[J];現(xiàn)代計(jì)算機(jī);1997年05期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測(cè)[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

4 李文波;孫樂(lè);黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 黃云平;孫樂(lè);李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測(cè)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2001年

10 江荻;;藏語(yǔ)文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國(guó)電腦教育報(bào);2004年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年

2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年

3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年

4 韓磊;漢語(yǔ)句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年

5 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年

6 孫曉華;基于聚類的文本機(jī)會(huì)發(fā)現(xiàn)關(guān)鍵問(wèn)題研究[D];哈爾濱工程大學(xué);2010年

7 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年

8 霍躍紅;典籍英譯譯者文體分析與文本的譯者識(shí)別[D];大連理工大學(xué);2010年

9 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年

10 李自強(qiáng);大規(guī)模文本分類的若干問(wèn)題研究[D];電子科技大學(xué);2013年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年

2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年

3 李少卿;不良文本及其變體信息的檢測(cè)過(guò)濾技術(shù)研究[D];復(fù)旦大學(xué);2014年

4 董秦濤;基于文本的個(gè)人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年

5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評(píng)估及推薦應(yīng)用[D];華南理工大學(xué);2015年

6 黃晨;基于新詞識(shí)別和時(shí)間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年

7 陳紅陽(yáng);中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年

8 王s,

本文編號(hào):976739


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/976739.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5eba8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产又长又粗又爽免费视频| 99久免费精品视频在线观| 国内九一激情白浆发布| 一区二区三区亚洲国产| a久久天堂国产毛片精品| 老熟女露脸一二三四区| 亚洲国产精品久久网午夜| 亚洲国产91精品视频| 免费高清欧美一区二区视频| 91人妻人澡人人爽人人精品| 成人日韩在线播放视频| 一区二区三区免费公开| 日韩高清一区二区三区四区 | 国产欧美性成人精品午夜| 中文精品人妻一区二区| 免费观看在线午夜视频| 日本人妻中出在线观看| 2019年国产最新视频| 少妇被粗大进猛进出处故事| 色好吊视频这里只有精| 老司机精品福利视频在线播放| 国产成人精品午夜福利av免费| 视频一区二区三区自拍偷| 99国产高清不卡视频| 精品偷拍一区二区三区| 欧美综合色婷婷欧美激情| 九九九热视频免费观看| 视频一区二区黄色线观看| 亚洲国产成人精品一区刚刚| 人人妻人人澡人人夜夜| 亚洲一区二区三区日韩91| 亚洲一级在线免费观看| 国产又大又硬又粗又黄| 精品日韩国产高清毛片| 欧美中文日韩一区久久| 女厕偷窥一区二区三区在线| 亚洲乱妇熟女爽的高潮片| 国产精品内射视频免费| 熟女高潮一区二区三区| 日本一区不卡在线观看| 国产精品日韩欧美一区二区|