天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于語(yǔ)義擴(kuò)散核與支持向量機(jī)的半監(jiān)督農(nóng)業(yè)文本分類研究

發(fā)布時(shí)間:2020-04-30 00:05
【摘要】:隨著信息技術(shù)應(yīng)用水平的不斷提高、互聯(lián)網(wǎng)相關(guān)產(chǎn)業(yè)的迅猛發(fā)展和國(guó)家對(duì)農(nóng)業(yè)的大力支持,信息技術(shù)在農(nóng)業(yè)農(nóng)村中的應(yīng)用也在不斷發(fā)展、不斷推廣和不斷深入。如何利用機(jī)器學(xué)習(xí)自動(dòng)從海量的農(nóng)業(yè)文本數(shù)據(jù)信息中迅速、準(zhǔn)確地提取有價(jià)值的知識(shí)成為人們研究的重要課題。自動(dòng)文本分類是數(shù)據(jù)挖掘領(lǐng)域研究的熱點(diǎn),是機(jī)器學(xué)習(xí)中處理文本信息的關(guān)鍵技術(shù)。本文在傳統(tǒng)的文本分類模型基礎(chǔ)上,提出了一種基于特征族群語(yǔ)義擴(kuò)散核與支持向量機(jī)的半監(jiān)督農(nóng)業(yè)中文文本分類方法,實(shí)驗(yàn)表明本文所提出的方法比經(jīng)典的支持向量機(jī)方法具有更高的分類準(zhǔn)確率。為更好進(jìn)行實(shí)驗(yàn)工作,設(shè)計(jì)了一個(gè)基于語(yǔ)義擴(kuò)散核與支持向量機(jī)的半監(jiān)督中文文本分類JAVA EE軟件實(shí)驗(yàn)平臺(tái),詳細(xì)介紹了該平臺(tái)的原理、功能、優(yōu)勢(shì)。具體地,本文的主要工作有:(1)提出了一種基于特征族群語(yǔ)義擴(kuò)散核與支持向量機(jī)的半監(jiān)督農(nóng)業(yè)中文文本分類方法,該方法主要涉及如下幾個(gè)步驟:(1)數(shù)據(jù)獲取及數(shù)據(jù)預(yù)處理。利用系統(tǒng)中爬蟲程序從中國(guó)農(nóng)業(yè)新聞網(wǎng)、中國(guó)水產(chǎn)網(wǎng)和農(nóng)林網(wǎng)上獲得相關(guān)欄目下的文檔作為農(nóng)業(yè)信息數(shù)據(jù)集,然后利用基于中科院的ICTCLAS中文分詞算法的Ansj中文分詞系統(tǒng)對(duì)數(shù)據(jù)集進(jìn)行分詞處理。(2)特征選擇。利用停用詞表剔除停用詞,計(jì)算每個(gè)詞的詞頻、反向詞頻、TF-IDF和卡方值。實(shí)驗(yàn)表明,隨著特征項(xiàng)數(shù)量的增加,分類準(zhǔn)確率會(huì)隨之提升,最終逼近一個(gè)極限值。本文選擇卡方統(tǒng)計(jì)量最高的1000個(gè)詞作為特征。(3)信息向量化。這里使用向量空間模型(Vector space model,VSM)實(shí)現(xiàn)文本信息向量化。(4)農(nóng)業(yè)文本信息分類。基于生成的向量文件,分別使用本文所提出的分類方法與經(jīng)典的基于支持向量機(jī)的農(nóng)業(yè)文本分類方法實(shí)現(xiàn)農(nóng)業(yè)信息分類,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析。(2)設(shè)計(jì)了一種可適用于小型網(wǎng)站的基于語(yǔ)義擴(kuò)散核與支持向量機(jī)的半監(jiān)督中文文本分類JAVA EE軟件實(shí)驗(yàn)平臺(tái),系統(tǒng)基于Java EE技術(shù)和關(guān)系型數(shù)據(jù)庫(kù)技術(shù),為基于支持向量機(jī)的中文文本分類提供開放、靈活、高效、穩(wěn)健的實(shí)驗(yàn)平臺(tái)。
【圖文】:

支持向量機(jī),示例,線性,向量表示


圖 1 線性可劃分的支持向量機(jī)示例性可劃分的支持向量機(jī)的例子。如圖所示,藍(lán)。 從圖中我們可作無(wú)數(shù)條分類線將兩種類待測(cè)試樣本的向量表示,w、b 是模型參數(shù),,

分離超平面,示例,分類超平面,中距離


圖 2 間隔最大分離超平面示例如圖 2, H 是分類超平面,H1 和 H2 是距離H2 與 H 之間的距離就是幾何間隔。在 H1、樣本點(diǎn)中距離最小的那一點(diǎn)的間隔設(shè)定為
【學(xué)位授予單位】:贛南師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:S126;TP391.1;TP181

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 周志華;;基于分歧的半監(jiān)督學(xué)習(xí)[J];自動(dòng)化學(xué)報(bào);2013年11期

2 易云;汪廷華;;基于特征加權(quán)支持向量機(jī)的血吸蟲尾蚴識(shí)別算法設(shè)計(jì)與應(yīng)用[J];贛南師范學(xué)院學(xué)報(bào);2012年03期

3 陶劍文;王士同;;領(lǐng)域適應(yīng)核支持向量機(jī)[J];自動(dòng)化學(xué)報(bào);2012年05期

4 王欣欣;賴惠成;;改進(jìn)的SMO文本分類算法[J];信息安全與通信保密;2011年12期

5 徐麗;伏玉琛;李斯;;一種改進(jìn)的SVM決策樹Web文本分類算法[J];蘇州大學(xué)學(xué)報(bào)(工科版);2011年05期

6 劉振鹿;王大玲;馮時(shí);張一飛;方東昊;;一種基于LDA的潛在語(yǔ)義區(qū)劃分及Web文檔聚類算法[J];中文信息學(xué)報(bào);2011年01期

7 邱榮洲;趙健;池美香;黃霈霆;高曉丹;邱燕蓮;伊俏;翁啟勇;;數(shù)字農(nóng)業(yè)信息分類體系研究[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2010年11期

8 王燕霞;鄧偉;;CTM與SVM相結(jié)合的文本分類方法[J];計(jì)算機(jī)工程;2010年22期

9 魏順平;何克抗;;基于文本挖掘的領(lǐng)域本體半自動(dòng)構(gòu)建方法研究——以教學(xué)設(shè)計(jì)學(xué)科領(lǐng)域本體建設(shè)為例[J];開放教育研究;2008年05期

10 蓋杰,王怡,武港山;潛在語(yǔ)義分析理論及其應(yīng)用[J];計(jì)算機(jī)應(yīng)用研究;2004年03期

相關(guān)博士學(xué)位論文 前1條

1 宋楓溪;自動(dòng)文本分類若干基本問(wèn)題研究[D];南京理工大學(xué);2004年

相關(guān)碩士學(xué)位論文 前10條

1 張曉靜;基于深度學(xué)習(xí)的農(nóng)業(yè)信息分類方法研究[D];西北農(nóng)林科技大學(xué);2017年

2 劉國(guó)鋒;基于深度學(xué)習(xí)理論和SVM技術(shù)的文本分類研究與實(shí)現(xiàn)[D];江蘇科技大學(xué);2017年

3 趙新苗;基于中心向量的聚類算法在農(nóng)業(yè)信息分類中的研究與應(yīng)用[D];新疆農(nóng)業(yè)大學(xué);2016年

4 譚建平;基于半監(jiān)督的SVM遷移學(xué)習(xí)文本分類方法[D];廣東工業(yè)大學(xué);2016年

5 張磊磊;基于Hadoop和SVM算法的中文文本分類的研究與實(shí)現(xiàn)[D];昆明理工大學(xué);2015年

6 許鈺;基于半監(jiān)督SVM主動(dòng)學(xué)習(xí)的文本分類算法研究[D];蘭州交通大學(xué);2013年

7 謝靜;基于LDA與SVM的文本分類研究[D];河北大學(xué);2012年

8 田曠;面向高維數(shù)據(jù)的特征選擇算法研究[D];北京交通大學(xué);2012年

9 樊東輝;基于文本聚類的特征選擇算法研究[D];西北師范大學(xué);2012年

10 劉偉麗;基于粒子群算法和支持向量機(jī)的中文文本分類研究[D];河南工業(yè)大學(xué);2010年



本文編號(hào):2645149

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/nykj/2645149.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5777a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com