基于云模型的新聞文本特征選擇方法研究
發(fā)布時間:2021-05-01 02:26
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)中的文本以指數(shù)形式的速度增長向大眾鋪面而來。因此,如何提高新聞文本分類的高效性和準(zhǔn)確性、提高高質(zhì)量和智能化的新聞文本分類、快速提取出用戶所需要的信息服務(wù)具有重要的意義。特征選擇是新聞文本分類降維的主要方法之一。常用的特征選擇方法考慮特征詞與類別的關(guān)系不是很全,而且默認在均衡的數(shù)據(jù)集上。現(xiàn)存的文本特征選擇方法往往存在一定的缺陷。新聞文本本身的多樣性、復(fù)雜性、不確定性等特點,加上熱詞的增多,同時特征子集空間規(guī)模的大小不容易確定,給特征選擇的研究帶來了一定的難度。本文針對新聞文本中,特征及樣本的不均衡問題,做了如下幾個方面的研究工作:1、研究了新聞文本分類的相關(guān)理論與技術(shù)。深入理解幾種常用的特征選擇方法,并比較它們之間的優(yōu)缺點及適用場景。2、新聞文本分類效果的優(yōu)劣關(guān)鍵因素之一是特征子集的選擇。針對常用特征選擇技術(shù)的不足、特征項本身的不確定性,本課題在特征項粒度級應(yīng)用了模糊集理論的知識,對期望交叉熵特征選擇方法進行了改進,提出了模糊期望交叉熵(AFECE)的特征選擇方法。通過三種常用的特征選擇技術(shù)和AFECE特征選擇技術(shù),采用同一分類器模型,進行仿真。通過三個評價...
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外的研究現(xiàn)狀
1.3 本文的主要研究工作
1.4 本文組織結(jié)構(gòu)
1.5 本文的創(chuàng)新點
第2章 相關(guān)理論和技術(shù)
2.1 文本分類
2.2 文本的表示
2.2.1 布爾模型
2.2.2 概率模型
2.2.3 空間向量模型
2.3 特征選擇和特征提取
2.3.1 特征選擇的過程
2.3.2 特征選擇的定義
2.3.3 搜索策略
2.3.4 評價標(biāo)準(zhǔn)
2.3.5 特征子集選擇的準(zhǔn)則
2.3.6 特征提取
2.4 特征選擇模型
2.4.1 特征選擇的原則
2.4.2 卡方統(tǒng)計
2.4.3 互信息模型
2.4.4 期望交叉熵
2.5 分類模型
2.5.1 KNN分類模型
2.5.2 NaiveBayes分類模型
2.6 本章小結(jié)
第3章 模糊技術(shù)與傳統(tǒng)方法結(jié)合的研究分析
3.1 模糊技術(shù)
3.1.1 模糊集的基本概念
3.1.2 模糊相似矩陣
3.2 基于模糊集期望交叉熵的特征選擇方法
3.2.1 隸屬度函數(shù)的設(shè)計
3.2.2 模糊期望交叉熵的確定
3.3 本章小結(jié)
第4章 參數(shù)優(yōu)化的特征選擇方法
4.1 粒子群優(yōu)化算法
4.1.1 粒子群算法
4.1.2 二進制編碼的粒子群算法
4.2 基于云模型的粒子群文本特征選擇方法
4.2.1 云模型
4.2.2 粒子編碼
4.2.3 適應(yīng)度函數(shù)
4.2.4 慣性權(quán)重的確定
4.2.5 基于云模型的特征選擇方法研究
4.3 模糊化KNN分類模型
4.3.1 隸屬度函數(shù)的設(shè)計
4.3.2 AFKNN算法流程圖
4.4 性能評價指標(biāo)
4.5 本章小結(jié)
第5章 實驗結(jié)果與分析
5.1 實驗準(zhǔn)備
5.1.1 實驗環(huán)境
5.1.2 實驗數(shù)據(jù)
5.1.3 數(shù)據(jù)集樣本分布
5.2 實驗結(jié)果與分析
5.2.1 特征選擇方法選出的特征子集
5.2.2 基于AFECE特征選擇算法結(jié)果分析
5.2.3 基于云模型粒子群優(yōu)化的特征選擇結(jié)果與分析
5.2.4 基于KNN分類器改進的模型
5.3 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
攻讀學(xué)位期間取得的研究成果
致謝
【參考文獻】:
期刊論文
[1]基于人體姿態(tài)的PSO-SVM特征向量跌倒檢測方法[J]. 麻文剛,王小鵬,吳作鵬. 傳感技術(shù)學(xué)報. 2017(10)
[2]基于模糊關(guān)聯(lián)優(yōu)化的中文語義深度挖掘仿真[J]. 羅小玲,薛河儒. 計算機仿真. 2016(01)
[3]Short text classification based on strong feature thesaurus[J]. Bing-kun WANG1,2, Yong-feng HUANG1,2, Wan-xia YANG1,2, Xing LI1,2 (1Information Cognitive and Intelligent System Research Institute, Department of Electronic and Engineering, Tsinghua University, Beijing 100084, China) (2Information Technology National Laboratory, Tsinghua University, Beijing 100084, China). Journal of Zhejiang University-Science C(Computers & Electronics). 2012(09)
[4]基于機器學(xué)習(xí)的中文微博情感分類實證研究[J]. 劉志明,劉魯. 計算機工程與應(yīng)用. 2012(01)
[5]基于經(jīng)驗?zāi)J椒纸獾闹庇X模糊網(wǎng)絡(luò)故障診斷[J]. 許翔宇,黃席樾,趙勇,黃勇. 重慶理工大學(xué)學(xué)報(自然科學(xué)版). 2010(04)
[6]消費者網(wǎng)絡(luò)評論的情感模糊計算與產(chǎn)品推薦研究[J]. 那日薩,劉影,李媛. 廣西師范大學(xué)學(xué)報(自然科學(xué)版). 2010(01)
[7]基于核主元分析的帶可變懲罰因子最小二乘模糊支持向量機模型及其在信用分類中的應(yīng)用[J]. 余樂安,汪壽陽. 系統(tǒng)科學(xué)與數(shù)學(xué). 2009(10)
[8]一種基于ICA和模糊LDA的特征提取方法[J]. 王建國,楊萬扣,鄭宇杰,楊靜宇. 模式識別與人工智能. 2008(06)
碩士論文
[1]基于粗糙集的Web文本分類技術(shù)研究[D]. 許庚寅.電子科技大學(xué) 2011
[2]KNN文本分類中特征詞權(quán)重算法的研究[D]. 趙小華.太原理工大學(xué) 2010
[3]文本分類中特征提取和特征加權(quán)方法研究[D]. 蔣健.重慶大學(xué) 2010
本文編號:3169958
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外的研究現(xiàn)狀
1.3 本文的主要研究工作
1.4 本文組織結(jié)構(gòu)
1.5 本文的創(chuàng)新點
第2章 相關(guān)理論和技術(shù)
2.1 文本分類
2.2 文本的表示
2.2.1 布爾模型
2.2.2 概率模型
2.2.3 空間向量模型
2.3 特征選擇和特征提取
2.3.1 特征選擇的過程
2.3.2 特征選擇的定義
2.3.3 搜索策略
2.3.4 評價標(biāo)準(zhǔn)
2.3.5 特征子集選擇的準(zhǔn)則
2.3.6 特征提取
2.4 特征選擇模型
2.4.1 特征選擇的原則
2.4.2 卡方統(tǒng)計
2.4.3 互信息模型
2.4.4 期望交叉熵
2.5 分類模型
2.5.1 KNN分類模型
2.5.2 NaiveBayes分類模型
2.6 本章小結(jié)
第3章 模糊技術(shù)與傳統(tǒng)方法結(jié)合的研究分析
3.1 模糊技術(shù)
3.1.1 模糊集的基本概念
3.1.2 模糊相似矩陣
3.2 基于模糊集期望交叉熵的特征選擇方法
3.2.1 隸屬度函數(shù)的設(shè)計
3.2.2 模糊期望交叉熵的確定
3.3 本章小結(jié)
第4章 參數(shù)優(yōu)化的特征選擇方法
4.1 粒子群優(yōu)化算法
4.1.1 粒子群算法
4.1.2 二進制編碼的粒子群算法
4.2 基于云模型的粒子群文本特征選擇方法
4.2.1 云模型
4.2.2 粒子編碼
4.2.3 適應(yīng)度函數(shù)
4.2.4 慣性權(quán)重的確定
4.2.5 基于云模型的特征選擇方法研究
4.3 模糊化KNN分類模型
4.3.1 隸屬度函數(shù)的設(shè)計
4.3.2 AFKNN算法流程圖
4.4 性能評價指標(biāo)
4.5 本章小結(jié)
第5章 實驗結(jié)果與分析
5.1 實驗準(zhǔn)備
5.1.1 實驗環(huán)境
5.1.2 實驗數(shù)據(jù)
5.1.3 數(shù)據(jù)集樣本分布
5.2 實驗結(jié)果與分析
5.2.1 特征選擇方法選出的特征子集
5.2.2 基于AFECE特征選擇算法結(jié)果分析
5.2.3 基于云模型粒子群優(yōu)化的特征選擇結(jié)果與分析
5.2.4 基于KNN分類器改進的模型
5.3 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
攻讀學(xué)位期間取得的研究成果
致謝
【參考文獻】:
期刊論文
[1]基于人體姿態(tài)的PSO-SVM特征向量跌倒檢測方法[J]. 麻文剛,王小鵬,吳作鵬. 傳感技術(shù)學(xué)報. 2017(10)
[2]基于模糊關(guān)聯(lián)優(yōu)化的中文語義深度挖掘仿真[J]. 羅小玲,薛河儒. 計算機仿真. 2016(01)
[3]Short text classification based on strong feature thesaurus[J]. Bing-kun WANG1,2, Yong-feng HUANG1,2, Wan-xia YANG1,2, Xing LI1,2 (1Information Cognitive and Intelligent System Research Institute, Department of Electronic and Engineering, Tsinghua University, Beijing 100084, China) (2Information Technology National Laboratory, Tsinghua University, Beijing 100084, China). Journal of Zhejiang University-Science C(Computers & Electronics). 2012(09)
[4]基于機器學(xué)習(xí)的中文微博情感分類實證研究[J]. 劉志明,劉魯. 計算機工程與應(yīng)用. 2012(01)
[5]基于經(jīng)驗?zāi)J椒纸獾闹庇X模糊網(wǎng)絡(luò)故障診斷[J]. 許翔宇,黃席樾,趙勇,黃勇. 重慶理工大學(xué)學(xué)報(自然科學(xué)版). 2010(04)
[6]消費者網(wǎng)絡(luò)評論的情感模糊計算與產(chǎn)品推薦研究[J]. 那日薩,劉影,李媛. 廣西師范大學(xué)學(xué)報(自然科學(xué)版). 2010(01)
[7]基于核主元分析的帶可變懲罰因子最小二乘模糊支持向量機模型及其在信用分類中的應(yīng)用[J]. 余樂安,汪壽陽. 系統(tǒng)科學(xué)與數(shù)學(xué). 2009(10)
[8]一種基于ICA和模糊LDA的特征提取方法[J]. 王建國,楊萬扣,鄭宇杰,楊靜宇. 模式識別與人工智能. 2008(06)
碩士論文
[1]基于粗糙集的Web文本分類技術(shù)研究[D]. 許庚寅.電子科技大學(xué) 2011
[2]KNN文本分類中特征詞權(quán)重算法的研究[D]. 趙小華.太原理工大學(xué) 2010
[3]文本分類中特征提取和特征加權(quán)方法研究[D]. 蔣健.重慶大學(xué) 2010
本文編號:3169958
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3169958.html
最近更新
教材專著