天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于模糊決策樹的文本分類規(guī)則抽取

發(fā)布時(shí)間:2016-08-29 11:23

  本文關(guān)鍵詞:基于模糊決策樹的文本分類規(guī)則抽取,由筆耕文化傳播整理發(fā)布。


計(jì)算機(jī)應(yīng)用 天津大學(xué) 王煜 模糊決策樹 文本分類

第"$卷第)期

!

"##$年)月

文章編號:&##&%*#,&("##$)#)%&(+’%#’

計(jì)算機(jī)應(yīng)用

[67J3GBK:JJNL5/GL60I

!

W6N-"$<6-)\3N2"##$

基于模糊決策樹的文本分類規(guī)則抽取

"

王!煜&,,王正歐&

(&-天津大學(xué)系統(tǒng)工程研究所,天津+###)";"-河北大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院,河北保定#)&##")

(./0123#+"(4&"(-567)

摘!要:提出一種合并分枝的模糊決策樹文本分類方法對相似文本類進(jìn)行分類,并可抽取出分類精度較高的模糊分類規(guī)則。首先研究改進(jìn)了的!"統(tǒng)計(jì)量,并根據(jù)改進(jìn)的!"統(tǒng)計(jì)量對文本的特征詞條進(jìn)行聚合,有效地降低了文本向量空間的維數(shù)。然后使用一種合并分枝的模糊決策樹進(jìn)行分類,大大減少了抽取的規(guī)則數(shù)量。從而既保證了決策樹分類的精度和速度,又可抽取出可理解的模糊分類規(guī)則。

"

模糊決策樹關(guān)鍵詞:相似文本分類;規(guī)則抽;!統(tǒng)計(jì)量;

中圖分類號:89+*&-&!!文獻(xiàn)標(biāo)識碼::

!"#$%&$"’()*+&$*(,)-.""#$)&%$*(,/&0"1(,2-++31"%*0*(,$)""

;:<=>3&?"?;:<=@AB01C63&

D&!"#$%&%’%()*+,$%(-$.#/&#((0&#/?1&2#3&#4#&5(0$&%,?1&2#3&#+###)"?67&#2E

"!+87))9)*:2%7(-2%&8$2#;6)-<’%(0+8&(#8(?=(>(&4#&5(0$&%,??2);&#/=(>(&#)&##"?67&#2F

4/0$)&%$5:0B.7BGA6H./IJKBIB0GBH?.AL5ABMGK/5GBHIL7LN/KGBMG5/GB16KLO/GL60K3NBP2/Q3OO2HB5LIL60GKBB7BK1L01I67BPK/05ABI-!"IG/GLIGL5./I/0/N2OBH/0HL7JK6RBH-8AB0B.7BGA6H560RBK1BHQB/G3KBI6QGBMGL0GBK7I6QGABL7JK6RBH!"

IG/GLIGL5?/0HI6N/K1BN2KBH35BHGABHL7B0IL606QGABRB5G6KIJ/5B-:0HGAB0?GABQ3OO2HB5LIL60GKBB./I/JJNLBHG6GBMG5/GB16KLO/GL60-8AB037PBK6Q5/GB16KLO/GL60K3NB./IKBH35BHN/K1BN2P27BK1L01I67BPK/05ABI-S6GAGAB30HBKIG/0H/PNB5/GB16KLO/GL60K3NBIBMGK/5GL60/0HPBGGBK/553K/526Q5/GB16KLO/GL605/0PB/5T3LKBH-6"37()105IL7LN/KGBMG5/GB16KLO/GL60EK3NBBMGK/5GL60E!"IG/GLIGL5EQ3OO2HB5LIL60GKBB

#!引言

文本挖掘是在大量非結(jié)構(gòu)化數(shù)據(jù)源上進(jìn)行數(shù)據(jù)挖掘,抽取感興趣的、潛在的有用模式和隱藏的信息。文本分類是文本挖掘的一個(gè)重要內(nèi)容。

常用文本分類方法有貝葉斯分類、U<<、支撐向量機(jī)VWX、神經(jīng)網(wǎng)絡(luò)、YZV8和W6GBH[N/IIQL5/GL60等方法

[&]

計(jì)量計(jì)算每個(gè)詞條對每個(gè)類別的貢獻(xiàn)程度,然后根據(jù)詞條的分類貢獻(xiàn)對特征詞條進(jìn)行聚合,從而大大降低了文本特征維數(shù)。最后提出一種分枝合并的模糊決策樹對文本進(jìn)行分類,減少了提取的規(guī)則數(shù)量,,提高了分類的速度和精度,并可抽取出簡明易懂且精度較高的分類規(guī)則。

。但這

&!

基于改進(jìn)!"統(tǒng)計(jì)量的特征抽取方法

目前的文本分類方法幾乎均使用經(jīng)典的向量空間模型

些方法只是對文本進(jìn)行分類,無法像數(shù)據(jù)挖掘那樣抽取其中的知識,即分類規(guī)則。有人研究了粗集方法抽取文本的分類

[",+]

規(guī)則,但得到的是一個(gè)龐大的決策表,在其上進(jìn)行離散化

(WVX)的文本特征表示方法。向量空間模型的向量維數(shù)一般為幾千維,甚至幾萬、幾十萬維,而且其中存在大量冗余的、帶噪聲的特征,如果用全部特征進(jìn)行文本分類,不僅計(jì)算量龐大,分類精度也難以保證。因此特征抽取是非常重要的。特征抽取是從文本特征中選出最有代表性的特征部分,以降低特征空間的維數(shù),從而達(dá)到降低計(jì)算復(fù)雜度和提高分類精度的目的。因此文本特征抽取出的特征矢量模式,應(yīng)該最大可能地反映文本的內(nèi)容。

對于分類貢獻(xiàn)在各個(gè)類中比例相近似的特征詞條,雖然具有不同的權(quán)值,但對于分類操作具有相同的作用,故對于分類操作來說可以視為同一個(gè)特征。正是基于這個(gè)道理,本文將分類貢獻(xiàn)在各個(gè)類中比例相近的特征詞條聚合為一個(gè)特征。聚合后的一個(gè)新特征包含一個(gè)或多個(gè)特征詞條,從而大大削減了文本特征向量的維數(shù)。

本文提出了一種改進(jìn)的!"統(tǒng)計(jì)量,根據(jù)改進(jìn)的!"統(tǒng)計(jì)量計(jì)算每個(gè)詞條對每個(gè)類別的分類貢獻(xiàn)后,再根據(jù)詞條的分類貢獻(xiàn)進(jìn)行聚合,得到維數(shù)較低的文本特征向量。

和屬性約簡,工作量十分龐大,抽取的規(guī)則十分繁雜,難于理解,且分類精度也難以保證,故缺少實(shí)用性。

決策樹是一種常用的易于抽取規(guī)則的數(shù)據(jù)挖掘工具,但將其用于特征維數(shù)很高的文本分類規(guī)則的抽取,其建樹和裁減過程的龐大計(jì)算量顯然也是不實(shí)用的。有人提出將其他方

[’,$]法和決策樹相結(jié)合進(jìn)行文本分類,雖然提高了文本分類

的性能(分類精度和速度),但是失去提取直觀易懂的分類規(guī)則的優(yōu)勢。

本文中所謂相似文本分類是指對具有較多相同特征項(xiàng)的文本進(jìn)行分類,即文本的特征相似程度較大。相似文本分類比一般文本分類要困難。一般決策樹在實(shí)現(xiàn)相似文本分類時(shí)較困難。

本文提出了一種基于模糊決策樹的文本分類方法對相似文本分類,并可以很容易提取出直觀易懂的模糊文本分類規(guī)則。首先,本文提出一種改進(jìn)的!"統(tǒng)計(jì)量,根據(jù)改進(jìn)的!"統(tǒng)

!!收稿日期:"##$%#&%&’;修訂日期:"##$%#"%"$!!基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目((#")$#"#)!!作者簡介:王煜(&*)&%),女,河北保定人,講師,博士研究生,主要研究方向:文本挖掘;!王正歐(&*+,%),男,上海人,教授,博士生導(dǎo)師,

萬方數(shù)據(jù) 

主要研究方向:神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)-


  本文關(guān)鍵詞:基于模糊決策樹的文本分類規(guī)則抽取,由筆耕文化傳播整理發(fā)布。



本文編號:104650

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/104650.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d6d42***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com