天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 統(tǒng)計學(xué)論文 >

基于簇的K最近鄰

發(fā)布時間:2016-12-10 13:30

  本文關(guān)鍵詞:基于決策樹和K最近鄰算法的文本分類研究,由筆耕文化傳播整理發(fā)布。


優(yōu)化算法

42622009,30(18)計算機工程與設(shè)計ComputerEngineeringandDesign

Ifdi(i=1),看作第一簇,分配簇ID=0,簇的中心向量

就是文本向量,將簇ID放入中心向量詞條的簇鏈表中

else基于已經(jīng)生成的(還沒有完全生成,只生成了一部

分)詞條到簇的倒排索引結(jié)構(gòu),找到和di的詞條有交集的簇(Clus),所有這樣的簇組成簇集合(CS)

j=1

while(j≤|CS|)(|CS|表示CS的長度)

Ifdi與CSj的中心向量(ccvj)的相似度Sim(di,ccvj)>=

中心向量相似閾值(預(yù)先給定)

Ifdi和CSj中每個文本的相似度都>=文本相似閾

值(預(yù)先給定),分別記下簇ID、最大相似度,并設(shè)置標(biāo)志表明文本能夠歸入已有的簇,j++,計算下一簇

Elsej++,計算下一簇Elsej++,計算下一簇

If能夠歸入已有簇,選擇相似度最大的一簇加入,簇中成員發(fā)生變化,更新中心向量,如果中心向量中加入了新的詞條,將簇ID放入新詞條的簇鏈表中

Else自成一簇,簇ID為已有最大簇ID加一,,簇的中心向量就是文本向量,將簇ID放入中心向量詞條的簇鏈表中

i++

3.3基于簇的KNN分類算法

把待分類文本d表示成文檔向量V(w1,w2,…,wn)基于詞條到簇的倒排索引結(jié)構(gòu),找到向量V中每個詞條

ti(1≤i≤n)(n表示文檔向量的長度)的簇鏈表li(1≤i≤n)

合并li,去掉重復(fù)的簇ID,得到簇集合(CS)

For(1≤j≤|CS|)(|CS|表示CS的長度)

依次計算d與CSj的中心向量(ccvj)的相似度Sim(d,ccvj)按照相似度排序,得到最近的m個簇Clusi(1≤i≤m)For(1≤i≤m)

計算d與Clusi中每個文本的相似度

按照相似度排序,得到最近的k個文本,根據(jù)這k個文本的類別得到待分類文本的類別。

4實驗結(jié)果

我們從阿里巴巴網(wǎng)站上下載了30多萬描述產(chǎn)品的網(wǎng)頁,

其中30萬的網(wǎng)頁做訓(xùn)練集,其余的網(wǎng)頁做測試集。下載的網(wǎng)頁含有類標(biāo)簽,總共有2602個產(chǎn)品類,這些產(chǎn)品類有電子類、服裝類等。

這些網(wǎng)頁經(jīng)過初步處理,寫成了文本。文本由3部分組成,產(chǎn)品所屬的類、產(chǎn)品的名字、產(chǎn)品的描述。訓(xùn)練文本分詞、特征提取后,使用了公式(2)設(shè)置特征項的權(quán)重。生成簇的實驗結(jié)果如表1所示。

表1

生成簇的實驗結(jié)果

中心向量相似閾值

訓(xùn)練集文本總數(shù)

簇總數(shù)0.81193385150.8520萬1154360.85

30萬

163653

隨著訓(xùn)練文本數(shù)的增加,簇總數(shù)在整個訓(xùn)練文本總數(shù)中所占比重逐步下降,從實驗結(jié)果來看在訓(xùn)練樣本較多的情況下,簇總數(shù)約為訓(xùn)練文本總數(shù)的一半左右。因此在訓(xùn)練文本總數(shù)較大的情況下,基于簇的文本分類能極大地降低相似度的計算次數(shù),提高分類速度;诖氐腒NN分類器的實驗結(jié)果如表2所示。

基于簇的KNN分類器的準(zhǔn)確度經(jīng)過多次實驗得到的結(jié)

果大約是93%,由于很多的產(chǎn)品頁(描述產(chǎn)品的網(wǎng)頁)存在一些缺陷,例如廠家將自己的產(chǎn)品歸入多個不同的類,產(chǎn)品的描述多變、不夠規(guī)范,類目較細(xì),所以試驗得出的分類精度是切合實際的。

5結(jié)束語

本文針對傳統(tǒng)KNN算法在尋找待分類文本的k個鄰居

時,相似度計算過多的缺點,提出了基于簇的KNN分類算法。從實驗結(jié)果來看,在訓(xùn)練樣本較多的情況下,簇總數(shù)約為訓(xùn)練文本總數(shù)的一半左右,因此基于簇的KNN分類算法使時間復(fù)雜度降低到原來的一半左右,提高了分類器的性能。如果能夠找到較好的訓(xùn)練樣本,有望提高分類精度。

同時本文根據(jù)相同的特征項出現(xiàn)在文本中的位置不同,對分類的貢獻(xiàn)也不同,應(yīng)賦予不同的權(quán)重這一假設(shè),改進(jìn)了TF-IDF公式。

參考文獻(xiàn):

[1]臺德藝,謝飛,胡學(xué)剛.文本分類技術(shù)研究[J].合肥學(xué)院學(xué)報(自然科學(xué)版),2007,17(3):61-64.

[2]王煜.基于決策樹和K最近鄰算法的文本分類研究[D].天津大學(xué),2006.

[3]盧葦,彭雅.幾種常用文本分類算法性能比較與分析[J].湖南大學(xué)學(xué)報:自然科學(xué)版,2007,34(6):67-69.

[4]劉華.基于關(guān)鍵短語的文本分類研究[J].中文信息學(xué)報.2007年,第21卷,第4期:34-41.

[5]

KristofCoussenment,DirkVandenPoel.Inprovingcustomercomplaintmanagementbyautomaticemailclassificationusinglinguisticstylefeaturesaspredictors[EB/OL].,2007.[6]

林永民,朱衛(wèi)東.模糊KNN在文本分類中的應(yīng)用研究[J].計算機應(yīng)用與軟件,2008,25(9):185-187.

[7]黃旭,朱艷琴,羅喜召.實時文本分類系統(tǒng)的研究與實現(xiàn)[J].計算機工程,2008,34(18):87-88.

[8]

秦玉平,艾青,王秀坤,等.基于支持向量機的兼類文本分類算法研究[J].計算機工程與設(shè)計,2008,29(2):408-410.


  本文關(guān)鍵詞:基于決策樹和K最近鄰算法的文本分類研究,由筆耕文化傳播整理發(fā)布。



本文編號:209307

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/209307.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶57d58***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
中文字幕一区二区熟女| 日韩精品视频免费观看| 国产情侣激情在线对白| 午夜视频免费观看成人| 亚洲乱妇熟女爽的高潮片| 国产传媒一区二区三区| 国产精品欧美一级免费| 亚洲性日韩精品一区二区| 美女露小粉嫩91精品久久久| 亚洲国产婷婷六月丁香| 在线观看日韩欧美综合黄片| 国产91麻豆精品成人区| 国产精品人妻熟女毛片av久| 91国内视频一区二区三区| 好吊色免费在线观看视频| 欧美成人欧美一级乱黄| 91亚洲精品亚洲国产| 日韩欧美一区二区黄色| 精品视频一区二区三区不卡| 日韩高清毛片免费观看| 国产精品丝袜一二三区| 久久99青青精品免费| 成人免费视频免费观看| 国产精品流白浆无遮挡| 日韩18一区二区三区| 亚洲中文字幕日韩在线| 国产精品午夜福利在线观看| 久热人妻中文字幕一区二区| 中字幕一区二区三区久久蜜桃 | 欧洲一区二区三区自拍天堂| 黄色激情视频中文字幕| 国产不卡在线免费观看视频| 亚洲中文字幕在线综合视频| 九九视频通过这里有精品| 日韩精品综合免费视频| 久久精品视频就在久久| 免费高清欧美一区二区视频| 国产免费观看一区二区| 国产精品亚洲综合色区韩国| 一区二区三区人妻在线| 久久re6热在线视频|