PCCS部分聚類(lèi)分類(lèi):一種快速的Web文檔聚類(lèi)方法
發(fā)布時(shí)間:2019-08-16 10:41
【摘要】:PCCS是為了幫助 Web用戶從搜索引擎所返回的大量文檔片斷中篩選出自己所需要的文檔 ,而使用的一種對(duì) Web文檔進(jìn)行快速聚類(lèi)的部分聚類(lèi)方法 :首先對(duì)一部分文檔進(jìn)行聚類(lèi) ,然后根據(jù)聚類(lèi)結(jié)果形成分類(lèi)模型對(duì)其余的文檔進(jìn)行分類(lèi) .采用交互式的一次改進(jìn)一個(gè)聚類(lèi)摘選的聚類(lèi)方法快速地創(chuàng)建一個(gè)聚類(lèi)摘選集 ,將其余的文檔使用 Nal¨ve- Bayes分類(lèi)器進(jìn)行劃分 .為了提高聚類(lèi)與分類(lèi)的效率 ,提出了一種混合特征選取方法以減少文檔表示的維數(shù) :重新計(jì)算文檔中各特征的熵 ,從中選取具有最大熵值的前若干個(gè)特征 ;或者基于持久分類(lèi)模型中的特征集來(lái)進(jìn)行特征選取 .實(shí)驗(yàn)證明 ,部分聚類(lèi)方法能夠快速、準(zhǔn)確地根據(jù)文檔主題內(nèi)容組織 Web文檔 ,使用戶在更高的主題層次上來(lái)查看搜索引擎返回的結(jié)果 ,從以主題相似的文檔所形成的集簇中選擇相關(guān)文檔
【圖文】:
PCCS算法的關(guān)鍵思想是先對(duì)部分文檔進(jìn)行聚類(lèi),根據(jù)聚類(lèi)結(jié)果形成分類(lèi)模型(model),然后對(duì)其余的文檔進(jìn)行分類(lèi).PCCS的處理過(guò)程如圖1所示.PCCS的主要特點(diǎn)如下:(1)首先對(duì)一部分文檔進(jìn)行聚類(lèi),然后根據(jù)聚類(lèi)結(jié)果產(chǎn)生的分類(lèi)模型對(duì)其余的文檔進(jìn)行分類(lèi);(2)分類(lèi)模型持久存儲(chǔ).所產(chǎn)生的分類(lèi)模型能集成到持久分類(lèi)模型中,用于對(duì)文檔的特征選取和對(duì)查詢(xún)結(jié)果的分類(lèi);(3)采用了基于熵的特征選取和基于分類(lèi)模型的特征選取的混合特征選取方法,以減少文檔表示的維數(shù).圖1 PCCS聚類(lèi)分類(lèi)法處理過(guò)程3.1 混合特征選擇PCCS根據(jù)搜索引擎所返回的文檔列表中提供的鏈接將全文檢索出來(lái),形成聚類(lèi)的輸入文檔集D= {d1,d2,d3,…
圖書(shū)館、數(shù)據(jù)庫(kù)與信息系
【作者單位】: 北京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系!北京100871 北京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系!北京100871 北京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系!北京100871 北京大學(xué)視覺(jué)與聽(tīng)覺(jué)處理國(guó)家重點(diǎn)實(shí)驗(yàn)室!北京100871
【基金】:國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃“九七三”基金項(xiàng)目資助!(G19990 32 70 5 )
【分類(lèi)號(hào)】:TP393
【圖文】:
PCCS算法的關(guān)鍵思想是先對(duì)部分文檔進(jìn)行聚類(lèi),根據(jù)聚類(lèi)結(jié)果形成分類(lèi)模型(model),然后對(duì)其余的文檔進(jìn)行分類(lèi).PCCS的處理過(guò)程如圖1所示.PCCS的主要特點(diǎn)如下:(1)首先對(duì)一部分文檔進(jìn)行聚類(lèi),然后根據(jù)聚類(lèi)結(jié)果產(chǎn)生的分類(lèi)模型對(duì)其余的文檔進(jìn)行分類(lèi);(2)分類(lèi)模型持久存儲(chǔ).所產(chǎn)生的分類(lèi)模型能集成到持久分類(lèi)模型中,用于對(duì)文檔的特征選取和對(duì)查詢(xún)結(jié)果的分類(lèi);(3)采用了基于熵的特征選取和基于分類(lèi)模型的特征選取的混合特征選取方法,以減少文檔表示的維數(shù).圖1 PCCS聚類(lèi)分類(lèi)法處理過(guò)程3.1 混合特征選擇PCCS根據(jù)搜索引擎所返回的文檔列表中提供的鏈接將全文檢索出來(lái),形成聚類(lèi)的輸入文檔集D= {d1,d2,d3,…
圖書(shū)館、數(shù)據(jù)庫(kù)與信息系
【作者單位】: 北京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系!北京100871 北京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系!北京100871 北京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系!北京100871 北京大學(xué)視覺(jué)與聽(tīng)覺(jué)處理國(guó)家重點(diǎn)實(shí)驗(yàn)室!北京100871
【基金】:國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃“九七三”基金項(xiàng)目資助!(G19990 32 70 5 )
【分類(lèi)號(hào)】:TP393
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 黃e,
本文編號(hào):2527393
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2527393.html
最近更新
教材專(zhuān)著