一種基于后綴樹(shù)的中文網(wǎng)頁(yè)層次聚類(lèi)方法
[Abstract]:In order to facilitate users to browse the search results generated by search engines, a hierarchical clustering method for Chinese web pages, STCC algorithm, is proposed by combining STC algorithm and chameleon algorithm. In this method, Jacobian coefficient is used to modify the method of calculating the similarity of basic classes in STC algorithm, and then the chameleon algorithm is used to cluster web pages according to the similarity matrix of basic classes. The experimental results show that the clustering accuracy of STCC algorithm is improved by nearly 10% compared with that of STC algorithm, which avoids the chain effect of single link algorithm and is suitable for large scale web page clustering.
【作者單位】: 天津大學(xué)計(jì)算機(jī)學(xué)院 天津大學(xué)計(jì)算機(jī)學(xué)院 阜新市氣象局
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(90604013)
【分類(lèi)號(hào)】:TP393.092;TP301.6
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 郭偉,唐曉君,劉萬(wàn)軍;一種基于劃分的聚類(lèi)算法分析與改進(jìn)[J];遼寧工程技術(shù)大學(xué)學(xué)報(bào);2004年06期
【共引文獻(xiàn)】
相關(guān)期刊論文 前2條
1 劉文婷;滕奇志;;后綴樹(shù)聚類(lèi)在專(zhuān)用搜索引擎中的應(yīng)用研究與改進(jìn)[J];成都信息工程學(xué)院學(xué)報(bào);2010年03期
2 王祝文;劉菁華;任莉;;基于K均值動(dòng)態(tài)聚類(lèi)分析的地球物理測(cè)井巖性分類(lèi)方法[J];東華理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年02期
相關(guān)博士學(xué)位論文 前1條
1 李德順;基于廣義集對(duì)分析的系統(tǒng)危險(xiǎn)性評(píng)價(jià)研究[D];東北大學(xué) ;2010年
相關(guān)碩士學(xué)位論文 前5條
1 譚華琴;基于蟻群算法的數(shù)據(jù)挖掘方法研究[D];武漢理工大學(xué);2006年
2 何春霞;三角不等式原理對(duì)聚類(lèi)算法的改進(jìn)[D];蘭州大學(xué);2006年
3 李艷;基于改進(jìn)的K-均值算法的樸素貝葉斯分類(lèi)及應(yīng)用[D];合肥工業(yè)大學(xué);2007年
4 劉念濤;基于蟻群算法的聚類(lèi)分析方法的研究及應(yīng)用[D];山東師范大學(xué);2008年
5 孫志葉;A-FCM算法的模型設(shè)計(jì)與研究[D];華中師范大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 徐燕,單波,王穎;對(duì)一種矢量量化聚類(lèi)算法的改進(jìn)及應(yīng)用[J];華北電力大學(xué)學(xué)報(bào);2001年03期
2 周水庚,周傲英,曹晶,胡運(yùn)發(fā);一種基于密度的快速聚類(lèi)算法[J];計(jì)算機(jī)研究與發(fā)展;2000年11期
3 孫才志,王敬東,潘俊;模糊聚類(lèi)分析最佳聚類(lèi)數(shù)的確定方法研究[J];模糊系統(tǒng)與數(shù)學(xué);2001年01期
4 李昕,鄭宇,江芳澤;用改進(jìn)的RPCL算法提取聚類(lèi)的最佳數(shù)目[J];上海大學(xué)學(xué)報(bào)(自然科學(xué)版);1999年05期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王霞,楊炳儒;Web搜索結(jié)果挖掘的研究與應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2003年14期
2 傅鵬;張德運(yùn);陳海詮;董皓;;基于后綴樹(shù)詞序列核挖掘Web文檔[J];微電子學(xué)與計(jì)算機(jī);2005年12期
3 馬輝民 ,胡凌 ,郭瀟;文本聚類(lèi)在Web挖掘系統(tǒng)中的應(yīng)用[J];統(tǒng)計(jì)與決策;2004年06期
4 左鵬,徐和龍,于國(guó)慶;Web挖掘在FDSS中的應(yīng)用探討[J];計(jì)算機(jī)與現(xiàn)代化;2001年05期
5 汪全莉;陳代春;;Web數(shù)據(jù)挖掘在網(wǎng)絡(luò)教育中的應(yīng)用[J];中國(guó)科技資源導(dǎo)刊;2008年02期
6 陳建華,包煊;Web挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2002年08期
7 易高翔,程耕國(guó);數(shù)據(jù)挖掘在Web智能化中應(yīng)用研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2005年01期
8 陳振,鄭誠(chéng),朱小棟;一種基于關(guān)聯(lián)分類(lèi)方法的Web用戶(hù)興趣預(yù)測(cè)[J];微機(jī)發(fā)展;2005年05期
9 汪全莉;陳代春;;Web挖掘在網(wǎng)絡(luò)教育中的應(yīng)用研究[J];大學(xué)圖書(shū)情報(bào)學(xué)刊;2008年03期
10 朱慧爽;;Web挖掘在紡織業(yè)電子商務(wù)中的應(yīng)用[J];山東紡織經(jīng)濟(jì);2009年04期
相關(guān)會(huì)議論文 前10條
1 楊建武;;Web檢索結(jié)果的層次聚類(lèi)研究[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
2 吾守爾·斯拉木;吳啟南;;基于層次聚類(lèi)方法[A];第六屆全國(guó)計(jì)算機(jī)應(yīng)用聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2002年
3 彭楠峗;王厚峰;凌晨添;;基于層次聚類(lèi)的網(wǎng)絡(luò)新聞熱點(diǎn)發(fā)現(xiàn)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 丁瑾;;基于Web數(shù)據(jù)挖掘的綜述[A];山西省科學(xué)技術(shù)情報(bào)學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2004年
5 董燕;;Web挖掘?qū)﹄娮由虅?wù)網(wǎng)站建設(shè)的影響[A];第11屆海峽兩岸信息管理發(fā)展策略研討會(huì)論文集[C];2005年
6 駱雄武;萬(wàn)小軍;楊建武;吳於茜;;基于后綴樹(shù)的Web檢索結(jié)果聚類(lèi)標(biāo)簽生成方法[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
7 易虹;許德剛;;Web數(shù)據(jù)挖掘的研究與應(yīng)用[A];第一屆全國(guó)Web信息系統(tǒng)及其應(yīng)用會(huì)議(WISA2004)論文集[C];2004年
8 務(wù)孟慶;高軍;王騰蛟;楊冬青;;WD-STC:一種基于網(wǎng)絡(luò)詞典的WEB新聞文檔后綴樹(shù)聚類(lèi)算法[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年
9 師偉;廖聞劍;;數(shù)據(jù)挖掘在Web上的研究與應(yīng)用[A];中國(guó)電子學(xué)會(huì)第十六屆信息論學(xué)術(shù)年會(huì)論文集[C];2009年
10 朱牧;孟凡榮;周勇;;一種確定聚類(lèi)數(shù)目的自組織特征映射網(wǎng)絡(luò)[A];2009年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2009年
相關(guān)重要報(bào)紙文章 前10條
1 張進(jìn);演進(jìn)中的開(kāi)放源代碼數(shù)據(jù)庫(kù)[N];網(wǎng)絡(luò)世界;2004年
2 王培森;從Web挖到競(jìng)爭(zhēng)情報(bào)[N];中國(guó)計(jì)算機(jī)報(bào);2003年
3 涂序彥 陳泓娟;在網(wǎng)絡(luò)信息海洋中淘金[N];計(jì)算機(jī)世界;2001年
4 ;Web收獲:吸納有用信息[N];計(jì)算機(jī)世界;2004年
5 文/俟名;“搜索”激戰(zhàn)正醋[N];計(jì)算機(jī)世界;2004年
6 馬安寧;試用“按病種床日”收費(fèi)[N];健康報(bào);2007年
7 王軍清邋王磊;整體PE逼近40倍 市場(chǎng)步入高估值階段[N];上海證券報(bào);2007年
8 ;搜索引擎競(jìng)爭(zhēng)加劇[N];計(jì)算機(jī)世界;2003年
9 本報(bào)記者 葉依;別讓“概念奶粉”鬧懵了[N];健康時(shí)報(bào);2003年
10 張蕊;走出搜索引擎認(rèn)識(shí)上的誤區(qū)[N];中國(guó)計(jì)算機(jī)報(bào);2000年
相關(guān)博士學(xué)位論文 前10條
1 何麗;基于Web挖掘的決策支持系統(tǒng)模型研究[D];天津大學(xué);2005年
2 王曉宇;Web搜索與Web緩存的若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2003年
3 孫建濤;Web挖掘中的降維和分類(lèi)方法研究[D];清華大學(xué);2005年
4 肖敏;基于領(lǐng)域本體的電子商務(wù)推薦技術(shù)研究[D];武漢理工大學(xué);2009年
5 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年
6 易明;基于Web挖掘的電子商務(wù)個(gè)性化推薦機(jī)理與方法研究[D];華中科技大學(xué);2006年
7 李玲娟;數(shù)據(jù)挖掘技術(shù)在入侵檢測(cè)系統(tǒng)中的應(yīng)用研究[D];蘇州大學(xué);2008年
8 阮備軍;Web使用挖掘若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2004年
9 楊春梅;基因表達(dá)數(shù)據(jù)聚類(lèi)分析算法研究和應(yīng)用[D];天津大學(xué);2006年
10 易高翔;粗糙集在Web挖掘中的應(yīng)用研究[D];華中科技大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 蒲秋梅;基于XML的Web數(shù)據(jù)挖掘技術(shù)的研究[D];武漢大學(xué);2004年
2 李凱;Web挖掘在教學(xué)資源搜索引擎中的應(yīng)用研究[D];東北師范大學(xué);2007年
3 孫麗;Web數(shù)據(jù)的挖掘方法研究[D];大慶石油學(xué)院;2004年
4 黃榮兵;RBF神經(jīng)網(wǎng)絡(luò)在Web挖掘中的應(yīng)用研究[D];太原理工大學(xué);2004年
5 易高翔;Web文本挖掘研究與實(shí)現(xiàn)[D];武漢科技大學(xué);2004年
6 馬征;基于本體的Web頁(yè)面分類(lèi)挖掘[D];中南大學(xué);2004年
7 謝振亮;基于WEB挖掘技術(shù)的網(wǎng)頁(yè)自動(dòng)分類(lèi)和聚類(lèi)的研究[D];天津大學(xué);2004年
8 張承明;基于Web的數(shù)據(jù)挖掘研究[D];山東科技大學(xué);2003年
9 段曉峰;網(wǎng)站日志的數(shù)據(jù)挖掘[D];重慶大學(xué);2003年
10 牟剛;基于XML的Web信息挖掘技術(shù)的研究[D];重慶大學(xué);2004年
,本文編號(hào):2365064
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2365064.html