一種基于Nutch的網(wǎng)頁(yè)聚類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文選題:Nutch + 聚類; 參考:《計(jì)算機(jī)工程與應(yīng)用》2011年05期
【摘要】:設(shè)計(jì)了一種在中英文環(huán)境下、能夠?qū)utch的搜索結(jié)果進(jìn)行聚類處理的搜索結(jié)果聚類系統(tǒng),該系統(tǒng)基于k-means算法和后綴樹聚類算法,是一個(gè)由Nutch搜索引擎、文本分詞、TF-IDF權(quán)重計(jì)算以及文本聚類等模塊構(gòu)成的搜索引擎結(jié)果文檔聚類系統(tǒng),并通過(guò)實(shí)驗(yàn)對(duì)k-means算法和后綴樹算法進(jìn)行了對(duì)比。
[Abstract]:In this paper, a search result clustering system is designed, which can deal with the search results of Nutch in both Chinese and English environments. The system is based on k-means algorithm and suffix tree clustering algorithm, and is a Nutch search engine. This paper presents a search engine result clustering system based on TF-IDF weight calculation and text clustering module, and compares the k-means algorithm with the suffix tree algorithm through experiments.
【作者單位】: 武漢科技大學(xué)中南分校信息工程學(xué)院;
【分類號(hào)】:TP311.13
【參考文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 張吉;基于后綴樹模型的流文本表示研究及其應(yīng)用[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 王映,常毅,譚建龍,白碩;基于N元漢字串模型的文本表示和實(shí)時(shí)分類的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年05期
2 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年09期
3 黃萱菁,吳立德,石崎洋之,徐國(guó)偉;獨(dú)立于語(yǔ)種的文本分類方法[J];中文信息學(xué)報(bào);2000年06期
4 劉遠(yuǎn)超;王曉龍;徐志明;關(guān)毅;;文檔聚類綜述[J];中文信息學(xué)報(bào);2006年03期
5 卜東波,白碩,李國(guó)杰;文本聚類中權(quán)重計(jì)算的對(duì)偶性策略[J];軟件學(xué)報(bào);2002年11期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 付光;;面向招聘信息主題搜索引擎的研究與設(shè)計(jì)[J];廣西教育;2011年18期
2 劉金亮;蘇琳;石云;;基于Nutch的垂直搜索技術(shù)研究[J];電腦知識(shí)與技術(shù);2011年24期
3 杜娟;;Nutch中文分詞的研究和改進(jìn)[J];軟件導(dǎo)刊;2011年06期
4 賈丙靜;吳長(zhǎng)勤;葛華;;Web文本聚類的研究與實(shí)現(xiàn)[J];長(zhǎng)春師范學(xué)院學(xué)報(bào);2011年06期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)會(huì)議論文 前1條
1 梁一平;劉連芳;周小平;申文明;;網(wǎng)絡(luò)蜘蛛Nutch的分析、定制與二次開發(fā)[A];2009年中國(guó)高校通信類院系學(xué)術(shù)研討會(huì)論文集[C];2009年
相關(guān)碩士學(xué)位論文 前10條
1 陳菊紅;搜索引擎返回結(jié)果聚類技術(shù)的研究與實(shí)現(xiàn)[D];西南交通大學(xué);2009年
2 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實(shí)現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
3 魚健榕;基于Nutch的搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
4 賀鵬程;基于Nutch技術(shù)的辛亥革命本體搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2011年
5 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年
6 時(shí)延軍;基于Nutch的分布式搜索引擎的設(shè)計(jì)與研究[D];長(zhǎng)春理工大學(xué);2010年
7 劉鳳靈;基于Nutch的漏洞垂直搜索引擎[D];北京郵電大學(xué);2011年
8 任妤;基于Nutch的科技主題搜索引擎Crawler的研究與實(shí)現(xiàn)[D];內(nèi)蒙古科技大學(xué);2011年
9 任妤;基于Nutch的科技主題搜索引擎Crawler的研究與實(shí)現(xiàn)[D];內(nèi)蒙古科技大學(xué);2011年
10 陳勃;基于Nutch的企業(yè)搜索引擎的研究與實(shí)現(xiàn)[D];華中科技大學(xué);2011年
,本文編號(hào):1800311
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1800311.html