基于語句-詞條矩陣的聚簇式動態(tài)增長聚類算法
[Abstract]:Web information is growing exponentially, but the traditional search engine is difficult for users to find concise and accurate information. In this paper, a cluster dynamic growth clustering algorithm based on sentence entry matrix is proposed. The whole working process of the algorithm includes three steps: preprocessing Web data, text extraction and filtering, forming the statement entry matrix of each document and forming a matrix set of several documents. By clustering dynamic growth clustering algorithm, similar documents are clustered. The algorithm is analyzed experimentally. The results show that the algorithm has high accuracy for document clustering while maintaining document semantic connection.
【作者單位】: 蘭州大學(xué)信息科學(xué)與工程學(xué)院 蘭州大學(xué)信息科學(xué)與工程學(xué)院 蘭州大學(xué)信息科學(xué)與工程學(xué)院
【分類號】:TP391.1;
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 鐘艷花,余偉紅,余永權(quán);Web文本挖掘系統(tǒng)及其關(guān)鍵技術(shù)研究[J];計算機工程與應(yīng)用;2003年34期
2 徐建鎖,王正歐;基于LSI和自組織神經(jīng)網(wǎng)絡(luò)的高效文本聚類方法[J];天津大學(xué)學(xué)報;2004年11期
3 劉立平,易華容,何文斌;一種基于向量空間模型的文本聚類方法[J];株洲師范高等?茖W(xué)校學(xué)報;2004年05期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳爽;陳福;杜天蒼;;一種啟發(fā)式網(wǎng)絡(luò)信息采集系統(tǒng)設(shè)計與實現(xiàn)[J];北京石油化工學(xué)院學(xué)報;2007年04期
2 李俊華;;基于Web文本挖掘的高校教師個人主頁系統(tǒng)研究與開發(fā)[J];大理學(xué)院學(xué)報;2011年04期
3 李向偉;仇德成;;數(shù)據(jù)挖掘技術(shù)在Web中的應(yīng)用研究[J];電腦知識與技術(shù);2006年02期
4 奠石鎂;;文本數(shù)據(jù)挖掘系統(tǒng)原型方案研究[J];電腦知識與技術(shù);2008年18期
5 邵良杉;付曙光;薛立軍;;企業(yè)核心競爭力的Web挖掘[J];遼寧工程技術(shù)大學(xué)學(xué)報;2007年01期
6 李聰;;異度排列算法的原理以及應(yīng)用[J];黑龍江科技信息;2011年32期
7 徐建民;成岳鵬;辛麗軍;;一種基于術(shù)語簇和關(guān)聯(lián)規(guī)則的文檔聚類方法[J];計算機工程與應(yīng)用;2007年05期
8 唐果;陳宏剛;;基于BBS熱點主題發(fā)現(xiàn)的文本聚類方法[J];計算機工程;2010年07期
9 徐宏斌;王燕;;一種改進(jìn)的靜態(tài)取證數(shù)據(jù)挖掘算法[J];計算機時代;2009年04期
10 易華容;;基于SOM的電子商務(wù)中交易數(shù)據(jù)庫二次聚類算法[J];計算機與現(xiàn)代化;2009年12期
相關(guān)博士學(xué)位論文 前5條
1 熊回香;面向Web3.0的大眾分類研究[D];華中師范大學(xué);2011年
2 楊瑞龍;基于短語特征的Web文檔聚類方法研究[D];重慶大學(xué);2010年
3 徐建鎖;知識管理和文本挖掘的若干問題研究[D];天津大學(xué);2004年
4 畢曉君;基于智能信息技術(shù)的紋理圖象識別與生成研究[D];哈爾濱工程大學(xué);2006年
5 趙小兵;基于動態(tài)流通語料庫的現(xiàn)代漢語基本詞匯自動識別與提取方法研究[D];北京語言大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 吳啟綱;中文文本聚類算法的研究與實現(xiàn)[D];西安電子科技大學(xué);2010年
2 張韋;基于語義的Web主題提取的研究[D];湖北工業(yè)大學(xué);2011年
3 劉文靜;基于標(biāo)簽詞抽取的搜索結(jié)果聚類研究[D];北京郵電大學(xué);2012年
4 付曙光;合作伙伴的Web挖掘系統(tǒng)研究[D];遼寧工程技術(shù)大學(xué);2005年
5 任爽;基于XML和SVM的Web文本挖掘研究[D];大連理工大學(xué);2006年
6 邱宇紅;向量空間模型在醫(yī)學(xué)文獻(xiàn)相關(guān)性研究中的應(yīng)用[D];中國醫(yī)科大學(xué);2006年
7 孫輝;中文人名搜索引擎的設(shè)計與實現(xiàn)[D];蘭州大學(xué);2006年
8 孫曉霞;蟻群算法理論研究及其在圖像識別中的應(yīng)用[D];哈爾濱工程大學(xué);2006年
9 李自強;基于文本挖掘的Web信息檢索研究[D];華北電力大學(xué)(河北);2007年
10 王禮剛;基于XML的Web文本數(shù)據(jù)挖掘研究[D];西南大學(xué);2007年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 姜寧,史忠植;文本聚類中的貝葉斯后驗?zāi)P瓦x擇方法[J];計算機研究與發(fā)展;2002年05期
2 徐寶文,張衛(wèi)豐;數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究[J];計算機學(xué)報;2001年04期
3 劉少輝,董明楷,張?,李蓉,史忠植;一種基于向量空間模型的多層次文本分類方法[J];中文信息學(xué)報;2002年03期
4 陳莉,焦李成;Internet/Web數(shù)據(jù)挖掘研究現(xiàn)狀及最新進(jìn)展[J];西安電子科技大學(xué)學(xué)報;2001年01期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王升明,李淼;一種基于改進(jìn)的自組織特征映射網(wǎng)絡(luò)的文檔聚類方法[J];計算機工程與應(yīng)用;2005年03期
2 吳景嵐,劉燕,朱文興;一個K-均值文檔聚類的改進(jìn)算法[J];閩江學(xué)院學(xué)報;2004年02期
3 李旗;文檔聚類智能代理搜索引擎的設(shè)計[J];現(xiàn)代情報;2004年02期
4 梁作鵬,吳文明,董逸生;一種基于結(jié)構(gòu)信息總結(jié)樹的XML文檔聚類方法[J];應(yīng)用科學(xué)學(xué)報;2005年01期
5 張曉濱,宋擒豹,沈鈞毅;一種基于語義特征的Web文檔檢索方法[J];計算機工程與應(yīng)用;2001年20期
6 韓建福;盧葦;;文檔聚類在Web搜索結(jié)果中的應(yīng)用研究[J];中國科技信息;2006年23期
7 王倩;;文檔聚類技術(shù)在搜索引擎中的應(yīng)用研究[J];圖書館學(xué)研究;2008年11期
8 萬小軍,楊建武,陳曉鷗;文檔聚類中k-means算法的一種改進(jìn)算法[J];計算機工程;2003年02期
9 王勛,劉君強;基于文檔聚類的Web輔助瀏覽研究[J];情報學(xué)報;2004年02期
10 孫越恒;侯越先;何丕廉;;非線性維數(shù)約減算法在文檔聚類中的應(yīng)用[J];計算機應(yīng)用;2008年02期
相關(guān)會議論文 前10條
1 唐國瑜;夏云慶;張民;鄭方;;基于跨語言廣義向量空間模型的跨語言文檔聚類方法[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
2 周水庚;孫敬宇;胡運發(fā);;一種文檔聚類新方法[A];第十六屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1999年
3 伍賽;楊冬青;韓近強;張銘;王文清;馮英;;WCM:一種基于單詞相關(guān)度的文檔聚類新方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
4 王曉宇;錢衛(wèi)寧;張龍;周傲英;;XML DTD文檔聚類研究[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2001年
5 馬輝民;李衛(wèi)華;;Web文檔聚類系統(tǒng)的實現(xiàn)方法探析[A];第10屆計算機模擬與信息技術(shù)會議論文集[C];2005年
6 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
7 劉眾奇;袁曉潔;張海威;楊娜;王敏輝;;閾值區(qū)間:一種基于XCLS和XCLSE的改進(jìn)方案[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年
8 王波;唐常杰;段磊;尹佳;左R,
本文編號:2126452
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2126452.html