天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于語(yǔ)句-詞條矩陣的聚簇式動(dòng)態(tài)增長(zhǎng)聚類(lèi)算法

發(fā)布時(shí)間:2018-07-16 12:53
【摘要】:W eb信息在以指數(shù)級(jí)的速度增長(zhǎng),然而傳統(tǒng)搜索引擎的檢索方式難以使用戶(hù)找到精簡(jiǎn)而準(zhǔn)確的信息。為此該文提出了一種基于語(yǔ)句詞條矩陣的聚簇式動(dòng)態(tài)增長(zhǎng)聚類(lèi)算法。該平面分割的算法的整個(gè)工作過(guò)程有3個(gè)步驟:預(yù)處理W eb數(shù)據(jù),進(jìn)行文本摘取和過(guò)濾處理;形成每個(gè)文檔的語(yǔ)句詞條矩陣,構(gòu)成若干文檔的矩陣集合;通過(guò)聚簇式動(dòng)態(tài)增長(zhǎng)聚類(lèi)算法,對(duì)相似文檔進(jìn)行聚類(lèi)。對(duì)該算法進(jìn)行了實(shí)驗(yàn)分析。結(jié)果表明,該算法在保持文檔語(yǔ)義聯(lián)系的同時(shí),其對(duì)文檔的聚類(lèi)有較高的準(zhǔn)確性。
[Abstract]:Web information is growing exponentially, but the traditional search engine is difficult for users to find concise and accurate information. In this paper, a cluster dynamic growth clustering algorithm based on sentence entry matrix is proposed. The whole working process of the algorithm includes three steps: preprocessing Web data, text extraction and filtering, forming the statement entry matrix of each document and forming a matrix set of several documents. By clustering dynamic growth clustering algorithm, similar documents are clustered. The algorithm is analyzed experimentally. The results show that the algorithm has high accuracy for document clustering while maintaining document semantic connection.
【作者單位】: 蘭州大學(xué)信息科學(xué)與工程學(xué)院 蘭州大學(xué)信息科學(xué)與工程學(xué)院 蘭州大學(xué)信息科學(xué)與工程學(xué)院
【分類(lèi)號(hào)】:TP391.1;

【參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 鐘艷花,余偉紅,余永權(quán);Web文本挖掘系統(tǒng)及其關(guān)鍵技術(shù)研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年34期

2 徐建鎖,王正歐;基于LSI和自組織神經(jīng)網(wǎng)絡(luò)的高效文本聚類(lèi)方法[J];天津大學(xué)學(xué)報(bào);2004年11期

3 劉立平,易華容,何文斌;一種基于向量空間模型的文本聚類(lèi)方法[J];株洲師范高等專(zhuān)科學(xué)校學(xué)報(bào);2004年05期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳爽;陳福;杜天蒼;;一種啟發(fā)式網(wǎng)絡(luò)信息采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];北京石油化工學(xué)院學(xué)報(bào);2007年04期

2 李俊華;;基于Web文本挖掘的高校教師個(gè)人主頁(yè)系統(tǒng)研究與開(kāi)發(fā)[J];大理學(xué)院學(xué)報(bào);2011年04期

3 李向偉;仇德成;;數(shù)據(jù)挖掘技術(shù)在Web中的應(yīng)用研究[J];電腦知識(shí)與技術(shù);2006年02期

4 奠石鎂;;文本數(shù)據(jù)挖掘系統(tǒng)原型方案研究[J];電腦知識(shí)與技術(shù);2008年18期

5 邵良杉;付曙光;薛立軍;;企業(yè)核心競(jìng)爭(zhēng)力的Web挖掘[J];遼寧工程技術(shù)大學(xué)學(xué)報(bào);2007年01期

6 李聰;;異度排列算法的原理以及應(yīng)用[J];黑龍江科技信息;2011年32期

7 徐建民;成岳鵬;辛麗軍;;一種基于術(shù)語(yǔ)簇和關(guān)聯(lián)規(guī)則的文檔聚類(lèi)方法[J];計(jì)算機(jī)工程與應(yīng)用;2007年05期

8 唐果;陳宏剛;;基于BBS熱點(diǎn)主題發(fā)現(xiàn)的文本聚類(lèi)方法[J];計(jì)算機(jī)工程;2010年07期

9 徐宏斌;王燕;;一種改進(jìn)的靜態(tài)取證數(shù)據(jù)挖掘算法[J];計(jì)算機(jī)時(shí)代;2009年04期

10 易華容;;基于SOM的電子商務(wù)中交易數(shù)據(jù)庫(kù)二次聚類(lèi)算法[J];計(jì)算機(jī)與現(xiàn)代化;2009年12期

相關(guān)博士學(xué)位論文 前5條

1 熊回香;面向Web3.0的大眾分類(lèi)研究[D];華中師范大學(xué);2011年

2 楊瑞龍;基于短語(yǔ)特征的Web文檔聚類(lèi)方法研究[D];重慶大學(xué);2010年

3 徐建鎖;知識(shí)管理和文本挖掘的若干問(wèn)題研究[D];天津大學(xué);2004年

4 畢曉君;基于智能信息技術(shù)的紋理圖象識(shí)別與生成研究[D];哈爾濱工程大學(xué);2006年

5 趙小兵;基于動(dòng)態(tài)流通語(yǔ)料庫(kù)的現(xiàn)代漢語(yǔ)基本詞匯自動(dòng)識(shí)別與提取方法研究[D];北京語(yǔ)言大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 吳啟綱;中文文本聚類(lèi)算法的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年

2 張韋;基于語(yǔ)義的Web主題提取的研究[D];湖北工業(yè)大學(xué);2011年

3 劉文靜;基于標(biāo)簽詞抽取的搜索結(jié)果聚類(lèi)研究[D];北京郵電大學(xué);2012年

4 付曙光;合作伙伴的Web挖掘系統(tǒng)研究[D];遼寧工程技術(shù)大學(xué);2005年

5 任爽;基于XML和SVM的Web文本挖掘研究[D];大連理工大學(xué);2006年

6 邱宇紅;向量空間模型在醫(yī)學(xué)文獻(xiàn)相關(guān)性研究中的應(yīng)用[D];中國(guó)醫(yī)科大學(xué);2006年

7 孫輝;中文人名搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];蘭州大學(xué);2006年

8 孫曉霞;蟻群算法理論研究及其在圖像識(shí)別中的應(yīng)用[D];哈爾濱工程大學(xué);2006年

9 李自強(qiáng);基于文本挖掘的Web信息檢索研究[D];華北電力大學(xué)(河北);2007年

10 王禮剛;基于XML的Web文本數(shù)據(jù)挖掘研究[D];西南大學(xué);2007年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 姜寧,史忠植;文本聚類(lèi)中的貝葉斯后驗(yàn)?zāi)P瓦x擇方法[J];計(jì)算機(jī)研究與發(fā)展;2002年05期

2 徐寶文,張衛(wèi)豐;數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究[J];計(jì)算機(jī)學(xué)報(bào);2001年04期

3 劉少輝,董明楷,張?,李蓉,史忠植;一種基于向量空間模型的多層次文本分類(lèi)方法[J];中文信息學(xué)報(bào);2002年03期

4 陳莉,焦李成;Internet/Web數(shù)據(jù)挖掘研究現(xiàn)狀及最新進(jìn)展[J];西安電子科技大學(xué)學(xué)報(bào);2001年01期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王升明,李淼;一種基于改進(jìn)的自組織特征映射網(wǎng)絡(luò)的文檔聚類(lèi)方法[J];計(jì)算機(jī)工程與應(yīng)用;2005年03期

2 吳景嵐,劉燕,朱文興;一個(gè)K-均值文檔聚類(lèi)的改進(jìn)算法[J];閩江學(xué)院學(xué)報(bào);2004年02期

3 李旗;文檔聚類(lèi)智能代理搜索引擎的設(shè)計(jì)[J];現(xiàn)代情報(bào);2004年02期

4 梁作鵬,吳文明,董逸生;一種基于結(jié)構(gòu)信息總結(jié)樹(shù)的XML文檔聚類(lèi)方法[J];應(yīng)用科學(xué)學(xué)報(bào);2005年01期

5 張曉濱,宋擒豹,沈鈞毅;一種基于語(yǔ)義特征的Web文檔檢索方法[J];計(jì)算機(jī)工程與應(yīng)用;2001年20期

6 韓建福;盧葦;;文檔聚類(lèi)在Web搜索結(jié)果中的應(yīng)用研究[J];中國(guó)科技信息;2006年23期

7 王倩;;文檔聚類(lèi)技術(shù)在搜索引擎中的應(yīng)用研究[J];圖書(shū)館學(xué)研究;2008年11期

8 萬(wàn)小軍,楊建武,陳曉鷗;文檔聚類(lèi)中k-means算法的一種改進(jìn)算法[J];計(jì)算機(jī)工程;2003年02期

9 王勛,劉君強(qiáng);基于文檔聚類(lèi)的Web輔助瀏覽研究[J];情報(bào)學(xué)報(bào);2004年02期

10 孫越恒;侯越先;何丕廉;;非線(xiàn)性維數(shù)約減算法在文檔聚類(lèi)中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2008年02期

相關(guān)會(huì)議論文 前10條

1 唐國(guó)瑜;夏云慶;張民;鄭方;;基于跨語(yǔ)言廣義向量空間模型的跨語(yǔ)言文檔聚類(lèi)方法[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

2 周水庚;孫敬宇;胡運(yùn)發(fā);;一種文檔聚類(lèi)新方法[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年

3 伍賽;楊冬青;韓近強(qiáng);張銘;王文清;馮英;;WCM:一種基于單詞相關(guān)度的文檔聚類(lèi)新方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

4 王曉宇;錢(qián)衛(wèi)寧;張龍;周傲英;;XML DTD文檔聚類(lèi)研究[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年

5 馬輝民;李衛(wèi)華;;Web文檔聚類(lèi)系統(tǒng)的實(shí)現(xiàn)方法探析[A];第10屆計(jì)算機(jī)模擬與信息技術(shù)會(huì)議論文集[C];2005年

6 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類(lèi)研究[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

7 劉眾奇;袁曉潔;張海威;楊娜;王敏輝;;閾值區(qū)間:一種基于XCLS和XCLSE的改進(jìn)方案[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年

8 王波;唐常杰;段磊;尹佳;左R,

本文編號(hào):2126452


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2126452.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)ba886***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com