網(wǎng)絡(luò)文本信息聚類(lèi)算法研究與應(yīng)用
本文關(guān)鍵詞:網(wǎng)絡(luò)文本信息聚類(lèi)算法研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
《北京交通大學(xué)》 2009年
網(wǎng)絡(luò)文本信息聚類(lèi)算法研究與應(yīng)用
張樹(shù)魁
【摘要】: 隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)在全球范圍內(nèi)的迅速發(fā)展與普及,網(wǎng)絡(luò)信息資源日趨豐富且內(nèi)容復(fù)雜多樣,其中既有大量進(jìn)步、健康的信息,也不乏反動(dòng)、迷信的內(nèi)容。因此,如何對(duì)這樣龐大的信息資源進(jìn)行快速有效的檢索分析,對(duì)網(wǎng)絡(luò)輿論進(jìn)行準(zhǔn)確的預(yù)測(cè)引導(dǎo)成為一個(gè)重要而迫切的研究課題。 于是,數(shù)據(jù)挖掘這門(mén)技術(shù)應(yīng)運(yùn)而生,它以數(shù)據(jù)庫(kù)技術(shù)為基礎(chǔ),融合統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模糊學(xué)等多門(mén)學(xué)科的成果,研究如何從數(shù)據(jù)庫(kù)中提取隱含的、未知的有潛在應(yīng)用價(jià)值的信息或模式。聚類(lèi)分析在這項(xiàng)技術(shù)中占有重要的位置,它通過(guò)比較數(shù)據(jù)的相似性和差異性將一個(gè)數(shù)據(jù)集合分割成幾個(gè)稱為類(lèi)的子集,從而發(fā)現(xiàn)數(shù)據(jù)信息的內(nèi)在特征和分布規(guī)律。 本論文在系統(tǒng)回顧網(wǎng)絡(luò)信息檢索、數(shù)據(jù)挖掘和聚類(lèi)算法應(yīng)用研究現(xiàn)狀的基礎(chǔ)上,總結(jié)了目前通用的聚類(lèi)算法存在的問(wèn)題,試圖設(shè)計(jì)一種適用于中文網(wǎng)絡(luò)文本信息的聚類(lèi)算法,并進(jìn)而設(shè)計(jì)實(shí)現(xiàn)一個(gè)網(wǎng)絡(luò)信息聚類(lèi)系統(tǒng)。 本論文的研究?jī)?nèi)容和創(chuàng)新工作主要體現(xiàn)在以下幾點(diǎn): (1)分析了幾種通用的聚類(lèi)算法,包括基于劃分、基于層次、基于密度、基于網(wǎng)格和基于模型聚類(lèi)算法,通過(guò)實(shí)驗(yàn)數(shù)據(jù)分析比較了幾種算法的性能和優(yōu)缺點(diǎn),分析了它們?cè)诰W(wǎng)絡(luò)信息聚類(lèi)應(yīng)用中的缺陷。 (2)研究了中文網(wǎng)絡(luò)信息聚類(lèi)應(yīng)用中的幾種關(guān)鍵技術(shù),包括分詞技術(shù)、文本表示、特征降維、權(quán)重分析和相似度計(jì)算。 (3)引入二叉檢索樹(shù)對(duì)后綴樹(shù)聚類(lèi)算法在中文網(wǎng)絡(luò)信息聚類(lèi)中的應(yīng)用進(jìn)行了研究和改進(jìn)。 (4)對(duì)典型的k-平均算法、后綴樹(shù)聚類(lèi)算法和改進(jìn)后的算法進(jìn)行實(shí)驗(yàn)分析,在算法準(zhǔn)確率和時(shí)間復(fù)雜度上進(jìn)行了比較。 (5)設(shè)計(jì)并實(shí)現(xiàn)了基于改進(jìn)后綴樹(shù)聚類(lèi)算法的網(wǎng)絡(luò)文本信息聚類(lèi)系統(tǒng),通過(guò)系統(tǒng)運(yùn)行實(shí)驗(yàn)驗(yàn)證了改進(jìn)的后綴樹(shù)聚類(lèi)算法在中文網(wǎng)絡(luò)文本信息聚類(lèi)中的可行性和有效性。
【關(guān)鍵詞】:
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2009
【分類(lèi)號(hào)】:TP391.1
【目錄】:
下載全文 更多同類(lèi)文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買(mǎi)知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 劉亞楠;;網(wǎng)絡(luò)信息檢索在統(tǒng)計(jì)中的應(yīng)用[J];現(xiàn)代營(yíng)銷(xiāo)(學(xué)苑版);2011年08期
2 晏創(chuàng)業(yè),張玉峰;智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索[J];中國(guó)圖書(shū)館學(xué)報(bào);2002年03期
3 宋瑞祺;;Web文本數(shù)據(jù)挖掘關(guān)鍵技術(shù)及其在網(wǎng)絡(luò)檢索中的應(yīng)用[J];山西財(cái)經(jīng)大學(xué)學(xué)報(bào)(高等教育版);2007年S1期
4 呂志花;;網(wǎng)絡(luò)信息挖掘及其在搜索引擎方面的應(yīng)用[J];微計(jì)算機(jī)信息;2008年06期
5 陶清連;;網(wǎng)絡(luò)信息檢索效率分析[J];農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊;2006年04期
6 高鑌;;聚類(lèi)在網(wǎng)絡(luò)信息檢索中的輔助作用[J];信息技術(shù);2010年04期
7 倪莉;;網(wǎng)絡(luò)環(huán)境下的自然語(yǔ)言檢索[J];當(dāng)代圖書(shū)館;1999年04期
8 王勇;;網(wǎng)絡(luò)信息檢索對(duì)圖書(shū)館信息服務(wù)的影響[J];現(xiàn)代情報(bào);2006年04期
9 楊玉煥;;網(wǎng)絡(luò)信息檢索對(duì)圖書(shū)館信息服務(wù)的影響[J];長(zhǎng)沙民政職業(yè)技術(shù)學(xué)院學(xué)報(bào);2007年02期
10 邱宏,付瓊;聯(lián)機(jī)檢索與網(wǎng)絡(luò)信息檢索的比較研究[J];東北電力學(xué)院學(xué)報(bào);2001年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 郭學(xué)軍;陳曉云;;粗集方法在數(shù)據(jù)挖掘中的應(yīng)用[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年
2 徐慧;;基于Web的文獻(xiàn)數(shù)據(jù)挖掘[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
3 孫迎;;醫(yī)院信息的數(shù)據(jù)挖掘與方法研究[A];中華醫(yī)學(xué)會(huì)第十次全國(guó)醫(yī)學(xué)信息學(xué)術(shù)會(huì)議論文匯編[C];2004年
4 薛曉東;李海玲;;數(shù)據(jù)挖掘的客戶關(guān)系管理應(yīng)用[A];科技、工程與經(jīng)濟(jì)社會(huì)協(xié)調(diào)發(fā)展——河南省第四屆青年學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2004年
5 郭建文;黃燕;印鑒;楊小波;梁兆輝;;建立中風(fēng)病“陰陽(yáng)類(lèi)證”辨證規(guī)范的數(shù)據(jù)挖掘研究[A];中華醫(yī)學(xué)會(huì)第十三次全國(guó)神經(jīng)病學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2010年
6 薛魯華;張楠;;聚類(lèi)分析在Web數(shù)據(jù)挖掘中的應(yīng)用[A];北京市第十三次統(tǒng)計(jì)科學(xué)討論會(huì)論文選編[C];2006年
7 朱揚(yáng)勇;黃超;;基于多維模型的交互式數(shù)據(jù)挖掘框架[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
8 陳濤;胡學(xué)鋼;陳秀美;;基于數(shù)據(jù)挖掘的教學(xué)質(zhì)量評(píng)價(jià)體系分析[A];全國(guó)第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國(guó)第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
9 王星;謝邦昌;戴穩(wěn)勝;;數(shù)據(jù)挖掘在保險(xiǎn)業(yè)中的應(yīng)用[A];北京市第十二次統(tǒng)計(jì)科學(xué)討論會(huì)論文選編[C];2003年
10 郭建文;黃燕;印鑒;楊小波;梁兆輝;;建立中風(fēng)病陰陽(yáng)類(lèi)證辨證規(guī)范的數(shù)據(jù)挖掘研究[A];2010中國(guó)醫(yī)師協(xié)會(huì)中西醫(yī)結(jié)合醫(yī)師大會(huì)摘要集[C];2010年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 李開(kāi)宇 黃建軍 田長(zhǎng)春;[N];中國(guó)國(guó)防報(bào);2009年
2 華萊士;[N];國(guó)際金融報(bào);2003年
3 記者 晏燕;[N];科技日?qǐng)?bào);2006年
4 □中國(guó)電信股份有限公司北京研究院 張舒博 □北京郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 牛琨;[N];人民郵電;2006年
5 張立明;[N];網(wǎng)絡(luò)世界;2003年
6 中圣信息技術(shù)有限公司 李輝;[N];中國(guó)計(jì)算機(jī)報(bào);2001年
7 田紅生;[N];中國(guó)經(jīng)濟(jì)時(shí)報(bào);2002年
8 王廣宇;[N];中國(guó)計(jì)算機(jī)報(bào);2004年
9 周蓉蓉;[N];計(jì)算機(jī)世界;2004年
10 張舒博;[N];首都建設(shè)報(bào);2009年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 孫麗;工藝知識(shí)管理及其若干關(guān)鍵技術(shù)研究[D];大連交通大學(xué);2005年
2 胡志坤;復(fù)雜有色金屬熔煉過(guò)程操作模式智能優(yōu)化方法研究[D];中南大學(xué);2005年
3 劉革平;基于數(shù)據(jù)挖掘的遠(yuǎn)程學(xué)習(xí)評(píng)價(jià)研究[D];西南師范大學(xué);2005年
4 劉寨華;基于臨床數(shù)據(jù)分析的病毒性心肌炎證候演變規(guī)律研究[D];黑龍江中醫(yī)藥大學(xué);2006年
5 王川;基因芯片數(shù)據(jù)管理及數(shù)據(jù)挖掘[D];中國(guó)科學(xué)院研究生院(上海生命科學(xué)研究院);2004年
6 王濤;挖掘序列模式和結(jié)構(gòu)化模式的精簡(jiǎn)集[D];華中科技大學(xué);2006年
7 郭斯羽;動(dòng)態(tài)數(shù)據(jù)中的數(shù)據(jù)挖掘研究[D];浙江大學(xué);2002年
8 李旭升;貝葉斯網(wǎng)絡(luò)分類(lèi)模型研究及其在信用評(píng)估中的應(yīng)用[D];西南交通大學(xué);2007年
9 劉東升;面向連鎖零售企業(yè)的客戶關(guān)系管理模型(R-CRM)研究[D];浙江工商大學(xué);2008年
10 余紅;網(wǎng)絡(luò)時(shí)政論壇輿論領(lǐng)袖研究[D];華中科技大學(xué);2007年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 廖賽恩;養(yǎng)生方數(shù)據(jù)挖掘分析系統(tǒng)的研制[D];湖南中醫(yī)藥大學(xué);2010年
2 李坤然;數(shù)據(jù)挖掘在股市趨勢(shì)預(yù)測(cè)的應(yīng)用研究[D];中南林業(yè)科技大學(xué);2008年
3 鄭宏;數(shù)據(jù)挖掘可視化技術(shù)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
4 杜金剛;數(shù)據(jù)挖掘在電信客戶關(guān)系管理及數(shù)據(jù)業(yè)務(wù)營(yíng)銷(xiāo)中的應(yīng)用[D];北京郵電大學(xué);2010年
5 徐路;基于決策樹(shù)的數(shù)據(jù)挖掘算法的研究及其在實(shí)際中的應(yīng)用[D];電子科技大學(xué);2009年
6 梁小鷗;數(shù)據(jù)挖掘在高職教學(xué)管理中的應(yīng)用[D];華南理工大學(xué);2011年
7 王浩;數(shù)據(jù)挖掘在上海市職業(yè)能力考試院招錄考試優(yōu)化管理項(xiàng)目中的運(yùn)用研究[D];華東理工大學(xué);2012年
8 黎衛(wèi)英;數(shù)據(jù)挖掘在中職幼教課程改革中的應(yīng)用[D];福建師范大學(xué);2009年
9 張煜輝;數(shù)據(jù)挖掘和SPC在生產(chǎn)過(guò)程質(zhì)量控制中應(yīng)用研究[D];上海交通大學(xué);2009年
10 劉華敏;數(shù)據(jù)挖掘在高職院校學(xué)生成績(jī)分析中的應(yīng)用[D];安徽大學(xué);2011年
本文關(guān)鍵詞:網(wǎng)絡(luò)文本信息聚類(lèi)算法研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):105208
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/105208.html