天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

聚類算法在網頁分類中的應用研究

發(fā)布時間:2018-08-20 12:28
【摘要】:近年來,隨著信息技術的不斷發(fā)展,網頁數量大幅度增長,網絡上的信息量急劇增加,用戶對網頁信息的搜索是通過搜索引擎實現(xiàn)的。搜索引擎可以幫助用戶屏蔽掉大量的無關的信息。搜索引擎系統(tǒng)已進入以智能化、人性化為標志的第三時代。這一時代區(qū)別于前兩個時代最大的特點是將人工智能技術運動到搜索引擎系統(tǒng)中,而聚類算法就是其中最主要的算法。 聚類技術將搜索引擎返回的結果分為若干個類,供用戶進行有針對性地查找。目前現(xiàn)存的搜索引擎大多單純地對網頁內容進行聚類,本文在分析了現(xiàn)存的聚類算法的基礎上,對常用的算法進行了優(yōu)將CBC算法運用到網頁聚類中,并且加入了搜索詞作為主要的參照數據,通過在聚類中加大的搜索詞的權重,在特征權值的計算中等方面對CBC算法進行了改進。實現(xiàn)了改進后的CBC算法,并且用數據集對新算法與傳統(tǒng)的K-means算法的結果進行了比較,證明算法在精確度上優(yōu)于傳統(tǒng)的K-means算法,在效率上也有較為明顯的優(yōu)勢。 最后,本文在改進的聚類算法的基礎上設計了一個中文聚類系統(tǒng),對于網頁從抓取到分析,,再到分類都做了模塊化的設計工作,并在此基礎上對算法以及下一步的工作提出了改進的想法。
[Abstract]:In recent years, with the continuous development of information technology, the number of web pages has increased dramatically, and the amount of information on the network has increased sharply. Search engines can help users block out a lot of irrelevant information. Search engine system has entered the third era marked by intelligence and humanization. The most important characteristic of this era is to move artificial intelligence technology into search engine system, and clustering algorithm is the most important one. Clustering technology divides the results returned by search engines into several classes for users to search. At present, most of the existing search engines simply cluster the content of the web pages. Based on the analysis of the existing clustering algorithms, this paper applies the CBC algorithm to the web page clustering. The search term is added as the main reference data, and the CBC algorithm is improved in the calculation of the feature weight by increasing the weight of the search term in the clustering. The improved CBC algorithm is implemented, and the results of the new algorithm and the traditional K-means algorithm are compared with the data set. It is proved that the algorithm is superior to the traditional K-means algorithm in accuracy and has obvious advantages in efficiency. Finally, this paper designs a Chinese clustering system based on the improved clustering algorithm. On this basis, the algorithm and the next work are proposed to improve the idea.
【學位授予單位】:北京化工大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.1

【參考文獻】

相關期刊論文 前5條

1 陳建超;胡桂武;楊志華;嚴桂奪;;基于全局性確定聚類中心的文本聚類[J];計算機工程與應用;2011年10期

2 熊忠陽;吳林敏;張玉芳;;針對非均勻數據集的DBSCAN過濾式改進算法[J];計算機應用研究;2009年10期

3 閆仁武;商好值;;一種基于遺傳算法的模糊C均值算法[J];科學技術與工程;2010年28期

4 趙慧;劉希玉;崔海青;;網格聚類算法[J];計算機技術與發(fā)展;2010年09期

5 孔繼利;顧傜;孫欣;馮愛蘭;;系統(tǒng)聚類和重心法在多節(jié)點配送中心選址中的研究[J];物流技術;2010年05期

相關會議論文 前1條

1 李世峰;黃磊;劉昌平;;幾種聚類方法的比較[A];第八屆全國漢字識別學術會議論文集[C];2002年

相關博士學位論文 前1條

1 于澝;基于一維SOM神經網絡的聚類及數據分析方法研究[D];天津大學;2009年

相關碩士學位論文 前2條

1 林麗;基于語義距離的文本聚類算法研究[D];廈門大學;2007年

2 翟少丹;基于混合模型的聚類算法研究[D];西北大學;2009年



本文編號:2193609

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2193609.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶52cb3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com