基于多核技術(shù)的搜索結(jié)果聚類算法研究
發(fā)布時間:2018-03-13 09:45
本文選題:搜索結(jié)果聚類 切入點:網(wǎng)絡(luò)聚類引擎 出處:《廣西大學(xué)》2012年碩士論文 論文類型:學(xué)位論文
【摘要】:網(wǎng)絡(luò)聚類引擎將聚類技術(shù)融入到搜索引擎中,對搜索結(jié)果進行聚類,以主題簇的形式返回給用戶,用戶只需在少量的主題簇中篩選出感興趣的主題,繼而再深入查看內(nèi)容是否有價值,這樣可以極大地減輕用戶的查找任務(wù),是當(dāng)前搜索引擎的研究熱點。影響網(wǎng)絡(luò)聚類引擎的用戶體驗有兩點:一是主題簇的最終顯示方式,二是響應(yīng)用戶請求的效率。本文對上述問題進行了研究,具體包括: (1)網(wǎng)絡(luò)聚類引擎呈現(xiàn)主題簇的形式主要是文件夾樹或其他的圖形視圖。只有客觀地評價一個簇的重要性,才能使簇的排列合乎用戶的期望;贚ingo算法,提出了一種改進計算簇分值的方法,不僅考慮簇標(biāo)簽的分值和簇內(nèi)文檔的數(shù)量,還利用文檔在搜索結(jié)果中的原有排名和在簇中的分值。實驗結(jié)果表明,改進后的簇分值可以客觀反映簇的相關(guān)性和權(quán)威性。(2)聚類算法是比較耗時的過程,需要提高算法的效率以滿足用戶對在線聚類的時間容忍度。隨著多核處理器的快速發(fā)展和廣為使用,針對Lingo算法的時間效率問題,在提出的Lingo改進算法的基礎(chǔ)上,運用多線程技術(shù),使用并行程序設(shè)計來實現(xiàn)其并行化,以利用多核的資源優(yōu)勢,從而提高改進算法的性能。實驗表明所設(shè)計的并行Lingo算法有較好的性能。
[Abstract]:Network clustering engine clustering technology into the search engine, cluster search results and return to the user in the form of topic clusters, users only need to select a topic of interest in the theme of small clusters, whether there is a value then look no further, this can greatly reduce the user search task is current the search engine research focus. The influence of the user experience of Web Clustering engines have two points: one is the presentation of clusters is two, the efficiency of responding to user request. This paper made a research on the above problems, including:
(1) Web Clustering engines display cluster is mainly in the form of the folder tree or other graphical view. Only the objective evaluation of the importance of a cluster, cluster to make arrangement in line with the user's expectations. Based on the Lingo algorithm, an improved method is proposed for calculating the cluster score, not only consider the number of cluster label scores and cluster documents, also use the document search results in the original ranking and in cluster scores. The experimental results show that the improved cluster score can objectively reflect the relevance and authority of clusters. (2) clustering algorithm is a time-consuming process, to improve the efficiency of the algorithm to meet the needs of users of online time clustering tolerance. With the rapid development of multi-core processor and is widely used in time, the efficiency of Lingo algorithm, an improved algorithm based on the Lingo, the use of multi threading technology, parallel program design To achieve its parallelization, the performance of the improved algorithm is improved by using the multi core resource advantage. The experiment shows that the designed parallel Lingo algorithm has good performance.
【學(xué)位授予單位】:廣西大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP311.13
【參考文獻】
相關(guān)期刊論文 前6條
1 邵峰晶,張斌,于忠清;多閾值BIRCH聚類算法及其應(yīng)用[J];計算機工程與應(yīng)用;2004年12期
2 龍真真;張策;劉飛裔;張正文;;一種改進的Chameleon算法[J];計算機工程;2009年20期
3 行小帥,潘進,焦李成;基于免疫規(guī)劃的K-means聚類算法[J];計算機學(xué)報;2003年05期
4 馬帥,王騰蛟,唐世渭,楊冬青,高軍;一種基于參考點和密度的快速聚類算法[J];軟件學(xué)報;2003年06期
5 雷小鋒;謝昆青;林帆;夏征義;;一種基于K-Means局部最優(yōu)性的高效聚類算法[J];軟件學(xué)報;2008年07期
6 田森平;吳文亮;;自動獲取k-means聚類參數(shù)k值的算法[J];計算機工程與設(shè)計;2011年01期
相關(guān)碩士學(xué)位論文 前1條
1 張曉衛(wèi);Web全文信息檢索系統(tǒng)的研究與實現(xiàn)[D];蘇州大學(xué);2006年
,本文編號:1605841
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1605841.html
最近更新
教材專著