天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

個性化新聞推薦引擎中新聞分組聚類技術的研究與實現(xiàn)

發(fā)布時間:2018-02-27 12:04

  本文關鍵詞: 推薦 引擎 文本特征抽取 文本聚類 LSH 出處:《北京郵電大學》2013年碩士論文 論文類型:學位論文


【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,人們每天需要面對海量信息資訊,如何快速從中獲得有價值的信息成為亟待解決的問題,而僅僅依靠搜索引擎并不足以使用戶能獲得高質(zhì)量的適合于自己的有效信息。為了應對這個挑戰(zhàn),個性化信息推薦成為了近幾年來一個熱門的研究領域。 本文圍繞個性化新聞推薦系統(tǒng)在實際應用中的海量數(shù)據(jù)瓶頸,重點對新聞文本聚類技術進行研究、分析和實現(xiàn)。本文的主要工作如下:首先,本文研究了個性化新聞推薦系統(tǒng)的研究應用現(xiàn)狀,由此引出了海量新聞文本聚類問題。對現(xiàn)有的文本聚類相關技術及聚類方案進行了深入研究,分析其技術思想、應用領域及優(yōu)缺點。然后,為了滿足推薦系統(tǒng)實際應用中對可擴展性和效率的要求,本論文采用基于LSH的文本分組聚類算法對新聞文本進行聚類處理;同時,為了滿足新聞主題和內(nèi)容雙重相關需求,設計了層次化的文本分組聚類方案,在文本內(nèi)容特征的基礎上,加入文本主題特征表示,對主題特征進行空間轉(zhuǎn)換,以及內(nèi)容特征和主題特征的加權(quán)轉(zhuǎn)換,使其能夠應用于LSH分組聚類算法,從而實現(xiàn)了文本聚類過程中文本特征的深度挖掘,保證聚類準確率的同時有效提高了聚類的性能。最后,基于本文提出的新聞分組聚類方案,設計并實現(xiàn)了基于該方案的新聞聚類系統(tǒng),描述了聚類系統(tǒng)的實現(xiàn)流程、數(shù)據(jù)庫設計和功能模塊的設計實現(xiàn)。為了驗證系統(tǒng)的可用性、準確性和效率,使用此系統(tǒng)對數(shù)據(jù)集進行實驗,得到層次化結(jié)構(gòu)的新聞分組聚類結(jié)果,并將系統(tǒng)聚類的結(jié)果和標準的人工分類文本結(jié)果進行對比,通過對聚類結(jié)果進行評估,驗證算法的改進效果。 論文主要內(nèi)容的組織如下:第二章,對個性化新聞推薦引擎進行概述,重點分析了該技術目前面臨的性能瓶頸,并引出通過文本聚類技術作為解決方案;第三章對文本聚類技術進行了介紹,分析了幾種主要文本聚類算法的原理;第四章,針對新聞推薦系統(tǒng)的特殊需求,提出基于LSH分組聚類算法的新聞文本聚類方案;第五章,介紹了基于該方案的新聞聚類系統(tǒng)的設計與實現(xiàn);第六章,給出了該系統(tǒng)測試和實驗結(jié)果,并對實驗結(jié)果進行了分析。
[Abstract]:With the rapid development of the Internet, people have to face a lot of information every day. How to get valuable information quickly becomes an urgent problem. In order to meet the challenge, personalized information recommendation has become a hot research field in recent years. This paper focuses on the bottleneck of mass data in the application of personalized news recommendation system, and focuses on the research, analysis and implementation of news text clustering technology. The main work of this paper is as follows: first, This paper studies the current situation of research and application of personalized news recommendation system, which leads to the problem of mass news text clustering. The existing text clustering related technologies and clustering schemes are deeply studied, and their technical ideas are analyzed. Then, in order to meet the requirements of scalability and efficiency in the practical application of the recommendation system, this paper adopts the text grouping clustering algorithm based on LSH to cluster the news text; at the same time, In order to meet the dual demand of news topic and content, a hierarchical text clustering scheme is designed. Based on the text content feature, the text theme feature representation is added to transform the topic feature space. And the weighted transformation of content feature and topic feature can be applied to LSH clustering algorithm, thus realizing the deep mining of text feature in text clustering process. At the same time, the accuracy of clustering is guaranteed and the performance of clustering is improved effectively. Finally, a news clustering system based on this scheme is designed and implemented, and the realization flow of the clustering system is described. In order to verify the usability, accuracy and efficiency of the system, this system is used to test the data set, and the hierarchical news grouping clustering results are obtained. The results of the system clustering are compared with the results of the standard manual text classification, and the improved algorithm is verified by the evaluation of the clustering results. The main contents of this paper are as follows: in chapter 2, the personalized news recommendation engine is summarized, and the performance bottleneck of the technology is analyzed, and the text clustering technology is used as the solution. The third chapter introduces the text clustering technology, analyzes the principle of several main text clustering algorithms; chapter 4th, according to the special needs of news recommendation system, puts forward the news text clustering scheme based on LSH clustering algorithm; chapter 5th, This paper introduces the design and implementation of news clustering system based on this scheme, and gives the test and experimental results of the system in Chapter 6th, and analyzes the experimental results.
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.1

【參考文獻】

相關期刊論文 前6條

1 盧祖友;桑永勝;;基于球向量機的中文文本分類[J];計算機工程與科學;2008年12期

2 尉景輝,何丕廉,孫越恒;基于K-Means的文本層次聚類算法研究[J];計算機應用;2005年10期

3 胡潔;;高維數(shù)據(jù)特征降維研究綜述[J];計算機應用研究;2008年09期

4 許海玲;吳瀟;李曉東;閻保平;;互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J];軟件學報;2009年02期

5 章成志;王惠臨;;多語言文本聚類研究綜述[J];現(xiàn)代圖書情報技術;2009年06期

6 杜紅斌;夏克文;劉南平;吳濤;;一種改進的基于廣義后綴樹的文本聚類算法[J];信息與控制;2009年03期

相關碩士學位論文 前3條

1 姚清耘;基于向量空間模型的中文文本聚類方法的研究[D];上海交通大學;2008年

2 劉強;文本的特征提取及KNN分類優(yōu)化問題研究[D];華南理工大學;2009年

3 唐朝;資源自適應個性化新聞推薦系統(tǒng)的研究與實現(xiàn)[D];浙江大學;2010年



本文編號:1542592

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1542592.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c361b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com