基于主題模型的科技論文聚類推薦
本文選題:主題模型 + 科技論文; 參考:《華北電力大學(xué)》2013年碩士論文
【摘要】:科技論文為知識的傳遞起到了推動作用,用戶通過論文出版商提供的專用搜索引擎得到所需要的文獻(xiàn),檢索信息結(jié)果不僅包括文章的基本信息也包括該文章的一些推薦文章。本文從基于內(nèi)容的推薦方向出發(fā),在對文本建模的時候使用了主題模型,此時同基于空間模型的表示法相比,在語義層面的角度上充分的考慮了詞與詞之間的聯(lián)系,而后通過基于劃分的聚類方法,自動將相似文章集簇到一起,最后在各個子簇下利用相似性算法對各個文章進(jìn)行計算,將計算值大的文章列為推薦文章。它同傳統(tǒng)的單純依靠關(guān)鍵詞和題目推薦的方法相比,充分考慮到文章與文章內(nèi)容之間的聯(lián)系,為傳統(tǒng)的論文推薦方法做了很好的補(bǔ)充。 本文首先介紹了在信息檢索領(lǐng)域里的基本的文本表示方法和演變,深入的介紹了隱性語義索引、概率隱性語義索引和潛在狄利克雷分配。在數(shù)據(jù)來源的方面上,著重的分析了目標(biāo)網(wǎng)頁的特點,制定相應(yīng)的抓取規(guī)則。在推薦后端上,用三層框架來具體描述其實現(xiàn):第一層是基于主題模型的文檔表示;第二層是文檔聚類使用的是K-means聚類算法;第三層是基于主題模型下計算文章的相似性。在實驗階段用LDA和PLSA在不同的主題數(shù)目下,計算聚類效果的F值。同時本工作在基于Sphinx搜索引擎的基礎(chǔ)上用網(wǎng)頁的形式實現(xiàn)出來。
[Abstract]:Scientific papers play an important role in the transfer of knowledge. Users obtain the required documents through a special search engine provided by the paper publishers. The retrieval results include not only the basic information of the article but also some recommended articles of the article. In this paper, the topic model is used in the text modeling from the point of view of the content based recommendation. Compared with the representation based on the spatial model, the relationship between words and words is fully considered from the perspective of semantic level. Then by using partition-based clustering method, the similar articles are automatically clustered together. Finally, the similarity algorithm is used to calculate each article under each subcluster, and the articles with large computing value are listed as recommended articles. Compared with the traditional methods which rely solely on keyword and topic recommendation, it fully considers the relationship between the article and the content of the article, and makes a good supplement to the traditional method of paper recommendation. In this paper, we first introduce the basic text representation and evolution in the field of information retrieval, and introduce the implicit semantic index, probabilistic implicit semantic index and potential Delikley assignment. In the aspect of data source, this paper analyzes the characteristics of the target web page and formulates the corresponding capture rules. In the recommended back-end, the implementation is described by a three-layer framework: the first layer is the document representation based on the topic model; the second layer is the document clustering algorithm using K-means; and the third layer is the similarity calculation based on the topic model. In the experiment stage, LDA and PLSA are used to calculate the F value of clustering effect under different subject numbers. At the same time, the work based on the Sphinx search engine based on the form of web pages.
【學(xué)位授予單位】:華北電力大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1;TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 聶規(guī)劃;付志超;陳冬林;劉平峰;;基于本體的論文復(fù)制檢測系統(tǒng)[J];計算機(jī)工程;2009年06期
2 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計算機(jī)學(xué)報;2011年08期
3 劉寶生;閆莉萍;周東華;;幾種經(jīng)典相似性度量的比較研究[J];計算機(jī)應(yīng)用研究;2006年11期
4 刁宇峰;楊亮;林鴻飛;;基于LDA模型的博客垃圾評論發(fā)現(xiàn)[J];中文信息學(xué)報;2011年01期
5 彭澤映;俞曉明;許洪波;劉春陽;;大規(guī)模短文本的不完全聚類[J];中文信息學(xué)報;2011年01期
6 王娟琴;三種檢索模型的比較分析研究——布爾、概率、向量空間模型[J];情報科學(xué);1998年03期
7 劉紅泉,張亮峰;布爾邏輯檢索模型的分析探討[J];現(xiàn)代情報;2004年09期
8 馬宏偉;張光衛(wèi);李鵬;;協(xié)同過濾推薦算法綜述[J];小型微型計算機(jī)系統(tǒng);2009年07期
9 劉建國;周濤;汪秉宏;;個性化推薦系統(tǒng)的研究進(jìn)展[J];自然科學(xué)進(jìn)展;2009年01期
相關(guān)碩士學(xué)位論文 前4條
1 吳曉蓉;K-均值聚類算法初始中心選取相關(guān)問題的研究[D];湖南大學(xué);2008年
2 葛潤霞;基于內(nèi)容聚類的協(xié)同過濾推薦系統(tǒng)研究[D];山東師范大學(xué);2008年
3 翟悅;改進(jìn)的關(guān)聯(lián)規(guī)則挖掘算法在個性化推薦系統(tǒng)中應(yīng)用[D];大連交通大學(xué);2008年
4 楚克明;基于LDA的新聞話題演化研究[D];上海交通大學(xué);2010年
,本文編號:1983661
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1983661.html