基于開源搜索引擎的社會化推薦技術(shù)研究
發(fā)布時間:2017-03-27 23:08
本文關(guān)鍵詞:基于開源搜索引擎的社會化推薦技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著社交網(wǎng)絡(luò)的興起,微博等社會化媒體已經(jīng)越來越深入到人們的生活中。用戶隨時隨地發(fā)布的微博,記錄和反映了用戶在當(dāng)時情景下的興趣和喜好。面對海量的社交網(wǎng)絡(luò)數(shù)據(jù),如何有效的利用用戶的信息,提取得到用戶的興趣模型,從而對用戶進(jìn)行信息推薦,免除用戶收到信息過載的干擾,已經(jīng)成為了越來越重要的研究課題。 在本文中,首先介紹了推薦系統(tǒng)的相關(guān)概念,分析了現(xiàn)在國內(nèi)外的研究現(xiàn)狀,并介紹了主流的基于協(xié)同過濾的推薦算法和基于內(nèi)容的推薦算法。針對基于協(xié)同過濾的推薦算法,對推薦算法中傳統(tǒng)的相似度算法進(jìn)行了定性和定量分析,并針對傳統(tǒng)相似度算法中的不足,引入了用戶間相似度非對稱的思想,提出了一種新的非對稱相似度算法(ASC-Pearson相似度算法),并使用MovieLens數(shù)據(jù)集對新的非對稱相似度算法的效果進(jìn)行了驗(yàn)證。 為了建立合適的主題模型從而對用戶的興趣主題進(jìn)行更好的描述,本文針對微博等短文本的特點(diǎn)進(jìn)行了分析,使用標(biāo)簽提取的方法將微博數(shù)據(jù)分為包含分類信息的有監(jiān)督樣本和不包含分類信息無監(jiān)督樣本。通過對傳統(tǒng)的LDA主題模型進(jìn)行改進(jìn),提出了一種新的半監(jiān)督LDA主題模型,可以更加充分的利用微博樣本中的先驗(yàn)信息,經(jīng)過訓(xùn)練得到表現(xiàn)更好的主題模型。 在得到微博數(shù)據(jù)的半監(jiān)督LDA主題模型的基礎(chǔ)上,本文對目標(biāo)用戶的微博進(jìn)行抓取和分析,引入時間順序加權(quán)因子,提出了OWF-Max-Weibo算法來對用戶建立興趣主題模型。通過編寫微博爬蟲,從抓取到的新浪微博用戶中選取興趣分布特點(diǎn)不同的示例用戶,對傳統(tǒng)的ATM算法、Max-Weibo算法和OWF-Max-Weibo算法的效果進(jìn)行比較,驗(yàn)證了OWF-Max-Weibo算法可以更好的反映出用戶興趣隨時間的變化趨勢。在此基礎(chǔ)上,搭建了社會化推薦系統(tǒng),根據(jù)巴氏距離計(jì)算用戶興趣主題模型與推薦對象模型之間的相似度,實(shí)現(xiàn)了基于用戶興趣模型對用戶推薦相關(guān)主題內(nèi)容的新聞、博客等文章。針對抓取得到的示例用戶的微博內(nèi)容,人工對示例用戶的微博主題進(jìn)行分析,并與社會化推薦系統(tǒng)的推薦結(jié)果進(jìn)行對比,驗(yàn)證了該社會化推薦系統(tǒng)的有效性。
【關(guān)鍵詞】:推薦系統(tǒng) 相似度算法 LDA主題模型 開源搜索引擎
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要4-6
- ABSTRACT6-8
- 目錄8-10
- 第一章 緒論10-17
- 1.1 研究背景及意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-15
- 1.3 本文主要工作和組織結(jié)構(gòu)15-17
- 第二章 背景回顧17-32
- 2.1 開源搜索引擎17-20
- 2.1.1 網(wǎng)絡(luò)爬蟲18-19
- 2.1.2 文本預(yù)處理19
- 2.1.3 分詞19-20
- 2.1.4 去噪20
- 2.2 文檔模型20-28
- 2.2.1 VSM模型20-22
- 2.2.2 Unigram模型22-23
- 2.2.3 LSA模型23-24
- 2.2.4 pLSA模型24-26
- 2.2.5 LDA模型26-28
- 2.3 推薦系統(tǒng)28-31
- 2.3.1 基于協(xié)同過濾的推薦系統(tǒng)28-29
- 2.3.2 基于內(nèi)容的推薦系統(tǒng)29
- 2.3.3 基于模型的推薦系統(tǒng)29-30
- 2.3.4 推薦算法的比較30-31
- 2.4 本章小結(jié)31-32
- 第三章 一種新的協(xié)同過濾非對稱相似度算法32-47
- 3.1 協(xié)同過濾算法33-34
- 3.1.1 評分表示33
- 3.1.2 近鄰選擇33-34
- 3.1.3 產(chǎn)生推薦34
- 3.2 傳統(tǒng)相似度算法34-40
- 3.2.1 余弦相似度34-36
- 3.2.2 皮爾遜相似度36-39
- 3.2.3 改進(jìn)的余弦相似度39
- 3.2.4 杰卡德-皮爾遜相似度39-40
- 3.3 一種新的非對稱皮爾遜相似度算法40-41
- 3.4 實(shí)驗(yàn)結(jié)果41-46
- 3.4.1 實(shí)驗(yàn)數(shù)據(jù)集41-43
- 3.4.2 評價標(biāo)準(zhǔn)43
- 3.4.3 實(shí)驗(yàn)方法43
- 3.4.4 評分預(yù)測方法43-44
- 3.4.5 實(shí)驗(yàn)結(jié)果44-46
- 3.5 本章總結(jié)46-47
- 第四章 一種改進(jìn)的半監(jiān)督LDA主題模型47-59
- 4.1 LDA主題模型47-53
- 4.1.1 LDA模型參數(shù)48-49
- 4.1.2 LDA生成模型49-51
- 4.1.3 LDA模型的超參數(shù)51
- 4.1.4 LDA模型的訓(xùn)練51-53
- 4.2 半監(jiān)督LDA主題模型53-58
- 4.3 本章總結(jié)58-59
- 第五章 社會化推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)59-86
- 5.1 半監(jiān)督LDA主題模型60-67
- 5.1.1 新浪微博數(shù)據(jù)的抓取60-62
- 5.1.2 主題模型的訓(xùn)練62-63
- 5.1.3 主題模型的驗(yàn)證63-67
- 5.2 用戶興趣主題模型67-79
- 5.2.1 基本的用戶興趣主題模型68
- 5.2.2 基本用戶興趣主題模型的分析68-69
- 5.2.3 基本用戶興趣主題模型的驗(yàn)證69-71
- 5.2.4 時間順序加權(quán)因子71-73
- 5.2.5 OWF-Max-Weibo用戶興趣模型73-74
- 5.2.6 OWF-Max-Weibo用戶興趣模型的驗(yàn)證74-77
- 5.2.7 三種興趣模型的比較驗(yàn)證77-79
- 5.3 推薦對象模型79-80
- 5.4 社會化推薦系統(tǒng)80-84
- 5.4.1 巴氏距離80-81
- 5.4.2 社會化推薦系統(tǒng)81
- 5.4.3 社會化推薦系統(tǒng)的驗(yàn)證81-83
- 5.4.4 社會化推薦系統(tǒng)的優(yōu)缺點(diǎn)和改進(jìn)83-84
- 5.5 本章總結(jié)84-86
- 第六章 總結(jié)與展望86-88
- 參考文獻(xiàn)88-91
- 致謝91
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 王小正;侯青;;基于Nutch和Solr的基礎(chǔ)教育垂直搜索引擎的實(shí)現(xiàn)[J];電腦知識與技術(shù);2012年04期
2 呂學(xué)軍;;搜索引擎綜述[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年22期
3 任翔;劉彬;;基于超鏈接分析的網(wǎng)頁正文提取方法[J];泰山學(xué)院學(xué)報;2010年03期
4 單蓉;;用戶興趣模型的更新與遺忘機(jī)制研究[J];微型電腦應(yīng)用;2011年07期
5 胡繼鈞;;基于Lucene全文檢索引擎的研究與實(shí)現(xiàn)[J];科技創(chuàng)新導(dǎo)報;2010年20期
本文關(guān)鍵詞:基于開源搜索引擎的社會化推薦技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:271278
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/271278.html
最近更新
教材專著