基于社交網(wǎng)絡(luò)的數(shù)據(jù)過濾與數(shù)據(jù)推送
發(fā)布時(shí)間:2017-05-29 02:03
本文關(guān)鍵詞:基于社交網(wǎng)絡(luò)的數(shù)據(jù)過濾與數(shù)據(jù)推送,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著Web2.0時(shí)代的到來,各類網(wǎng)絡(luò)技術(shù)迅猛發(fā)展,計(jì)算機(jī)模擬人類思維能力不斷提高,各類工業(yè)和生活應(yīng)用大量涌現(xiàn)。這也導(dǎo)致了龐大的歷史數(shù)據(jù)堆積,人類已經(jīng)從信息匱乏時(shí)代過渡到信息過載時(shí)代。面對(duì)巨大的、無序的Internet空間,傳統(tǒng)的信息搜索方式已經(jīng)不能滿足人們?nèi)找嬖鲩L(zhǎng)的信息需求。如何利用計(jì)算機(jī)從海量數(shù)據(jù)中快速高效地找出潛在的、有價(jià)值的信息,成為了人們關(guān)注的熱點(diǎn)話題。目前,推薦系統(tǒng)的發(fā)展能幫助用戶方便、快捷地定位所需信息,而對(duì)用戶進(jìn)行興趣分析正是其中的關(guān)鍵。社交網(wǎng)絡(luò)的迅速崛起為我們分析用戶興趣提供了一個(gè)嶄新的內(nèi)容全面且豐富的數(shù)據(jù)來源。因此,社交網(wǎng)絡(luò)成為了當(dāng)前國(guó)內(nèi)外學(xué)者研究的重要內(nèi)容。另外,在過去的一段時(shí)間里,信息處理技術(shù)不斷走向成熟。其中文本相似性計(jì)算也有了長(zhǎng)足的發(fā)展,被廣泛應(yīng)用于文獻(xiàn)檢索、文本分類和機(jī)器翻譯等領(lǐng)域。一些學(xué)者對(duì)中文文本分詞方法、特征值提取方法和文本相似性判別算法進(jìn)行改進(jìn),并取得了一定成果。但是這些方法大都是針對(duì)特定領(lǐng)域的具體應(yīng)用而言,適用范圍較小。受中文語言特點(diǎn)的限制,現(xiàn)有算法一般只適用于某一領(lǐng)域,而在另一領(lǐng)域的適用性往往較差,新的應(yīng)用還需要研究新的算法才能解決。本文基于微博,對(duì)利用微博獲取用戶興趣并進(jìn)行個(gè)性化推薦的方法展開了研究和探索。相較于目前的研究工作,本文主要存在以下三方面的不同。首先,考慮到當(dāng)前針對(duì)中文語言的信息處理算法中存在的不足,提出將提取多特征屬性的文本相似性判別思想運(yùn)用到微博文本中,通過多角度的提取詞條特征項(xiàng),來提高文本表示的準(zhǔn)確性,并減少文本語義信息量的損失。其次,使用外部語料庫(kù)來確定用戶興趣分類,并以此來豐富微博語義、克服因微博內(nèi)容簡(jiǎn)短而帶來的主題模型數(shù)目不易確定的問題。此外,受Ebbinghaus遺忘曲線的啟發(fā),我們認(rèn)為人類的興趣并不總是一成不變的,在傳統(tǒng)基于內(nèi)容的推薦算法的基礎(chǔ)上,提出基于時(shí)間權(quán)重函數(shù)的個(gè)性化推薦算法,用以剔除用戶過期興趣,并區(qū)分實(shí)時(shí)興趣。最后,我們?cè)O(shè)置多組實(shí)驗(yàn),經(jīng)對(duì)比發(fā)現(xiàn),本文中提出的提取多特征屬性、應(yīng)用外部語料庫(kù)來進(jìn)行用戶興趣分類和考慮用戶興趣隨時(shí)間變化的思想能有效緩解傳統(tǒng)方法在處理微博文本方面存在的問題,提高推薦精度。
【關(guān)鍵詞】:社交網(wǎng)絡(luò) 興趣分析 文本相似性計(jì)算 時(shí)間權(quán)重函數(shù) 個(gè)性化推薦
【學(xué)位授予單位】:濟(jì)南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.09
【目錄】:
- 摘要7-8
- Abstract8-10
- 第一章 緒論10-20
- 1.1 研究背景和意義10-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-15
- 1.2.1 文本挖掘相關(guān)研究12-13
- 1.2.2 用戶興趣分析13-14
- 1.2.3 個(gè)性化推薦14-15
- 1.3 論文主要工作、創(chuàng)新點(diǎn)和面臨的挑戰(zhàn)15-17
- 1.3.1 論文主要工作15-16
- 1.3.2 本文創(chuàng)新點(diǎn)16
- 1.3.3 本文面臨的挑戰(zhàn)16-17
- 1.4 論文組織結(jié)構(gòu)17-20
- 第二章 相關(guān)概念和方法20-30
- 2.1 微博20-21
- 2.2 文本相似性判別21-26
- 2.2.1 本章概述21
- 2.2.2 文本相似性判別的基本流程21-26
- 2.3 二維特征集合相關(guān)概念26-27
- 2.4 本章小結(jié)27-30
- 第三章 微博的用戶興趣分析與個(gè)性化推薦方法研究30-38
- 3.1 本章概述30
- 3.2 引入外部語料庫(kù)30-32
- 3.3 用戶興趣分析32-35
- 3.3.1 遺忘曲線33
- 3.3.2 基于遺忘曲線的時(shí)間權(quán)重函數(shù)33-34
- 3.3.3 用戶興趣分析算法及流程描述34-35
- 3.4 個(gè)性化推薦35-36
- 3.5 本章小結(jié)36-38
- 第四章 實(shí)驗(yàn)方案設(shè)計(jì)與結(jié)果分析38-46
- 4.1 實(shí)驗(yàn)數(shù)據(jù)集38-39
- 4.2 評(píng)價(jià)標(biāo)準(zhǔn)39-40
- 4.3 與基于單特征值提取算法的實(shí)驗(yàn)對(duì)比40-42
- 4.4 與未考慮時(shí)間權(quán)重的傳統(tǒng)算法的實(shí)驗(yàn)對(duì)比42-44
- 4.5 與未引入外部語料庫(kù)的傳統(tǒng)算法的實(shí)驗(yàn)對(duì)比44-45
- 4.6 本章小結(jié)45-46
- 第五章 針對(duì)微博的個(gè)性化推薦系統(tǒng)實(shí)現(xiàn)46-52
- 5.1 系統(tǒng)簡(jiǎn)介46
- 5.2 系統(tǒng)結(jié)構(gòu)46-49
- 5.2.1 用戶登錄模塊46-48
- 5.2.2 后臺(tái)定時(shí)更新模塊48
- 5.2.3 興趣分類模塊48-49
- 5.2.4 個(gè)性化推薦模塊49
- 5.3 系統(tǒng)實(shí)現(xiàn)與應(yīng)用49
- 5.4 本章小結(jié)49-52
- 第六章 結(jié)論與展望52-54
- 6.1 全文總結(jié)52
- 6.2 進(jìn)一步研究展望52-54
- 參考文獻(xiàn)54-58
- 致謝58-60
- 附錄60
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 歐潔;林守勛;劉桂林;;個(gè)性化智能信息提取中的用戶興趣發(fā)現(xiàn)[J];計(jì)算機(jī)科學(xué);2001年03期
2 蔣學(xué)鋒;;用戶興趣的結(jié)構(gòu)和個(gè)性化服務(wù)的實(shí)現(xiàn)[J];計(jì)算技術(shù)與自動(dòng)化;2005年04期
3 李鈍;曹元大;張龍飛;;用戶興趣優(yōu)化過濾方法研究[J];計(jì)算機(jī)工程;2006年20期
4 費(fèi)洪曉;戴弋;穆s,
本文編號(hào):403897
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/403897.html
最近更新
教材專著