天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

推薦系統(tǒng)及眾包模式中的若干問題研究

發(fā)布時間:2018-04-16 23:28

  本文選題:信息過載 + 推薦系統(tǒng) ; 參考:《北京郵電大學》2017年博士論文


【摘要】:近年來,隨著計算機網(wǎng)絡(luò)、移動互聯(lián)網(wǎng)的廣泛普及與發(fā)展,全球每年產(chǎn)生的數(shù)據(jù)量爆炸式增長,海量數(shù)據(jù)蘊藏著巨大的價值。然而在數(shù)據(jù)量爆炸式增長的另一面,隱藏著數(shù)據(jù)價值密度越來越低的問題。海量數(shù)據(jù)信息在給人們生活帶來便利的同時,也將人們從信息匱乏的時代帶進了信息過載的時代。高效的數(shù)據(jù)挖掘,是應對信息過載難題的關(guān)鍵。通常,互聯(lián)網(wǎng)用戶獲取信息可以通過被動和主動兩種途徑,這也是互聯(lián)網(wǎng)信息供給的兩種途徑。一種情況是用戶被動的接收互聯(lián)網(wǎng)或統(tǒng)一發(fā)布或個性化推送的信息;另一種情況是,用戶主動使用互聯(lián)網(wǎng)獲取信息。為解決信息過載難題,本文從上述兩個角度,選取了兩種典型互聯(lián)網(wǎng)信息供給方法展開研究:推薦系統(tǒng)和眾包模式。本文主要工作和創(chuàng)新如下:1.針對推薦系統(tǒng)中的直接類型用戶反饋數(shù)據(jù)—評分信息,本文提出了一種上下文信息參與建模的概率張量分解推薦算法,破解信息過載表現(xiàn)出的信息供求不匹配問題。目前,在個性化推薦系統(tǒng)中,上下文信息正在受到越來越多的重視。然而,目前大多數(shù)基于二維矩陣分解的推薦算法,不能將上下文信息與評分信息、社交網(wǎng)絡(luò)信息和物品內(nèi)容等信息同時進行建模,忽略了其中某些因素間的相互影響。本文將上述數(shù)據(jù)信息看成一個用戶-物品-上下文的評分張量,將概率矩陣分解推廣至概率張量分解。之后,本文進一步將概率張量分解模型擴展為上下文信息參與建模的概率張量分解算法,該算法系統(tǒng)的將上下文信息、社交網(wǎng)絡(luò)信息、文本內(nèi)容信息和評分信息進行融合,從而達到提高推薦系統(tǒng)性能的目的。在兩個數(shù)據(jù)集上的實驗結(jié)果,證明了方法的有效性和魯棒性。2.針對推薦系統(tǒng)中的間接類型用戶反饋數(shù)據(jù)—簽到頻率信息,本文提出了兩種興趣點推薦的時空話題模型,破解如何利用用戶間接反饋信息解決信息供求不匹配的難題。常見的評分類推薦系統(tǒng),評分數(shù)值大小直接表明了用戶對物品的喜好程度。而在用戶地點簽到問題中,用戶對于某個地點的偏好程度,是通過訪問次數(shù)的不斷累加間接體現(xiàn)的,因此,簽到頻率屬于間接反饋類型的數(shù)據(jù),數(shù)據(jù)的取值范圍相比于評分信息,不固定且開放。通常,簽到數(shù)據(jù)包括用戶唯一標識ID、文本評論、簽到時間以及地理位置等信息。為了能夠綜合使用上述信息為用戶推薦興趣點,首先,本文使用LDA模型分析了興趣點和用戶相關(guān)文本文檔的主題分布情況,以評價興趣點對用戶的主題吸引程度,使用地理位置信息衡量用戶就近訪問的概率,并以指數(shù)形式對主題吸引度和地理吸引度對用戶移動行為的影響進行建模;其次,本文使用時間信息將原始的用戶簽到數(shù)據(jù)進行分類,這樣,同一類別下的用戶簽到數(shù)據(jù)都發(fā)生在相似時間場景下,更易從中發(fā)現(xiàn)規(guī)律;在上述基礎(chǔ)上,以概率矩陣分解為框架,通過為隱特征矩陣分別假設(shè)高斯先驗分布和伽馬先驗分布,本文提出了兩種興趣點推薦的時空話題模型,目的在于探索先驗分布假設(shè)對于推薦性能的影響。相關(guān)實驗證明了本文興趣點推薦模型的有效性。3.針對眾包模式獲取信息質(zhì)量無保證的問題,本文提出了一種開放型眾包任務的答案整合方案,解決信息過載表現(xiàn)出的信息質(zhì)量無保證問題。由于參與眾包任務的工人可靠程度不同,眾包平臺會對收集到的答案進行答案整合以確保眾包服務質(zhì)量。目前,由于開放式任務類型多樣,且沒有備選答案,答案空間開放,開放式任務的答案整合仍處于探索研究階段。本文認為工人答案的可信程度由任務和工人兩方面因素共同決定。任務本身的困難度很大程度上決定了自身答案空間的情況(答案類別,各類答案占比),本文使用中國式餐館過程對任務收集答案的過程進行建模,并用中國式餐館過程的集中度參數(shù)衡量任務本身的困難度。綜合考慮任務困難度,工人的可靠度和工人給出的答案,本文提出了一種答案整合方案,并設(shè)計了 EM算法同時估算工人的可靠度和任務的最佳答案。由于EM算法比較耗時,本文使用熵概念來評估任務答案空間的混亂度是否趨于穩(wěn)定,當任務空間熵穩(wěn)定時,再調(diào)用EM算法,這樣既可以節(jié)約頻繁調(diào)用EM算法的時間,也可以節(jié)約有償任務征集答案的成本。真實數(shù)據(jù)集上的實驗結(jié)果表明,本文提出方案能夠在征集較少答案的情況下,實現(xiàn)較好的答案整合效果。
[Abstract]:In recent years , with the widespread popularization and development of computer networks and mobile Internet , the data volume generated annually in the world is exploding , and the mass data is of great value . This paper proposes an answer integration scheme of open - type crowdsourcing task .

【學位授予單位】:北京郵電大學
【學位級別】:博士
【學位授予年份】:2017
【分類號】:TP391.3

【參考文獻】

相關(guān)期刊論文 前4條

1 方興東;;G20互聯(lián)網(wǎng)研究發(fā)展報告——綜合篇[J];汕頭大學學報(人文社會科學版);2016年06期

2 馮劍紅;李國良;馮建華;;眾包技術(shù)研究綜述[J];計算機學報;2015年09期

3 張志強;逄居升;謝曉芹;周永;;眾包質(zhì)量控制策略及評估算法研究[J];計算機學報;2013年08期

4 鄧愛林,朱揚勇,施伯樂;基于項目評分預測的協(xié)同過濾推薦算法[J];軟件學報;2003年09期

相關(guān)博士學位論文 前1條

1 胡昭陽;眾包科學:網(wǎng)絡(luò)傳播語境下的公眾參與創(chuàng)新[D];中國科學技術(shù)大學;2015年



本文編號:1761069

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1761069.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶208c0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com