一種基于用戶聚合的雙詞主題模型及其在短文本推薦中的應(yīng)用研究
本文關(guān)鍵詞:一種基于用戶聚合的雙詞主題模型及其在短文本推薦中的應(yīng)用研究 出處:《南京大學(xué)》2016年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 主題模型 短文本 雙詞模型 推薦系統(tǒng)
【摘要】:近年來,隨著互聯(lián)網(wǎng)與智能移動設(shè)備的快速發(fā)展,以Twitter,微博等為代表的社交媒體應(yīng)用變得越來越受歡迎,個人網(wǎng)站,博客,社交網(wǎng)站等應(yīng)用每天會產(chǎn)生大量的信息,導(dǎo)致了嚴(yán)重的信息過載問題,用戶很難在大量產(chǎn)生的信息中找到自己感興趣的內(nèi)容。文本推薦,可針對不同用戶的具體情況給用戶推薦滿足其喜好的文本信息,成為了解決信息過載問題的有效途徑。傳統(tǒng)的文本研究方法主要集中于長文本,無法很好地適用于這類短文本的情境。為了在大量產(chǎn)生的信息中找到用戶感興趣的內(nèi)容,我們分析了社交媒體應(yīng)用中產(chǎn)生的信息的特殊性,提出了一種基于用戶聚合的雙詞主題模型,能夠有效分析短文本主題且進(jìn)行推薦。本文的具體貢獻(xiàn)如下:1.提出了一個基于主題模型的短文本推薦框架,利用用戶聚合的雙詞主題模型,既解決了用戶偏好獲取的問題,又較好地解決了新文本的主題分析問題,并利用用戶偏好與文本主題相似性來實現(xiàn)個性化的排序。2.提出基于用戶聚合的雙詞主題模型UBTM,能夠有效獲取用戶偏好和單詞的主題分布,達(dá)到短文本主題分析的目的。同時提出了基于Gibbs采樣的UBTM模型參數(shù)估計辦法,并給出短文本主題的推斷方案。3.提出了一個短文本推薦系統(tǒng),利用UBTM技術(shù)從用戶轉(zhuǎn)發(fā)或者發(fā)表的文本中獲得用戶偏好和短文本主題分布,最終從新文本中對用戶進(jìn)行TopN推薦。我們在微博和Twitter的真實數(shù)據(jù)集上進(jìn)行實驗,定性和定量地證明了UBTM模型具有更好的推薦效果。4.最后我們實現(xiàn)了一個微博原型推薦系統(tǒng),初步驗證了上述技術(shù)和方法的合理性。
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李盛瑜;何文;;一種對聊天文本進(jìn)行特征選取的方法研究[J];計算機(jī)科學(xué);2007年05期
2 蔣志方;祝翠玲;吳強(qiáng);;一個對不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計算機(jī)工程;2007年12期
3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計;2007年18期
4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機(jī)科學(xué);2002年08期
5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報;2004年09期
6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期
7 諶志群;;文本趨勢挖掘綜述[J];情報科學(xué);2010年02期
8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期
9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計算機(jī)技術(shù)與發(fā)展;2013年10期
10 陳福海;C++中用>>和<<重載實現(xiàn)文本文件的方便存取[J];現(xiàn)代計算機(jī);1997年05期
相關(guān)會議論文 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會議論文集[C];2001年
10 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
相關(guān)重要報紙文章 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年
相關(guān)博士學(xué)位論文 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年
3 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年
4 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年
5 孫曉華;基于聚類的文本機(jī)會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年
6 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
7 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學(xué);2010年
8 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年
9 李自強(qiáng);大規(guī)模文本分類的若干問題研究[D];電子科技大學(xué);2013年
10 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實現(xiàn)[D];南京信息工程大學(xué);2015年
2 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年
3 楊名陽;基于空間文本數(shù)據(jù)的k近鄰連接研究[D];上海交通大學(xué);2015年
4 李天彩;短文本信息流的會話抽取與分析技術(shù)研究[D];解放軍信息工程大學(xué);2015年
5 陳亮宇;面向微博文本的事件抽取[D];東南大學(xué);2015年
6 許慧芳;基于全覆蓋粒計算模型的文本表示和特征提取研究[D];太原理工大學(xué);2016年
7 王煒;面向網(wǎng)絡(luò)輿情的文本語義傾向性分類算法研究[D];河北工程大學(xué);2016年
8 任倚天;基于支持向量機(jī)的海量文本分類并行化技術(shù)研究[D];北京理工大學(xué);2016年
9 光順利;基于Spark的文本分類的研究[D];長春工業(yè)大學(xué);2016年
10 張高祥;基于SVM的文本信息過濾算法研究[D];吉林大學(xué);2016年
,本文編號:1334949
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1334949.html