基于Good-Turing平滑改進(jìn)的推薦算法在財(cái)經(jīng)類新聞個(gè)性化推薦中的實(shí)踐
發(fā)布時(shí)間:2021-10-22 11:33
在信息爆炸增長(zhǎng)的大數(shù)據(jù)時(shí)代,人們的生活節(jié)奏越來(lái)越快。為了滿足人們利用通勤、午休等碎片化時(shí)間通過(guò)移動(dòng)端快速獲取對(duì)自己有效信息的需求,新聞推薦系統(tǒng)應(yīng)運(yùn)而生。新聞推薦改變了以往人工推薦為主的傳播方式,使得用戶在繁忙的日常工作中能節(jié)省閱讀成本,提高自身效率。在經(jīng)濟(jì)高速增長(zhǎng)的今天,人們對(duì)金融越來(lái)越關(guān)注,對(duì)投資理財(cái)越來(lái)越重視。投資類APP為了利用用戶數(shù)據(jù)的多維度特有優(yōu)勢(shì),實(shí)現(xiàn)智能投顧業(yè)務(wù)模式的差異化競(jìng)爭(zhēng),引入新聞推薦系統(tǒng),實(shí)現(xiàn)用戶的個(gè)性化財(cái)經(jīng)新聞推薦和資產(chǎn)推薦。相比于綜合類新聞需要挖掘用戶潛在興趣偏好、提高用戶閱讀的廣泛度,財(cái)經(jīng)投資類新聞更注重及時(shí)為用戶進(jìn)行信息披露,指導(dǎo)用戶對(duì)持倉(cāng)的標(biāo)的物(如股票、期貨)及時(shí)調(diào)整投資操作。因此,考慮到我們的應(yīng)用場(chǎng)景,基于內(nèi)容的推薦相比于協(xié)同過(guò)濾更合適。但傳統(tǒng)的基于內(nèi)容的推薦算法依然存在一些問(wèn)題。本文主要研究工作包括:(1)在對(duì)新聞進(jìn)行內(nèi)容向量化時(shí),需要構(gòu)建一個(gè)詞匯表,統(tǒng)一新聞的向量維度。傳統(tǒng)基于內(nèi)容的推薦算法是對(duì)實(shí)驗(yàn)集新聞進(jìn)行分詞、提取關(guān)鍵詞,取關(guān)鍵字的并集構(gòu)建詞匯表(稱為原始詞匯表)。該方法構(gòu)建的詞匯表存在局限性,不能很好揭示測(cè)試集新聞的主題,因?yàn)閷?duì)于一些熱門(mén)金...
【文章來(lái)源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:46 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1推薦系統(tǒng)架構(gòu)圖??如圖2-1所示,完整的推薦系統(tǒng)主要包括數(shù)據(jù)生成、特征提取、召回模塊、排??
碩士學(xué)位論文??MASTER'S?THESIS??2.3.1算法流程??^?■?&??|?Item??I—_——^??y???內(nèi)容分析??”?????,-、、??CZ±D|?,〇?〇?N??Kem內(nèi)容?>?計(jì)莒鉬關(guān)性?>?排序??^?User?1??',星庫(kù)??A??用戶分折?H??丨模型??牛??—?用戶行為數(shù)據(jù)??圖2-2基于內(nèi)容的推薦邏輯圖??基于內(nèi)容的推薦過(guò)程包括以下三個(gè)步驟:??第一步,內(nèi)容分析。抽取出每個(gè)物品(々ew)的特征屬性。常用的方法是對(duì)新??聞文章進(jìn)行分詞,利用信息檢索中的7F-2DF計(jì)算每個(gè)詞對(duì)應(yīng)的權(quán)重,選取關(guān)鍵詞??及其權(quán)重對(duì)新聞進(jìn)行向量化。為了后續(xù)計(jì)算相似度,需要對(duì)新聞向量統(tǒng)一維度,這??時(shí)就需要構(gòu)建詞匯表。傳統(tǒng)方法取所有新聞的關(guān)鍵詞的并集作為詞匯表,如此,每??篇新聞都可以用詞匯表構(gòu)建出維度一致的向量。??第二步,用戶分析。利用一個(gè)用戶的歷史行為數(shù)據(jù),即過(guò)去對(duì)//em的喜歡或不??喜歡記錄,學(xué)習(xí)出該用戶的興趣偏好特征。根據(jù)用戶過(guò)去喜歡的新聞文章來(lái)刻畫(huà)出??該用戶的特征向量。通常對(duì)用戶喜歡的所有文章向量進(jìn)行加權(quán)作為該用戶的特征向??量,向量維度依然取決于詞匯表長(zhǎng)度。??第三步,生成推薦列表。有了內(nèi)容向量和用戶特征向量,運(yùn)用余弦相似度計(jì)算??10??
碩士學(xué)位論文??MASTER'S?THESIS??未看見(jiàn)事件??i?^?',"'?,?、?X?w?wv??--?置,Z的■量??\?'/?K?二。L,??圖3-1?Good-Turing基本原理圖??下面給出Good-rw/?g的算法公式,其中涉及的符號(hào)含義為:??r:某個(gè)詞匯出現(xiàn)的頻數(shù)??A^:出現(xiàn)次數(shù)為r的詞匯個(gè)數(shù)??TV:所有詞匯出現(xiàn)的總次數(shù),有#?=?;^r%??r??r、Good?-?rwr/?<g■平滑計(jì)數(shù)??則有/=(r+i)l±i??K??下面證明經(jīng)Go〇J-rWn>^平滑后所有詞匯概率和為1。根據(jù)以上假定,引入慫??表示一個(gè)詞匯出現(xiàn)r次的概率,則&的估計(jì)為:??->?1?N??沒(méi)=丄(r?+?l)i^iL??r?N?Nr??對(duì)所有詞匯概率求和:??21??
【參考文獻(xiàn)】:
期刊論文
[1]基于詞袋模型和TF-IDF的短文本分類研究[J]. 黃春梅,王松磊. 軟件工程. 2020(03)
[2]個(gè)性化推薦系統(tǒng)綜述[J]. 張宇航,姚文娟,姜姍. 價(jià)值工程. 2020(02)
[3]推薦系統(tǒng)研究綜述[J]. 周萬(wàn)珍,曹迪,許云峰,劉濱. 河北科技大學(xué)學(xué)報(bào). 2020(01)
[4]新媒體網(wǎng)絡(luò)下新聞傳播的長(zhǎng)尾效應(yīng)[J]. 趙依寧. 科技傳播. 2020(01)
[5]基于內(nèi)容的新聞推薦系統(tǒng)研究綜述[J]. 劉維超,楊有,余平. 福建電腦. 2019(09)
[6]個(gè)性化新聞推薦算法的技術(shù)解讀與價(jià)值探討[J]. 陳昌鳳,師文. 中國(guó)編輯. 2018(10)
[7]基于局部拉普拉斯算子的災(zāi)后建筑物損毀檢測(cè)[J]. 李強(qiáng),陶超,梁浩,鄒崢嶸. 測(cè)繪與空間地理信息. 2018(05)
[8]塊對(duì)角拉普拉斯約束的平滑聚類算法[J]. 鄭建煒,朱文博,王萬(wàn)良,陳婉君. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2018(01)
[9]推薦系統(tǒng)架構(gòu)設(shè)計(jì)研究[J]. 王慶福. 信息通信. 2016(07)
[10]個(gè)性化推薦系統(tǒng)評(píng)測(cè)指標(biāo)與實(shí)驗(yàn)方法研究[J]. 吳海霞,何苑,路璐. 晉中學(xué)院學(xué)報(bào). 2015(03)
碩士論文
[1]中國(guó)股票市場(chǎng)波動(dòng)體制變換研究[D]. 張?zhí)灬?閩南師范大學(xué) 2019
[2]基于自然語(yǔ)言處理的互聯(lián)網(wǎng)輿情高危信息處理模塊的研究[D]. 郝云飛.內(nèi)蒙古大學(xué) 2019
[3]基于Python的彝文詞典分詞技術(shù)研究[D]. 阿別木呷.西南民族大學(xué) 2018
本文編號(hào):3451016
【文章來(lái)源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:46 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1推薦系統(tǒng)架構(gòu)圖??如圖2-1所示,完整的推薦系統(tǒng)主要包括數(shù)據(jù)生成、特征提取、召回模塊、排??
碩士學(xué)位論文??MASTER'S?THESIS??2.3.1算法流程??^?■?&??|?Item??I—_——^??y???內(nèi)容分析??”?????,-、、??CZ±D|?,〇?〇?N??Kem內(nèi)容?>?計(jì)莒鉬關(guān)性?>?排序??^?User?1??',星庫(kù)??A??用戶分折?H??丨模型??牛??—?用戶行為數(shù)據(jù)??圖2-2基于內(nèi)容的推薦邏輯圖??基于內(nèi)容的推薦過(guò)程包括以下三個(gè)步驟:??第一步,內(nèi)容分析。抽取出每個(gè)物品(々ew)的特征屬性。常用的方法是對(duì)新??聞文章進(jìn)行分詞,利用信息檢索中的7F-2DF計(jì)算每個(gè)詞對(duì)應(yīng)的權(quán)重,選取關(guān)鍵詞??及其權(quán)重對(duì)新聞進(jìn)行向量化。為了后續(xù)計(jì)算相似度,需要對(duì)新聞向量統(tǒng)一維度,這??時(shí)就需要構(gòu)建詞匯表。傳統(tǒng)方法取所有新聞的關(guān)鍵詞的并集作為詞匯表,如此,每??篇新聞都可以用詞匯表構(gòu)建出維度一致的向量。??第二步,用戶分析。利用一個(gè)用戶的歷史行為數(shù)據(jù),即過(guò)去對(duì)//em的喜歡或不??喜歡記錄,學(xué)習(xí)出該用戶的興趣偏好特征。根據(jù)用戶過(guò)去喜歡的新聞文章來(lái)刻畫(huà)出??該用戶的特征向量。通常對(duì)用戶喜歡的所有文章向量進(jìn)行加權(quán)作為該用戶的特征向??量,向量維度依然取決于詞匯表長(zhǎng)度。??第三步,生成推薦列表。有了內(nèi)容向量和用戶特征向量,運(yùn)用余弦相似度計(jì)算??10??
碩士學(xué)位論文??MASTER'S?THESIS??未看見(jiàn)事件??i?^?',"'?,?、?X?w?wv??--?置,Z的■量??\?'/?K?二。L,??圖3-1?Good-Turing基本原理圖??下面給出Good-rw/?g的算法公式,其中涉及的符號(hào)含義為:??r:某個(gè)詞匯出現(xiàn)的頻數(shù)??A^:出現(xiàn)次數(shù)為r的詞匯個(gè)數(shù)??TV:所有詞匯出現(xiàn)的總次數(shù),有#?=?;^r%??r??r、Good?-?rwr/?<g■平滑計(jì)數(shù)??則有/=(r+i)l±i??K??下面證明經(jīng)Go〇J-rWn>^平滑后所有詞匯概率和為1。根據(jù)以上假定,引入慫??表示一個(gè)詞匯出現(xiàn)r次的概率,則&的估計(jì)為:??->?1?N??沒(méi)=丄(r?+?l)i^iL??r?N?Nr??對(duì)所有詞匯概率求和:??21??
【參考文獻(xiàn)】:
期刊論文
[1]基于詞袋模型和TF-IDF的短文本分類研究[J]. 黃春梅,王松磊. 軟件工程. 2020(03)
[2]個(gè)性化推薦系統(tǒng)綜述[J]. 張宇航,姚文娟,姜姍. 價(jià)值工程. 2020(02)
[3]推薦系統(tǒng)研究綜述[J]. 周萬(wàn)珍,曹迪,許云峰,劉濱. 河北科技大學(xué)學(xué)報(bào). 2020(01)
[4]新媒體網(wǎng)絡(luò)下新聞傳播的長(zhǎng)尾效應(yīng)[J]. 趙依寧. 科技傳播. 2020(01)
[5]基于內(nèi)容的新聞推薦系統(tǒng)研究綜述[J]. 劉維超,楊有,余平. 福建電腦. 2019(09)
[6]個(gè)性化新聞推薦算法的技術(shù)解讀與價(jià)值探討[J]. 陳昌鳳,師文. 中國(guó)編輯. 2018(10)
[7]基于局部拉普拉斯算子的災(zāi)后建筑物損毀檢測(cè)[J]. 李強(qiáng),陶超,梁浩,鄒崢嶸. 測(cè)繪與空間地理信息. 2018(05)
[8]塊對(duì)角拉普拉斯約束的平滑聚類算法[J]. 鄭建煒,朱文博,王萬(wàn)良,陳婉君. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2018(01)
[9]推薦系統(tǒng)架構(gòu)設(shè)計(jì)研究[J]. 王慶福. 信息通信. 2016(07)
[10]個(gè)性化推薦系統(tǒng)評(píng)測(cè)指標(biāo)與實(shí)驗(yàn)方法研究[J]. 吳海霞,何苑,路璐. 晉中學(xué)院學(xué)報(bào). 2015(03)
碩士論文
[1]中國(guó)股票市場(chǎng)波動(dòng)體制變換研究[D]. 張?zhí)灬?閩南師范大學(xué) 2019
[2]基于自然語(yǔ)言處理的互聯(lián)網(wǎng)輿情高危信息處理模塊的研究[D]. 郝云飛.內(nèi)蒙古大學(xué) 2019
[3]基于Python的彝文詞典分詞技術(shù)研究[D]. 阿別木呷.西南民族大學(xué) 2018
本文編號(hào):3451016
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3451016.html
最近更新
教材專著