基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)信息過(guò)濾及推薦系統(tǒng)實(shí)現(xiàn)
發(fā)布時(shí)間:2021-10-20 16:55
隨著互聯(lián)網(wǎng)的飛速發(fā)展,信息傳遞的即時(shí)性、共享性得到了大幅度提升,人們的社交方式逐步從線下向線上遷移,線上社交網(wǎng)絡(luò)以其廣大的用戶群體、開(kāi)放的信息傳播等特性成為了人們社交的新領(lǐng)域。每天社交網(wǎng)絡(luò)上產(chǎn)生的數(shù)據(jù)高達(dá)PB級(jí),過(guò)量的數(shù)據(jù)信息導(dǎo)致社交網(wǎng)絡(luò)面臨著信息噪聲以及信息過(guò)載的問(wèn)題。即社交網(wǎng)絡(luò)上存在一些無(wú)用信息,且用戶無(wú)法立刻找到感興趣的內(nèi)容,嚴(yán)重影響了用戶的社交體驗(yàn)。針對(duì)此問(wèn)題,本文從兩個(gè)方面來(lái)進(jìn)行解決。一方面,針對(duì)信息噪聲的問(wèn)題,本文研究了信息過(guò)濾系統(tǒng)的相關(guān)技術(shù),其中基于機(jī)器學(xué)習(xí)的信息過(guò)濾方法具有準(zhǔn)確率高、速度快等優(yōu)點(diǎn),但該類(lèi)方法只利用了互信息等表面詞特征,文本特征提取方式單一,且忽略了噪聲信息的類(lèi)間差異性。針對(duì)此問(wèn)題,本文提出了一種改進(jìn)的基于機(jī)器學(xué)習(xí)的信息過(guò)濾算法。即對(duì)噪聲信息進(jìn)行精準(zhǔn)分類(lèi),根據(jù)不同的語(yǔ)言使用和分布形式將噪聲信息分為四類(lèi),每個(gè)種類(lèi)針對(duì)性地使用不同的分類(lèi)器模型,并且將表面詞特征與深度學(xué)習(xí)語(yǔ)義詞向量特征相融合,豐富了文本特征表達(dá)。經(jīng)實(shí)驗(yàn)證明,本文提出的方法在豆瓣數(shù)據(jù)上獲得了較好的過(guò)濾效果。另一方面,針對(duì)信息過(guò)載的問(wèn)題,本文研究了信息推薦系統(tǒng)的相關(guān)技術(shù),其中基于機(jī)器學(xué)習(xí)的協(xié)同過(guò)濾推...
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-4基于Bagging的集成學(xué)習(xí)框架??Bagging算法的偽代碼:??
能力較強(qiáng)[53];冢拢幔纾纾椋睿绲募蓪W(xué)習(xí)算法包括有隨機(jī)森林等,從訓(xùn)練集中進(jìn)行??子抽樣獲得每個(gè)基模型使用的子訓(xùn)練集,然后對(duì)所有基模型預(yù)測(cè)的結(jié)果進(jìn)行綜合,??產(chǎn)生最終的預(yù)測(cè)結(jié)果,流程如圖2-4所示。??廣冊(cè)箱參\????卜預(yù)測(cè)???>?子調(diào)練糶i??基模si?i?,>?"H????子訓(xùn)練集2???[Si型2?4?????-?-??X?Y?.?綜合^????蠢??????-Mill????子訓(xùn)練集n???基模型n?j?¥
征出現(xiàn)頻率不會(huì)太高,僅出現(xiàn)1次的情況較多,也就是TF的結(jié)果為1,因此TF-??IDF的值近似等于IDF的值,可以用IDF的值來(lái)代替TF-IDF的值。對(duì)文本全集??計(jì)算統(tǒng)計(jì)1DF的值,全集包括全部種類(lèi)的噪聲文本和正常文本,圖3-3顯示了??IDF權(quán)重分布。??IDF權(quán)重分布??8000???000??6C00??4C00??■??2_??q??????Mmmhmhmi??IDF{?i??1?,:2?*3?廳4?編5?鼸7?_S???〇?*?1(>??圖3-3數(shù)據(jù)集文本特征IDF權(quán)重分布圖??由圖3-3可知,IDF的值分布較為集中,IDF值高的結(jié)果較多。出現(xiàn)此結(jié)果??的主要原因應(yīng)為文本數(shù)據(jù)過(guò)于稀疏,包含特征詞x的文本數(shù)量較少,即分母??過(guò)小,則導(dǎo)致結(jié)果較高。實(shí)驗(yàn)結(jié)果表明如果使用TF-IDF作為文本特征選擇的方??法,選擇出的詞匯并不能有效地區(qū)分文本。因此本文將嘗試另外一種方法,針對(duì)??社交網(wǎng)絡(luò)信息長(zhǎng)度短、稀疏性等特點(diǎn),選擇布爾權(quán)重作為特征選擇方法。在傳統(tǒng)??的文本分類(lèi)工作中,布爾模型太過(guò)簡(jiǎn)單,不能起到區(qū)別普通常用詞和特殊詞的作??用
【參考文獻(xiàn)】:
期刊論文
[1]一種結(jié)合主題模型的推薦算法[J]. 曹占偉,胡曉鵬. 計(jì)算機(jī)應(yīng)用研究. 2019(06)
[2]個(gè)性化推薦系統(tǒng)冷啟動(dòng)問(wèn)題研究[J]. 王春才,邢暉,李英韜. 現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版). 2015(29)
[3]支持向量機(jī)核函數(shù)選擇研究與仿真[J]. 梁禮明,鐘震,陳召陽(yáng). 計(jì)算機(jī)工程與科學(xué). 2015(06)
[4]LDA-CF:一種混合協(xié)同過(guò)濾方法[J]. 廉濤,馬軍,王帥強(qiáng),崔超然. 中文信息學(xué)報(bào). 2014(02)
[5]基于神經(jīng)網(wǎng)絡(luò)的文本傾向性分析系統(tǒng)的研究[J]. 佘正煒,錢(qián)松榮. 微型電腦應(yīng)用. 2011(12)
[6]SVM分類(lèi)核函數(shù)及參數(shù)選擇比較[J]. 奉國(guó)和. 計(jì)算機(jī)工程與應(yīng)用. 2011(03)
[7]文本情感分析[J]. 趙妍妍,秦兵,劉挺. 軟件學(xué)報(bào). 2010(08)
[8]協(xié)同過(guò)濾系統(tǒng)項(xiàng)目冷啟動(dòng)的混合推薦算法[J]. 郭艷紅,鄧貴仕. 計(jì)算機(jī)工程. 2008(23)
[9]基于監(jiān)督學(xué)習(xí)的中文情感分類(lèi)技術(shù)比較研究[J]. 唐慧豐,譚松波,程學(xué)旗. 中文信息學(xué)報(bào). 2007(06)
[10]基于項(xiàng)目評(píng)分預(yù)測(cè)的協(xié)同過(guò)濾推薦算法[J]. 鄧愛(ài)林,朱揚(yáng)勇,施伯樂(lè). 軟件學(xué)報(bào). 2003(09)
本文編號(hào):3447270
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-4基于Bagging的集成學(xué)習(xí)框架??Bagging算法的偽代碼:??
能力較強(qiáng)[53];冢拢幔纾纾椋睿绲募蓪W(xué)習(xí)算法包括有隨機(jī)森林等,從訓(xùn)練集中進(jìn)行??子抽樣獲得每個(gè)基模型使用的子訓(xùn)練集,然后對(duì)所有基模型預(yù)測(cè)的結(jié)果進(jìn)行綜合,??產(chǎn)生最終的預(yù)測(cè)結(jié)果,流程如圖2-4所示。??廣冊(cè)箱參\????卜預(yù)測(cè)???>?子調(diào)練糶i??基模si?i?,>?"H????子訓(xùn)練集2???[Si型2?4?????-?-??X?Y?.?綜合^????蠢??????-Mill????子訓(xùn)練集n???基模型n?j?¥
征出現(xiàn)頻率不會(huì)太高,僅出現(xiàn)1次的情況較多,也就是TF的結(jié)果為1,因此TF-??IDF的值近似等于IDF的值,可以用IDF的值來(lái)代替TF-IDF的值。對(duì)文本全集??計(jì)算統(tǒng)計(jì)1DF的值,全集包括全部種類(lèi)的噪聲文本和正常文本,圖3-3顯示了??IDF權(quán)重分布。??IDF權(quán)重分布??8000???000??6C00??4C00??■??2_??q??????Mmmhmhmi??IDF{?i??1?,:2?*3?廳4?編5?鼸7?_S???〇?*?1(>??圖3-3數(shù)據(jù)集文本特征IDF權(quán)重分布圖??由圖3-3可知,IDF的值分布較為集中,IDF值高的結(jié)果較多。出現(xiàn)此結(jié)果??的主要原因應(yīng)為文本數(shù)據(jù)過(guò)于稀疏,包含特征詞x的文本數(shù)量較少,即分母??過(guò)小,則導(dǎo)致結(jié)果較高。實(shí)驗(yàn)結(jié)果表明如果使用TF-IDF作為文本特征選擇的方??法,選擇出的詞匯并不能有效地區(qū)分文本。因此本文將嘗試另外一種方法,針對(duì)??社交網(wǎng)絡(luò)信息長(zhǎng)度短、稀疏性等特點(diǎn),選擇布爾權(quán)重作為特征選擇方法。在傳統(tǒng)??的文本分類(lèi)工作中,布爾模型太過(guò)簡(jiǎn)單,不能起到區(qū)別普通常用詞和特殊詞的作??用
【參考文獻(xiàn)】:
期刊論文
[1]一種結(jié)合主題模型的推薦算法[J]. 曹占偉,胡曉鵬. 計(jì)算機(jī)應(yīng)用研究. 2019(06)
[2]個(gè)性化推薦系統(tǒng)冷啟動(dòng)問(wèn)題研究[J]. 王春才,邢暉,李英韜. 現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版). 2015(29)
[3]支持向量機(jī)核函數(shù)選擇研究與仿真[J]. 梁禮明,鐘震,陳召陽(yáng). 計(jì)算機(jī)工程與科學(xué). 2015(06)
[4]LDA-CF:一種混合協(xié)同過(guò)濾方法[J]. 廉濤,馬軍,王帥強(qiáng),崔超然. 中文信息學(xué)報(bào). 2014(02)
[5]基于神經(jīng)網(wǎng)絡(luò)的文本傾向性分析系統(tǒng)的研究[J]. 佘正煒,錢(qián)松榮. 微型電腦應(yīng)用. 2011(12)
[6]SVM分類(lèi)核函數(shù)及參數(shù)選擇比較[J]. 奉國(guó)和. 計(jì)算機(jī)工程與應(yīng)用. 2011(03)
[7]文本情感分析[J]. 趙妍妍,秦兵,劉挺. 軟件學(xué)報(bào). 2010(08)
[8]協(xié)同過(guò)濾系統(tǒng)項(xiàng)目冷啟動(dòng)的混合推薦算法[J]. 郭艷紅,鄧貴仕. 計(jì)算機(jī)工程. 2008(23)
[9]基于監(jiān)督學(xué)習(xí)的中文情感分類(lèi)技術(shù)比較研究[J]. 唐慧豐,譚松波,程學(xué)旗. 中文信息學(xué)報(bào). 2007(06)
[10]基于項(xiàng)目評(píng)分預(yù)測(cè)的協(xié)同過(guò)濾推薦算法[J]. 鄧愛(ài)林,朱揚(yáng)勇,施伯樂(lè). 軟件學(xué)報(bào). 2003(09)
本文編號(hào):3447270
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3447270.html
最近更新
教材專(zhuān)著