天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于知識圖譜的人物推薦研究

發(fā)布時間:2020-12-22 12:21
  如今網(wǎng)絡上社交網(wǎng)絡發(fā)展日趨繁榮,基于社交網(wǎng)絡上的發(fā)掘人與人之間的研究越來越多,但目前大多數(shù)的研究是基于標簽和內(nèi)容方面的推薦,存在過度推薦和過度專業(yè)化的問題,并沒有考慮社交網(wǎng)絡中其它有關(guān)聯(lián)的內(nèi)容的影響,這樣很難全方面準確地推薦用戶感興趣的人。因此,本文主要知識圖譜構(gòu)建、用戶畫像構(gòu)建和人物推薦算法三個層面開展相關(guān)研究。針對構(gòu)建擁有豐富知識的知識圖譜的問題,本文提出了一種基于微軟開源數(shù)據(jù)集構(gòu)建知識圖譜的方法。目前大多數(shù)研究中構(gòu)建知識圖譜的方法大多來源單一數(shù)據(jù)通道,本文分析了AngleList網(wǎng)站與用戶之間的關(guān)系,提出了一種從AngleList出發(fā)獲取同一用戶的Twitter、Facebook、Linkedin多通道數(shù)據(jù)的方法,進而提出了基于微軟開源數(shù)據(jù)集和多通道數(shù)據(jù)集的實體識別和實體關(guān)系抽取的方法,最后提出了一種基于實體和實體關(guān)系構(gòu)建完整知識圖譜的方法,保證了知識圖譜擁有知識的完整性和豐富性。針對基于知識圖譜準確構(gòu)建用戶畫像的問題,本文提出了一種基于知識圖譜中屬于用戶的節(jié)點之間權(quán)重構(gòu)建用戶畫像方法。本文提出了一種根據(jù)用戶發(fā)表的每條短文本提取興趣主題和關(guān)鍵詞的方法,保證了細粒度地提取,這兩部分... 

【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:69 頁

【學位級別】:碩士

【部分圖文】:

基于知識圖譜的人物推薦研究


本文的研究路線圖

數(shù)據(jù)庫,地址,社交,規(guī)范化處理


圖 2-1 數(shù)據(jù)庫中表中缺失值有一些用戶的常駐地址缺失,會為后面的分析帶來困難。為了解決這個問題,對于某一通道地址的缺失,可以首先去其他通道去查找是否有這個地址,如果存在那么直接采用其它通道的地址進行填充。如果其它的數(shù)據(jù)通道也不存在這個地址,這時候考慮從用戶發(fā)表的內(nèi)容中去找到用戶的常駐地址。除此之外,還有用戶發(fā)布推文時提及的地址,這些地址可以代替用戶的常駐地址,將其抽取出來,統(tǒng)計一下出現(xiàn)頻率最高的地址,將其作為用戶的常駐地址。其次,由于社交網(wǎng)絡中一些信息的填寫比較隨意,規(guī)范性不強,通常同一個地名有很多表達方式,如一些用戶的地址很簡單,一個城市的完整名稱,但有些用戶就用的是縮寫或者是填寫了市、州、國家。針對用戶使用縮寫的情況,首先是找到城市或者州的縮寫和全稱的對照表,利用對照表進行名稱的還原。爬取到的數(shù)據(jù)當中,用戶發(fā)表的時間規(guī)范不一樣,為了方便實驗研究,將時間作一個統(tǒng)一的規(guī)范化處理,規(guī)范化處理后的結(jié)果示例:2019-06-03 12:00:00。2.1.3 數(shù)據(jù)融合首先是三通道中的用戶名的合并,三個社交網(wǎng)站通道的用戶名各不相同,

比例圖,個人主頁,數(shù)據(jù)量,用戶數(shù)據(jù)


頁也同時具有 Twitter、Facebook 和 Linkedin三個個人主頁都是從 AngleList 的網(wǎng)站上獲主頁 可以找到這三個社交網(wǎng)站的個人主頁頁作為用戶的個人主頁。分析din、Facebook、Twitter 為數(shù)據(jù)獲取通道,存儲 51381 條用戶數(shù)據(jù),其中,Linkedin 有 2132 條用戶數(shù)據(jù),及 Twitter 的 47117 條用戶數(shù)據(jù)-2 所示:知,Linkedin 和 Facbook 的用戶數(shù)據(jù)一致,而這是由于用戶的在 Twitter 中會關(guān)注一些其他數(shù)據(jù)來進行人物推薦的效果評估,這就使得 和 Facebook 比較多。

【參考文獻】:
期刊論文
[1]網(wǎng)絡爬蟲反爬策略研究[J]. 胡俊瀟,陳國偉.  科技創(chuàng)新與應用. 2019(15)
[2]一種基于主題判定的網(wǎng)頁元素XPath定位器生成方法[J]. 張弛,高建華.  小型微型計算機系統(tǒng). 2019(04)
[3]基于PageRank與HITS的改進算法的網(wǎng)頁排名優(yōu)化[J]. 庫珊,劉釗.  武漢科技大學學報. 2019(02)
[4]Python代理IP定向采集爬蟲的設計與實現(xiàn)[J]. 白楊.  中國新通信. 2019(01)
[5]一種基于Neo4j圖數(shù)據(jù)庫的模糊查詢研究與實現(xiàn)[J]. 李雪.  計算機技術(shù)與發(fā)展. 2018(11)
[6]基于TextRank的單文本關(guān)鍵字提取算法[J]. 朱必熙.  蘭州工業(yè)學院學報. 2018(03)
[7]基于TF-IDF算法的文本特征詞提取模型[J]. 米碩,孫瑞彬,明曉,趙汝程.  中國戰(zhàn)略新興產(chǎn)業(yè). 2017(40)
[8]基于Webdriver爬蟲技術(shù)的研究[J]. 賀杰.  科技廣場. 2016(10)

博士論文
[1]面向大規(guī)模知識圖譜的彈性語義推理方法研究及應用[D]. 陳曦.浙江大學 2017

碩士論文
[1]基于Selenium的網(wǎng)頁自動化操作軟件設計與實現(xiàn)[D]. 王馨亞.大連理工大學 2017
[2]基于Neo4j圖數(shù)據(jù)庫的社交網(wǎng)絡數(shù)據(jù)的研究與應用[D]. 張鳳軍.湖南大學 2016



本文編號:2931762

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2931762.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f0df2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com