基于暗數(shù)據(jù)的服務(wù)推薦算法研究
發(fā)布時(shí)間:2021-11-15 17:28
當(dāng)今社會(huì)最為火熱的詞匯就是大數(shù)據(jù),它不僅受到學(xué)術(shù)界的研究,也被政府所追捧,更得到商界的高度重視。整個(gè)社會(huì)進(jìn)入了“大數(shù)據(jù)”時(shí)代,數(shù)據(jù)似乎成了促進(jìn)社會(huì)發(fā)展的最強(qiáng)大動(dòng)力。本文通過介紹了具有高比例大數(shù)據(jù)且價(jià)值巨大但難以收集,分析和應(yīng)用的暗數(shù)據(jù),著重分析了推薦暗數(shù)據(jù)應(yīng)用的方式和方法,同時(shí),互聯(lián)網(wǎng)上每天都有爆炸式增長(zhǎng)的信息,個(gè)性化的服務(wù)推薦系統(tǒng)可以讓用戶快捷、方便地得到想要的信息。本課題采用用戶移動(dòng)端相冊(cè)作為暗數(shù)據(jù)集。首先,采用實(shí)體關(guān)系抽取的辦法將非結(jié)構(gòu)化的短文本構(gòu)建成三元組的形式,然后通過知識(shí)融合的辦法將相似或者相同節(jié)點(diǎn)進(jìn)行融合,建立知識(shí)圖譜。接著使用改進(jìn)的TextRank算法得到的關(guān)鍵詞在經(jīng)過Word2Vec訓(xùn)練后得到的主題模型中表示為詞向量,將其中的待消歧實(shí)體與WikiPedia語(yǔ)料庫(kù)得到候選實(shí)體集進(jìn)行相似度對(duì)比,得到最終的候選實(shí)體,完成實(shí)體消歧。通過與外部知識(shí)庫(kù)融合,得到本地個(gè)性化知識(shí)庫(kù)。并使用PTransE算法對(duì)關(guān)系路徑進(jìn)行三元組構(gòu)建,將實(shí)體和關(guān)系嵌入到低維空間中。通過AP算法,對(duì)現(xiàn)有知識(shí)圖譜邊的關(guān)系進(jìn)行聚類,實(shí)現(xiàn)對(duì)知識(shí)圖譜的補(bǔ)全和預(yù)測(cè)。并基于以上研究成果,設(shè)計(jì)并開發(fā)了基于暗數(shù)據(jù)的服務(wù)推...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
世界各國(guó)的黑暗數(shù)據(jù)占比圖
15. end for;16. return V圖2-1 用戶興趣主體與關(guān)鍵字的關(guān)系2.4 數(shù)據(jù)存儲(chǔ)本課題對(duì)暗數(shù)據(jù)本體存儲(chǔ)使用NOSQL圖形數(shù)據(jù)庫(kù)Neo4j,由于Neo4j具有良好的圖形數(shù)據(jù)模型設(shè)計(jì),速度非?。對(duì)于連接的數(shù)據(jù)操作,neo4j的查詢速度遠(yuǎn)快于傳統(tǒng)數(shù)據(jù)庫(kù)。Neo4j服務(wù)器可以承載億級(jí)量級(jí)的Node和Relation。即使節(jié)點(diǎn)不能滿足數(shù)據(jù)需求,也可以通過分布式集群進(jìn)行操作。Neo4j通過點(diǎn)Node和邊Relation進(jìn)行數(shù)據(jù)存儲(chǔ)。其中Node與Relation是一對(duì)多關(guān)系,即Node之間可以有多個(gè)Relation,但一個(gè)Relation只能連接一對(duì)Node。本課題中對(duì)存儲(chǔ)在Neo4j中的Entity和Relation的存儲(chǔ)形式如下:1)Entity{concept:xxx,NodeId:xxx }2)Relation{relation:xxx,Id:xxx }2.5 實(shí)驗(yàn)分析2.5.1 暗數(shù)據(jù)知識(shí)抽取效果分析本體構(gòu)建從暗數(shù)據(jù)集短文本中進(jìn)行實(shí)體關(guān)系抽取得到Entity和Realation來構(gòu)成三元組(head
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文的相似性。Word2Vec將神經(jīng)網(wǎng)絡(luò)與概率模型相結(jié)合,實(shí)現(xiàn)了CBOW(連續(xù)詞袋模型)和Skip-gram(連續(xù)Skip-gram模型)。如圖3-1所示:CBOW根據(jù)上下文語(yǔ)義環(huán)境預(yù)測(cè)單詞,完成補(bǔ)全,而Skip-gram與CBOW相反,它通過當(dāng)前單詞推測(cè)上下文單詞的語(yǔ)義。
【參考文獻(xiàn)】:
期刊論文
[1]基于依存句法分析的社會(huì)媒體文本挖掘方法——以飲食習(xí)慣特色分析為例[J]. 任彬,車萬(wàn)翔,劉挺. 中文信息學(xué)報(bào). 2014(06)
[2]按需動(dòng)態(tài)組織的知件庫(kù)系統(tǒng)[J]. 施心悅,魯揚(yáng)揚(yáng),李戈,金芝. 計(jì)算機(jī)科學(xué)與探索. 2015(06)
[3]一種目標(biāo)感知的可配置業(yè)務(wù)流程分析方法[J]. 黃貽望,何克清,馮在文,黃穎. 電子學(xué)報(bào). 2014(10)
[4]一種面向社區(qū)型問句檢索的主題翻譯模型[J]. 張偉男,張宇,劉挺. 計(jì)算機(jī)學(xué)報(bào). 2015(02)
[5]基于概率主題模型的物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)[J]. 魏強(qiáng),金芝,許焱. 軟件學(xué)報(bào). 2014(08)
[6]問題驅(qū)動(dòng)的需求捕獲中問題分析與解決技術(shù)研究[J]. 王波,趙海燕,張偉,金芝,梅宏. 計(jì)算機(jī)研究與發(fā)展. 2013(07)
[7]資源自適應(yīng)的實(shí)時(shí)新聞推薦系統(tǒng)[J]. 唐朝. 計(jì)算機(jī)工程與設(shè)計(jì). 2010(20)
[8]基于數(shù)據(jù)場(chǎng)的大規(guī)模本體映射[J]. 仲茜,李涓子,唐杰,周立柱. 計(jì)算機(jī)學(xué)報(bào). 2010(06)
本文編號(hào):3497208
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
世界各國(guó)的黑暗數(shù)據(jù)占比圖
15. end for;16. return V圖2-1 用戶興趣主體與關(guān)鍵字的關(guān)系2.4 數(shù)據(jù)存儲(chǔ)本課題對(duì)暗數(shù)據(jù)本體存儲(chǔ)使用NOSQL圖形數(shù)據(jù)庫(kù)Neo4j,由于Neo4j具有良好的圖形數(shù)據(jù)模型設(shè)計(jì),速度非?。對(duì)于連接的數(shù)據(jù)操作,neo4j的查詢速度遠(yuǎn)快于傳統(tǒng)數(shù)據(jù)庫(kù)。Neo4j服務(wù)器可以承載億級(jí)量級(jí)的Node和Relation。即使節(jié)點(diǎn)不能滿足數(shù)據(jù)需求,也可以通過分布式集群進(jìn)行操作。Neo4j通過點(diǎn)Node和邊Relation進(jìn)行數(shù)據(jù)存儲(chǔ)。其中Node與Relation是一對(duì)多關(guān)系,即Node之間可以有多個(gè)Relation,但一個(gè)Relation只能連接一對(duì)Node。本課題中對(duì)存儲(chǔ)在Neo4j中的Entity和Relation的存儲(chǔ)形式如下:1)Entity{concept:xxx,NodeId:xxx }2)Relation{relation:xxx,Id:xxx }2.5 實(shí)驗(yàn)分析2.5.1 暗數(shù)據(jù)知識(shí)抽取效果分析本體構(gòu)建從暗數(shù)據(jù)集短文本中進(jìn)行實(shí)體關(guān)系抽取得到Entity和Realation來構(gòu)成三元組(head
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文的相似性。Word2Vec將神經(jīng)網(wǎng)絡(luò)與概率模型相結(jié)合,實(shí)現(xiàn)了CBOW(連續(xù)詞袋模型)和Skip-gram(連續(xù)Skip-gram模型)。如圖3-1所示:CBOW根據(jù)上下文語(yǔ)義環(huán)境預(yù)測(cè)單詞,完成補(bǔ)全,而Skip-gram與CBOW相反,它通過當(dāng)前單詞推測(cè)上下文單詞的語(yǔ)義。
【參考文獻(xiàn)】:
期刊論文
[1]基于依存句法分析的社會(huì)媒體文本挖掘方法——以飲食習(xí)慣特色分析為例[J]. 任彬,車萬(wàn)翔,劉挺. 中文信息學(xué)報(bào). 2014(06)
[2]按需動(dòng)態(tài)組織的知件庫(kù)系統(tǒng)[J]. 施心悅,魯揚(yáng)揚(yáng),李戈,金芝. 計(jì)算機(jī)科學(xué)與探索. 2015(06)
[3]一種目標(biāo)感知的可配置業(yè)務(wù)流程分析方法[J]. 黃貽望,何克清,馮在文,黃穎. 電子學(xué)報(bào). 2014(10)
[4]一種面向社區(qū)型問句檢索的主題翻譯模型[J]. 張偉男,張宇,劉挺. 計(jì)算機(jī)學(xué)報(bào). 2015(02)
[5]基于概率主題模型的物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)[J]. 魏強(qiáng),金芝,許焱. 軟件學(xué)報(bào). 2014(08)
[6]問題驅(qū)動(dòng)的需求捕獲中問題分析與解決技術(shù)研究[J]. 王波,趙海燕,張偉,金芝,梅宏. 計(jì)算機(jī)研究與發(fā)展. 2013(07)
[7]資源自適應(yīng)的實(shí)時(shí)新聞推薦系統(tǒng)[J]. 唐朝. 計(jì)算機(jī)工程與設(shè)計(jì). 2010(20)
[8]基于數(shù)據(jù)場(chǎng)的大規(guī)模本體映射[J]. 仲茜,李涓子,唐杰,周立柱. 計(jì)算機(jī)學(xué)報(bào). 2010(06)
本文編號(hào):3497208
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3497208.html
最近更新
教材專著