一種基于分布式路由思想的實(shí)體知識(shí)推薦模型
本文關(guān)鍵詞:一種基于分布式路由思想的實(shí)體知識(shí)推薦模型,由筆耕文化傳播整理發(fā)布。
【摘要】:大數(shù)據(jù)時(shí)代,Web信息呈爆炸性增長(zhǎng),數(shù)據(jù)量的巨大給人們帶來了新的挑戰(zhàn),傳統(tǒng)關(guān)系數(shù)據(jù)庫在海量數(shù)據(jù)存儲(chǔ)和處理上捉襟見肘,為了提高運(yùn)算性能和解決系統(tǒng)可擴(kuò)展問題,利用分布式平臺(tái)處理數(shù)據(jù)提取知識(shí)勢(shì)在必行。雖然數(shù)據(jù)量日益龐大,但其價(jià)值密度卻比較低,用戶面臨著信息過載帶來的知識(shí)獲取困擾。如何從數(shù)據(jù)海洋中挖掘知識(shí)并推薦給用戶,成為了當(dāng)今亟待解決的問題。 知識(shí)推薦是指根據(jù)用戶當(dāng)前搜索,將與之相關(guān)的知識(shí)從隱形或顯性的資源中提取并推薦的過程。知識(shí)推薦通常作為搜索引擎的一部分實(shí)現(xiàn),傳統(tǒng)的知識(shí)推薦多是基于“關(guān)鍵詞”的,鑒于這種方式的推薦不能“理解”用戶的語義,Google、Bing等搜索引擎已開始嘗試將Web中的信息按實(shí)體的方式表示、集成和推薦;趯(shí)體的搜索和推薦已成為搜索引擎競(jìng)爭(zhēng)的新領(lǐng)域,代表了未來搜索引擎的發(fā)展方向。在搜索引擎向?qū)嶓w技術(shù)革新的階段,如何利用分布式平臺(tái)存儲(chǔ)和處理數(shù)據(jù),,并基于實(shí)體給用戶進(jìn)行可視化的知識(shí)推薦是一個(gè)值得研究的綜合性課題。 基于上述背景,本文提出了一種基于分布式路由思想的實(shí)體知識(shí)推薦模型,模型能從維基百科中抽取出大量實(shí)體數(shù)據(jù),并通過分布式運(yùn)算獲取實(shí)體之間的關(guān)系,然后以關(guān)系為基礎(chǔ)為用戶進(jìn)行知識(shí)推薦。其中,數(shù)據(jù)采集過程模擬了網(wǎng)絡(luò)爬蟲的工作機(jī)制,為避免數(shù)據(jù)的重復(fù)抽取引入了Bloom Filter算法。采集好的初始數(shù)據(jù)通過預(yù)處理后轉(zhuǎn)換成實(shí)體數(shù)據(jù)保存于搭建好的Hadoop云平臺(tái)中。同時(shí)提出并采用了一種基于分布式路由思想的實(shí)體關(guān)系提取方法ERA(Entity RelationAcquisition)進(jìn)行快速、分布式的實(shí)體關(guān)系提取。ERA的核心思想是將實(shí)體模擬成路由器,讓實(shí)體按照類似動(dòng)態(tài)路由的方式自發(fā)地去探尋它與周圍實(shí)體形成的關(guān)系世界。最后對(duì)推薦結(jié)果進(jìn)行了可視化展示,并引入了力導(dǎo)向算法優(yōu)化界面布局。本文詳細(xì)描述了模型設(shè)計(jì)及實(shí)現(xiàn)方法,通過實(shí)驗(yàn)測(cè)試驗(yàn)證了模型的有效性。
【關(guān)鍵詞】:Hadoop 路由思想 實(shí)體知識(shí)推薦 網(wǎng)絡(luò)爬蟲 Bloom Filter 可視化 力導(dǎo)向算法 Processing
【學(xué)位授予單位】:四川師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP311.13;TP391.3
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-15
- 1.1 研究背景與意義9-11
- 1.2 研究現(xiàn)狀與存在的問題11-13
- 1.3 本文研究?jī)?nèi)容及結(jié)構(gòu)安排13-14
- 1.3.1 本文主要研究?jī)?nèi)容13
- 1.3.2 本文的組織結(jié)構(gòu)安排13-14
- 1.4 本章小結(jié)14-15
- 2 知識(shí)背景與相關(guān)技術(shù)15-24
- 2.1 實(shí)體相關(guān)概念概述15
- 2.2 網(wǎng)絡(luò)爬蟲 URL 去重技術(shù)概述15-16
- 2.2.1 Bloom Filter 布隆過濾器16
- 2.3 路由原理概述16-19
- 2.3.1 路由尋徑與消息轉(zhuǎn)發(fā)17
- 2.3.2 動(dòng)態(tài)路由協(xié)議17-19
- 2.4 Hadoop 概述19-20
- 2.5 數(shù)據(jù)可視化技術(shù)概述20-23
- 2.5.1 圖布局算法20-22
- 2.5.2 Processing 可視化編程語言22-23
- 2.6 本章小結(jié)23-24
- 3 基于分布式路由思想的實(shí)體知識(shí)推薦模型24-41
- 3.1 模型核心思想概述24
- 3.2 模型框架概要設(shè)計(jì)24-26
- 3.3 模型框架詳細(xì)設(shè)計(jì)26-40
- 3.3.1 數(shù)據(jù)采集器設(shè)計(jì)26-29
- 3.3.2 知識(shí)推薦器設(shè)計(jì)29-37
- 3.3.3 可視化處理器設(shè)計(jì)37-40
- 3.4 本章小結(jié)40-41
- 4 模型編碼設(shè)計(jì)與實(shí)現(xiàn)41-54
- 4.1 數(shù)據(jù)文件設(shè)計(jì)41
- 4.2 數(shù)據(jù)采集器實(shí)現(xiàn)41-44
- 4.3 知識(shí)推薦器實(shí)現(xiàn)44-48
- 4.4 可視化處理器實(shí)現(xiàn)48-53
- 4.5 本章小結(jié)53-54
- 5 模型實(shí)驗(yàn)測(cè)試與分析54-62
- 5.1 模型實(shí)驗(yàn)環(huán)境54
- 5.2 實(shí)驗(yàn)測(cè)試與分析54-61
- 5.3 本章小結(jié)61-62
- 6 總結(jié)與展望62-64
- 6.1 工作總結(jié)62-63
- 6.2 工作展望63-64
- 參考文獻(xiàn)64-67
- 致謝67
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 薛羽;李煒;沈奇威;;基于SQL-Like語言的分布式推薦系統(tǒng) [J];電信工程技術(shù)與標(biāo)準(zhǔn)化;2012年11期
2 任永功;于戈;;數(shù)據(jù)可視化技術(shù)的研究與進(jìn)展[J];計(jì)算機(jī)科學(xué);2004年12期
3 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期
4 張偉明;羅軍勇;王清賢;;網(wǎng)絡(luò)拓?fù)淇梢暬芯烤C述[J];計(jì)算機(jī)應(yīng)用研究;2008年06期
5 張建勛;古志民;鄭超;;云計(jì)算研究進(jìn)展綜述[J];計(jì)算機(jī)應(yīng)用研究;2010年02期
6 李國杰;程學(xué)旗;;大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J];中國科學(xué)院院刊;2012年06期
7 丁振國;吳寶貴;辛友強(qiáng);;基于Bloom Filter的大規(guī)模網(wǎng)頁去重策略研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年03期
8 徐健;張智雄;吳振新;;實(shí)體關(guān)系抽取的技術(shù)方法綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2008年08期
9 王彥明;奉國和;薛云;;近年來Hadoop國外研究綜述[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年06期
10 黃勛;游宏梁;于洋;;關(guān)系抽取技術(shù)研究綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2013年11期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 張丹;HDFS中文件存儲(chǔ)優(yōu)化的相關(guān)技術(shù)研究[D];南京師范大學(xué);2013年
本文關(guān)鍵詞:一種基于分布式路由思想的實(shí)體知識(shí)推薦模型,由筆耕文化傳播整理發(fā)布。
本文編號(hào):415059
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/415059.html