大數(shù)據(jù)挖掘在圖書閱讀推薦中的應(yīng)用研究
發(fā)布時(shí)間:2021-09-11 13:18
大數(shù)據(jù)時(shí)代的來臨,給整個(gè)社會(huì)的各個(gè)領(lǐng)域都帶來了巨大的沖擊和挑戰(zhàn),大數(shù)據(jù)正在影響并改變著我們的生活。在這個(gè)信息過載、信息爆炸的時(shí)代背景下,如何快速地過濾掉冗余的信息和垃圾資源,準(zhǔn)確地找到我們需要的信息資源變得比以前更加困難。所以個(gè)性化推薦應(yīng)運(yùn)而生,它是一個(gè)有效的便捷途徑,我們可以從系統(tǒng)給我們推薦的信息中迅速找到自己需要的信息,省去了自己再去搜索的時(shí)間。同樣的,個(gè)性化的圖書推薦能夠很好地幫助讀者從圖書館海量的圖書資源中過濾掉大量的自己不感興趣的圖書,快速引導(dǎo)讀者準(zhǔn)確的獲取到自己所需要的高質(zhì)量的圖書資源,節(jié)省了讀者找書的時(shí)間,同時(shí)也能提高圖書館藏書的利用率。一般情況下,個(gè)性化推薦都由推薦系統(tǒng)產(chǎn)生。在推薦系統(tǒng)中,最關(guān)鍵的就是推薦算法,它決定了推薦效果的好壞。在眾多的推薦算法中,應(yīng)用最為廣泛的就是協(xié)同過濾算法,它主要包括基于用戶的協(xié)同過濾算法和基于物品的協(xié)同過濾算法。本文將嘗試通過對圖書借閱數(shù)據(jù)來挖掘讀者評價(jià),并利用協(xié)同過濾算法進(jìn)行個(gè)性化圖書閱讀推薦來探討將大數(shù)據(jù)挖掘技術(shù)應(yīng)用到圖書閱讀推薦中的可行性,主要研究內(nèi)容為:1、學(xué)習(xí)和研究大數(shù)據(jù)的發(fā)展和應(yīng)用的現(xiàn)狀以及推薦系統(tǒng)的研究現(xiàn)狀,學(xué)習(xí)了大數(shù)據(jù)挖掘的...
【文章來源】:寧波大學(xué)浙江省
【文章頁數(shù)】:44 頁
【學(xué)位級別】:碩士
【部分圖文】:
Hadoop項(xiàng)目結(jié)構(gòu)
p 和 Reduce 兩個(gè)過程,用戶借助這兩個(gè)過程,就可以設(shè)計(jì)出簡單的分布式程序,而大量的復(fù)雜的程序代碼,只需要編寫 Map()和 Reduce()這兩個(gè)函數(shù)即可。其主要步下 5 個(gè)步驟:(1)遍歷所有輸入數(shù)據(jù),并將輸入數(shù)據(jù)解析成 key/value 形式的鍵/值對。(2)這些 key/value 鍵/值對作為 Map()函數(shù)的輸入數(shù)據(jù),運(yùn)行結(jié)果將會(huì)生成另外的key/value 鍵/值對集合作為輸出。(3)MapReduce 編程模型依據(jù) key 值對這些中間數(shù)據(jù)進(jìn)行分組,所有相同 key 值 value 值被歸類在一起。(4)Reduce()函數(shù)以分組后的 key/value 對數(shù)據(jù)進(jìn)行 reduce,合并相同 key 值對應(yīng)的產(chǎn)生新的 key/value 對作為最終輸出。(5)將最終的輸出結(jié)果寫入到文件中進(jìn)行保存。MapReduce 的架構(gòu)采用了主/從(Master/Slave)架構(gòu),具體如圖 2.2 所示。它主要個(gè)組件組成:Client、JobTracker、TaskTracker 和 Task,其中 Task 分為 Map Task 和 Rk。用戶通過 Client 將 MapReduce 任務(wù)提交給 JobTracker,同時(shí)也可以通過它提供的來查看作業(yè)的運(yùn)行狀況。JobTracker 負(fù)責(zé)資源的監(jiān)控和任務(wù)的調(diào)度,并將任務(wù)添加等待執(zhí)行,它會(huì)將 map 任務(wù)和 reduce 任務(wù)分配到 TaskTracker。TaskTracker 會(huì)周期將資源和任務(wù)的使用、運(yùn)行情況返回給 JobTracker,與此同時(shí),還會(huì)接收 JobTrack來的命令來繼續(xù)執(zhí)行下一階段的任務(wù),處理 map 和 reduce 兩個(gè)階段的數(shù)據(jù)傳輸。
寧波大學(xué)碩士專業(yè)學(xué)位論文2.1.2 HDFS 簡介HDFS 的全稱是 Hadoop Distributed File System,是 Hadoop 中的分布式文件系統(tǒng),它最大的優(yōu)點(diǎn)就是具有高度的容錯(cuò)性,是 Hadoop 分布式計(jì)算的存儲(chǔ)基礎(chǔ),可以提供高吞吐量的數(shù)據(jù)訪問,十分適合在大數(shù)據(jù)存儲(chǔ)上的應(yīng)用。無論是的大規(guī)模的集群還是小型的廉價(jià)計(jì)算機(jī)上,HDFS 都可以部署運(yùn)行,可靠地存儲(chǔ)超大規(guī)模的數(shù)據(jù)文件,而且可以被大量的用戶訪問和讀取。HDFS 存儲(chǔ)超大文件采用的是流式數(shù)據(jù)訪問模式,即數(shù)據(jù)在被用戶一次寫入以后,就可以多次地被讀取,從而可以達(dá)到最高效率的訪問模式。HDFS 上的文件都是以塊(block)為單位,塊大小默認(rèn)為 64MB,另外 HDFS 上的文件會(huì)被劃分為塊大小的多個(gè)分塊(chunk),與其他文件系統(tǒng)略相似[15]。HDFS 的架構(gòu)也采用了主/從(Master/Slave)架構(gòu),如圖 2.3 所示。HDFS 只有一個(gè)NameNode,它是整個(gè)系統(tǒng)的管理者,它管理 HDFS 的命名空間和相關(guān)元數(shù)據(jù)信息,還負(fù)責(zé)監(jiān)控各個(gè) DataNode 的運(yùn)行狀態(tài)。HDFS 可以有多個(gè) DataNode,用戶通過 NameNode 和DataNode 進(jìn)行通信,訪問 HDFS 中的文件。每個(gè) DataNode 主要負(fù)責(zé)真實(shí)的數(shù)據(jù)存儲(chǔ),然后將數(shù)據(jù)的信息返回給 NameNode[15]。
【參考文獻(xiàn)】:
期刊論文
[1]基于Hadoop的圖書館非結(jié)構(gòu)化大數(shù)據(jù)分析與決策系統(tǒng)研究[J]. 陳臣. 情報(bào)科學(xué). 2017(01)
[2]高校圖書館圖書推薦系統(tǒng)中的稀疏性問題實(shí)證探析[J]. 張閃閃,黃鵬. 大學(xué)圖書館學(xué)報(bào). 2014(06)
[3]大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J]. 方巍,鄭玉,徐江. 南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(05)
[4]Hadoop平臺在圖書推薦應(yīng)用中的性能分析[J]. 趙彥輝,劉樹春. 現(xiàn)代情報(bào). 2014(10)
[5]淺談大數(shù)據(jù)時(shí)代公共圖書館閱讀推薦服務(wù)現(xiàn)狀[J]. 白海龍. 晉圖學(xué)刊. 2014(04)
[6]協(xié)同過濾推薦算法研究綜述[J]. 汪靜. 中國新通信. 2014(13)
[7]數(shù)字圖書館信息服務(wù)中資源推薦策略分析[J]. 熊擁軍,袁小一,崔永. 圖書館學(xué)研究. 2014(07)
[8]基于Hadoop與Mahout的協(xié)同過濾圖書推薦研究[J]. 奉國和,黃家興. 圖書情報(bào)工作. 2013(18)
[9]個(gè)性化推薦系統(tǒng)研究[J]. 顧麗敏. 無線互聯(lián)科技. 2013(08)
[10]近十年高校圖書館圖書推薦研究綜述[J]. 劉書芬. 韶關(guān)學(xué)院學(xué)報(bào). 2013(07)
碩士論文
[1]基于Mahout、Hadoop的推薦系統(tǒng)研究與實(shí)現(xiàn)[D]. 宋光曉.長江大學(xué) 2016
[2]基于大數(shù)據(jù)分析的推薦系統(tǒng)研究[D]. 房璐璐.北京郵電大學(xué) 2015
[3]基于Hadoop平臺和Mahout框架的推薦系統(tǒng)研究與實(shí)現(xiàn)[D]. 潘燕紅.浙江大學(xué) 2015
[4]基于Hadoop與Mahout推薦技術(shù)的研究與實(shí)現(xiàn)[D]. 張建平.西安電子科技大學(xué) 2014
[5]基于數(shù)據(jù)挖掘的圖書館書目推薦服務(wù)的研究[D]. 荊月敏.中北大學(xué) 2014
[6]基于協(xié)同過濾技術(shù)的圖書推薦系統(tǒng)研究[D]. 楊永權(quán).華南理工大學(xué) 2013
[7]基于Apache Mahout的推薦算法的研究與實(shí)現(xiàn)[D]. 常江.電子科技大學(xué) 2013
[8]個(gè)性化混合推薦算法的研究[D]. 張騰季.浙江大學(xué) 2013
[9]數(shù)據(jù)挖掘技術(shù)在高校圖書推薦系統(tǒng)中的應(yīng)用[D]. 劉卓.大連理工大學(xué) 2012
[10]基于Hadoop的數(shù)據(jù)挖掘算法的分析與研究[D]. 張明輝.昆明理工大學(xué) 2012
本文編號:3393069
【文章來源】:寧波大學(xué)浙江省
【文章頁數(shù)】:44 頁
【學(xué)位級別】:碩士
【部分圖文】:
Hadoop項(xiàng)目結(jié)構(gòu)
p 和 Reduce 兩個(gè)過程,用戶借助這兩個(gè)過程,就可以設(shè)計(jì)出簡單的分布式程序,而大量的復(fù)雜的程序代碼,只需要編寫 Map()和 Reduce()這兩個(gè)函數(shù)即可。其主要步下 5 個(gè)步驟:(1)遍歷所有輸入數(shù)據(jù),并將輸入數(shù)據(jù)解析成 key/value 形式的鍵/值對。(2)這些 key/value 鍵/值對作為 Map()函數(shù)的輸入數(shù)據(jù),運(yùn)行結(jié)果將會(huì)生成另外的key/value 鍵/值對集合作為輸出。(3)MapReduce 編程模型依據(jù) key 值對這些中間數(shù)據(jù)進(jìn)行分組,所有相同 key 值 value 值被歸類在一起。(4)Reduce()函數(shù)以分組后的 key/value 對數(shù)據(jù)進(jìn)行 reduce,合并相同 key 值對應(yīng)的產(chǎn)生新的 key/value 對作為最終輸出。(5)將最終的輸出結(jié)果寫入到文件中進(jìn)行保存。MapReduce 的架構(gòu)采用了主/從(Master/Slave)架構(gòu),具體如圖 2.2 所示。它主要個(gè)組件組成:Client、JobTracker、TaskTracker 和 Task,其中 Task 分為 Map Task 和 Rk。用戶通過 Client 將 MapReduce 任務(wù)提交給 JobTracker,同時(shí)也可以通過它提供的來查看作業(yè)的運(yùn)行狀況。JobTracker 負(fù)責(zé)資源的監(jiān)控和任務(wù)的調(diào)度,并將任務(wù)添加等待執(zhí)行,它會(huì)將 map 任務(wù)和 reduce 任務(wù)分配到 TaskTracker。TaskTracker 會(huì)周期將資源和任務(wù)的使用、運(yùn)行情況返回給 JobTracker,與此同時(shí),還會(huì)接收 JobTrack來的命令來繼續(xù)執(zhí)行下一階段的任務(wù),處理 map 和 reduce 兩個(gè)階段的數(shù)據(jù)傳輸。
寧波大學(xué)碩士專業(yè)學(xué)位論文2.1.2 HDFS 簡介HDFS 的全稱是 Hadoop Distributed File System,是 Hadoop 中的分布式文件系統(tǒng),它最大的優(yōu)點(diǎn)就是具有高度的容錯(cuò)性,是 Hadoop 分布式計(jì)算的存儲(chǔ)基礎(chǔ),可以提供高吞吐量的數(shù)據(jù)訪問,十分適合在大數(shù)據(jù)存儲(chǔ)上的應(yīng)用。無論是的大規(guī)模的集群還是小型的廉價(jià)計(jì)算機(jī)上,HDFS 都可以部署運(yùn)行,可靠地存儲(chǔ)超大規(guī)模的數(shù)據(jù)文件,而且可以被大量的用戶訪問和讀取。HDFS 存儲(chǔ)超大文件采用的是流式數(shù)據(jù)訪問模式,即數(shù)據(jù)在被用戶一次寫入以后,就可以多次地被讀取,從而可以達(dá)到最高效率的訪問模式。HDFS 上的文件都是以塊(block)為單位,塊大小默認(rèn)為 64MB,另外 HDFS 上的文件會(huì)被劃分為塊大小的多個(gè)分塊(chunk),與其他文件系統(tǒng)略相似[15]。HDFS 的架構(gòu)也采用了主/從(Master/Slave)架構(gòu),如圖 2.3 所示。HDFS 只有一個(gè)NameNode,它是整個(gè)系統(tǒng)的管理者,它管理 HDFS 的命名空間和相關(guān)元數(shù)據(jù)信息,還負(fù)責(zé)監(jiān)控各個(gè) DataNode 的運(yùn)行狀態(tài)。HDFS 可以有多個(gè) DataNode,用戶通過 NameNode 和DataNode 進(jìn)行通信,訪問 HDFS 中的文件。每個(gè) DataNode 主要負(fù)責(zé)真實(shí)的數(shù)據(jù)存儲(chǔ),然后將數(shù)據(jù)的信息返回給 NameNode[15]。
【參考文獻(xiàn)】:
期刊論文
[1]基于Hadoop的圖書館非結(jié)構(gòu)化大數(shù)據(jù)分析與決策系統(tǒng)研究[J]. 陳臣. 情報(bào)科學(xué). 2017(01)
[2]高校圖書館圖書推薦系統(tǒng)中的稀疏性問題實(shí)證探析[J]. 張閃閃,黃鵬. 大學(xué)圖書館學(xué)報(bào). 2014(06)
[3]大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J]. 方巍,鄭玉,徐江. 南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(05)
[4]Hadoop平臺在圖書推薦應(yīng)用中的性能分析[J]. 趙彥輝,劉樹春. 現(xiàn)代情報(bào). 2014(10)
[5]淺談大數(shù)據(jù)時(shí)代公共圖書館閱讀推薦服務(wù)現(xiàn)狀[J]. 白海龍. 晉圖學(xué)刊. 2014(04)
[6]協(xié)同過濾推薦算法研究綜述[J]. 汪靜. 中國新通信. 2014(13)
[7]數(shù)字圖書館信息服務(wù)中資源推薦策略分析[J]. 熊擁軍,袁小一,崔永. 圖書館學(xué)研究. 2014(07)
[8]基于Hadoop與Mahout的協(xié)同過濾圖書推薦研究[J]. 奉國和,黃家興. 圖書情報(bào)工作. 2013(18)
[9]個(gè)性化推薦系統(tǒng)研究[J]. 顧麗敏. 無線互聯(lián)科技. 2013(08)
[10]近十年高校圖書館圖書推薦研究綜述[J]. 劉書芬. 韶關(guān)學(xué)院學(xué)報(bào). 2013(07)
碩士論文
[1]基于Mahout、Hadoop的推薦系統(tǒng)研究與實(shí)現(xiàn)[D]. 宋光曉.長江大學(xué) 2016
[2]基于大數(shù)據(jù)分析的推薦系統(tǒng)研究[D]. 房璐璐.北京郵電大學(xué) 2015
[3]基于Hadoop平臺和Mahout框架的推薦系統(tǒng)研究與實(shí)現(xiàn)[D]. 潘燕紅.浙江大學(xué) 2015
[4]基于Hadoop與Mahout推薦技術(shù)的研究與實(shí)現(xiàn)[D]. 張建平.西安電子科技大學(xué) 2014
[5]基于數(shù)據(jù)挖掘的圖書館書目推薦服務(wù)的研究[D]. 荊月敏.中北大學(xué) 2014
[6]基于協(xié)同過濾技術(shù)的圖書推薦系統(tǒng)研究[D]. 楊永權(quán).華南理工大學(xué) 2013
[7]基于Apache Mahout的推薦算法的研究與實(shí)現(xiàn)[D]. 常江.電子科技大學(xué) 2013
[8]個(gè)性化混合推薦算法的研究[D]. 張騰季.浙江大學(xué) 2013
[9]數(shù)據(jù)挖掘技術(shù)在高校圖書推薦系統(tǒng)中的應(yīng)用[D]. 劉卓.大連理工大學(xué) 2012
[10]基于Hadoop的數(shù)據(jù)挖掘算法的分析與研究[D]. 張明輝.昆明理工大學(xué) 2012
本文編號:3393069
本文鏈接:http://sikaile.net/tushudanganlunwen/3393069.html