基于云平臺的知識專家圖譜的研究
本文關鍵詞:基于云平臺的知識專家圖譜的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著科學的發(fā)展和工程水平的提高,互聯(lián)網(wǎng)數(shù)據(jù)量也在增長,傳統(tǒng)單機處理方式已經(jīng)不能滿足,對于網(wǎng)站整體運行情況的分析有了更多的分析角度和更精確的分析方法,本選題的研究目的即從一種更優(yōu)的視角出發(fā)。大數(shù)據(jù)時代背景下,各種文本數(shù)據(jù)正大量地出現(xiàn)在人們的日常生活中,本文針對文本摘要、參考文獻、關鍵詞等多維度數(shù)據(jù)挖掘,進行整理推薦文本信息,以便提高讀者閱讀效率與質(zhì)量。本文整體思想是先對文本進行靜態(tài)聚類,使得文本信息自動歸檔,再基于用戶動態(tài)的瀏覽過程做關聯(lián)規(guī)則分析,得到動態(tài)文本數(shù)據(jù)頻繁項集,最后將頻繁項集在聚類結果中分析找到其關聯(lián)規(guī)則,以提高文本信息查詢的效率,具有非常重要的應用前景與研究意義。引用Hadoop實驗環(huán)境平臺,在現(xiàn)有的聚類算法基礎上做出改進,提出了一種基于權值矩陣的FP-Growth關聯(lián)規(guī)則,通過改進的關聯(lián)算法對文獻作者信息挖掘過程的處理時間及隱含信息的挖掘程度等指標進行實驗,改進算法性能和時空間效率,最終得到更有效、更精準的頻繁項集,以及通過改進了的K-means聚類算法,找出相互關聯(lián)的文獻作者,獲得參考文獻作者的知識專家圖譜。
【關鍵詞】:數(shù)據(jù)挖掘 云平臺 聚類 關聯(lián)規(guī)則 大數(shù)據(jù)
【學位授予單位】:南京郵電大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP393.09;TP391.1
【目錄】:
- 摘要4-5
- abstract5-8
- 專用術語注釋表8-9
- 第一章 緒論9-15
- 1.1 課題研究背景9-11
- 1.1.1 選題背景9-10
- 1.1.2 選題意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-12
- 1.2.1 數(shù)據(jù)挖掘11
- 1.2.2 知識專家圖譜11-12
- 1.3 論文研究內(nèi)容12-13
- 1.4 論文組織結構13-15
- 第二章 云平臺和數(shù)據(jù)挖掘相關背景知識介紹15-30
- 2.1 MapReduce相關技術介紹15-17
- 2.1.1 MapReduce技術的提出15
- 2.1.2 MapReduce編程模型15-17
- 2.2 與其他并行計算技術的比較17-19
- 2.2.1 與中間件技術的比較17
- 2.2.2 與網(wǎng)格計算模型的比較17-18
- 2.2.3 與P2P計算模型的比較18
- 2.2.4 與Volunteer計算模型的比較18-19
- 2.3 文本聚類相關技術19-23
- 2.3.1 文本聚類19
- 2.3.2 文本表現(xiàn)模型19-20
- 2.3.3 聚類算法概述20-22
- 2.3.4 聚類質(zhì)量評價指標22-23
- 2.4 文本關聯(lián)規(guī)則相關技術23-29
- 2.4.1 關聯(lián)規(guī)則定義23-24
- 2.4.2 頻繁項集挖掘算法簡介24-25
- 2.4.3 FP樹表示法25-27
- 2.4.4 FP增長算法27-29
- 2.5 本章小結29-30
- 第三章 云平臺的知識聚類30-47
- 3.1 數(shù)據(jù)集采集31-33
- 3.2 文本預處理33-37
- 3.2.1 中文分詞33-34
- 3.2.2 停用詞過濾34-35
- 3.2.3 多維特征選擇35
- 3.2.4 特征值權值計算35-36
- 3.2.5 向量空間模型VSM36-37
- 3.3 改進K-means聚類算法37-40
- 3.3.1 K-means算法思想37-38
- 3.3.2 K-means算法步驟38
- 3.3.3 改進算法38-40
- 3.4 基于云平臺算法設計40-45
- 3.4.1 MapReduce模型算法設計40-44
- 3.4.2 算法流程44-45
- 3.5 本章小結45-47
- 第四章 云平臺的知識關聯(lián)47-59
- 4.1 關聯(lián)規(guī)則挖掘的相關工作47-48
- 4.1.1 瀏覽軌跡日志信息47-48
- 4.1.2 知識專家關聯(lián)挖掘48
- 4.2 知識專家關聯(lián)規(guī)則挖掘48-49
- 4.3 基于用戶瀏覽分析的時間因子49-50
- 4.3.1 用戶訪問頁面時間49-50
- 4.3.2 用戶瀏覽描述50
- 4.4 基于矩陣的FP-Growth改進算法50-55
- 4.4.1 矩陣的生成51-52
- 4.4.2 由權值矩陣生成FP-tree52-54
- 4.4.3 數(shù)據(jù)庫動態(tài)變化更新54
- 4.4.4 最小支持度變化更新54-55
- 4.4.5 在聚類中篩選55
- 4.5 基于云平臺算法設計55-58
- 4.5.1 算法步驟55
- 4.5.2 MapReduce模型并行化設計55-58
- 4.6 本章小結58-59
- 第五章 云平臺實驗結果及性能分析59-68
- 5.1 云平臺環(huán)境59-62
- 5.1.1 硬件環(huán)境59-60
- 5.1.2 軟件環(huán)境60
- 5.1.3 Hadoop平臺60-62
- 5.2 實驗及性能分析62-67
- 5.2.1 聚類實驗結果62-64
- 5.2.2 聚類的實驗評價64-65
- 5.2.3 關聯(lián)實驗結果與分析65-67
- 5.3 知識專家圖譜推送67
- 5.4 本章小結67-68
- 第六章 總結與展望68-70
- 6.1 總結68
- 6.2 展望68-70
- 參考文獻70-72
- 致謝72
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 肖基毅,鄒臘梅,劉豐;頻繁項集挖掘算法研究[J];情報雜志;2005年11期
2 蔡進;薛永生;張東站;;基于分區(qū)分類法快速更新頻繁項集[J];計算機工程與應用;2007年09期
3 胡學鋼;徐勇;王德興;張晶;;基于多剪枝格的頻繁項集表示與挖掘[J];合肥工業(yè)大學學報(自然科學版);2007年04期
4 胡學鋼;劉衛(wèi);王德興;;基于剪枝概念格模型的頻繁項集表示及挖掘[J];合肥工業(yè)大學學報(自然科學版);2007年09期
5 欒鸞;李云;盛艷;;多關系頻繁項集的并行獲取[J];微電子學與計算機;2008年10期
6 李彥偉;戴月明;王金鑫;;一種挖掘加權頻繁項集的改進算法[J];計算機工程與應用;2011年15期
7 陳立潮,張建華,劉玉樹;提高頻繁項集挖掘算法效率的方法研究[J];計算機工程與應用;2002年10期
8 朱玉全,孫志揮,趙傳申;快速更新頻繁項集[J];計算機研究與發(fā)展;2003年01期
9 宋寶莉;張幫華;何炎祥;朱驍峰;;帶有多個可轉(zhuǎn)化約束的頻繁項集挖掘算法[J];計算機科學;2003年12期
10 王自強,馮博琴;頻繁項集的簡潔表示方法研究[J];系統(tǒng)工程理論與實踐;2004年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 欒鸞;李云;盛艷;;多關系頻繁項集的并行獲取[A];2008年全國開放式分布與并行計算機學術會議論文集(下冊)[C];2008年
2 楊曉明;王晨;汪衛(wèi);張守志;施伯樂;;頻繁項集的精簡表達與還原問題研究[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年
3 鄧傳國;;頻繁項集挖掘與學生素質(zhì)測評應用研究[A];2007系統(tǒng)仿真技術及其應用學術會議論文集[C];2007年
4 李彤巖;李興明;;基于分布式關聯(lián)規(guī)則挖掘的告警相關性研究[A];2007通信理論與技術新發(fā)展——第十二屆全國青年通信學術會議論文集(下冊)[C];2007年
5 王洪利;馮玉強;;頻繁項集挖掘算法Apriori的改進研究[A];全國第九屆企業(yè)信息化與工業(yè)工程學術會議論文集[C];2005年
6 陳曉云;李龍杰;馬志新;白伸伸;王磊;;AFP-Miner:一種新高效的頻繁項集挖掘算法[A];2006年全國理論計算機科學學術年會論文集[C];2006年
7 李坤;王永炎;王宏安;;一種基于樂觀裁剪策略的挖掘數(shù)據(jù)流滑動窗口上閉合頻繁項集的算法[A];第二十五屆中國數(shù)據(jù)庫學術會議論文集(二)[C];2008年
8 鄒遠婭;周皓峰;王晨;汪衛(wèi);施伯樂;;FSC——利用頻繁項集挖掘估算視圖大小[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年
9 楊曉雪;衡紅軍;;一種對XML數(shù)據(jù)進行關聯(lián)規(guī)則挖掘的方法研究[A];第二十二屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2005年
10 謝志軍;陳紅;;EFIM——數(shù)據(jù)流上頻繁項集挖掘的高性能算法[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2006年
中國博士學位論文全文數(shù)據(jù)庫 前3條
1 溫磊;基于有向項集圖的關聯(lián)規(guī)則挖掘算法研究與應用[D];天津大學;2004年
2 董杰;基于位表的關聯(lián)規(guī)則挖掘及關聯(lián)分類研究[D];大連理工大學;2009年
3 賈彩燕;關聯(lián)規(guī)則挖掘的取樣復雜性分析[D];中國科學院研究生院(計算技術研究所);2004年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 王立俊;基于多重最小支持度的氋效用頻繁項集挖掘算法研究[D];廣西大學;2015年
2 陳國俊;基于Hadoop的云存儲系統(tǒng)的研究與應用[D];電子科技大學;2014年
3 尹艷紅;基于Apriori算法的增量式關聯(lián)規(guī)則控制研究[D];大連理工大學;2015年
4 田苗鳳;大數(shù)據(jù)背景下并行動態(tài)關聯(lián)規(guī)則挖掘研究[D];蘭州交通大學;2015年
5 李雪迪;基于本體論的精細化數(shù)據(jù)分析[D];南京郵電大學;2015年
6 許靜文;基于模糊等價類的頻繁項集精簡表示算法研究[D];合肥工業(yè)大學;2015年
7 王大偉;大數(shù)據(jù)環(huán)境下的關聯(lián)規(guī)則提取算法研究[D];遼寧工業(yè)大學;2016年
8 廖友金;基于有向圖的關聯(lián)規(guī)則挖掘研究與改進[D];東南大學;2015年
9 王蘇琦;基于Hadoop的不確定頻繁項集并行挖掘方法研究[D];南京大學;2013年
10 韓宏瑩;并行數(shù)據(jù)挖掘技術在電信網(wǎng)管告警中的應用研究[D];長春工業(yè)大學;2016年
本文關鍵詞:基于云平臺的知識專家圖譜的研究,,由筆耕文化傳播整理發(fā)布。
本文編號:433960
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/433960.html