一種基于MapReduce的知識聚類與統(tǒng)計機制
本文關(guān)鍵詞:一種基于MapReduce的知識聚類與統(tǒng)計機制,由筆耕文化傳播整理發(fā)布。
【摘要】:網(wǎng)絡(luò)文獻知識庫中的海量資源及其分類的粗粒度,導致學習者容易在文獻檢索和閱讀過程出現(xiàn)認知迷航和知識過載問題。該文提出一種基于Map Reduce的知識聚類與統(tǒng)計機制:首先,提出基于Map Reduce的共現(xiàn)矩陣構(gòu)建算法MR-Co Matrix;其次,將共現(xiàn)矩陣與相似度系數(shù)結(jié)合構(gòu)建相似度矩陣;然后,通過Z Scores對相似度矩陣進行標準化;最后,使用離差平方和法(Ward,s method)對相似度矩陣進行聚類,生成樹狀的知識聚類譜系圖;基于聚類結(jié)果,提出基于Map Reduce的知識文獻統(tǒng)計算法MR-Statistics,對每個分類的知識屬性進行統(tǒng)計。實驗結(jié)果表明:將MR-Co Matrix和MR-Statistics方法應用于網(wǎng)絡(luò)文獻知識庫進行知識聚類和統(tǒng)計,達到較理想的聚類精度和計算效率,實現(xiàn)了細粒度知識聚類和多維統(tǒng)計,同時減少了時間開銷。
【作者單位】: 南京郵電大學計算機學院;
【關(guān)鍵詞】: 數(shù)據(jù)挖掘 聚類 知識 共現(xiàn)矩陣 統(tǒng)計 Map Reduce
【基金】:國家自然科學基金(61202004;61472192) 教育部科技發(fā)展中心網(wǎng)絡(luò)時代的科技論文快速共享專項研究(2013116) 江蘇省高校自然科學研究計劃(14KJB520014)~~
【分類號】:TP311.13
【正文快照】: 1引言目前國內(nèi)外的網(wǎng)絡(luò)文獻知識庫系統(tǒng)均聚集了海量的知識文獻,為科技工作者提供了快速查閱國內(nèi)外科技文獻,進行高層次知識學習的平臺。然而網(wǎng)絡(luò)文獻知識庫中海量資源分類的粗粒度,導致學習者容易在文獻檢索和閱讀過程出現(xiàn)認知迷航Fund of Higher Education of Jiangsu Provin
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 李建江;崔健;王聃;嚴林;黃義雙;;MapReduce并行編程模型研究綜述[J];電子學報;2011年11期
2 徐森;周天;于化龍;李先鋒;;一種基于矩陣低秩近似的聚類集成算法[J];電子學報;2013年06期
3 陳吉榮;樂嘉錦;;SingleMapReduce:單一輸出HDFS文件的MapReduce編程模型[J];華南理工大學學報(自然科學版);2014年05期
4 徐森;盧志茂;顧國昌;;使用譜聚類算法解決文本聚類集成問題[J];通信學報;2010年06期
5 朱林;雷景生;畢忠勤;楊杰;;一種基于數(shù)據(jù)流的軟子空間聚類算法[J];軟件學報;2013年11期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李建敦;彭俊杰;張武;;云存儲中一種基于布局的虛擬磁盤節(jié)能調(diào)度方法[J];電子學報;2012年11期
2 吳建軍;;網(wǎng)絡(luò)輿情的云計算監(jiān)測模式分析與實現(xiàn)[J];電訊技術(shù);2013年04期
3 王曉華;;一種新型的Hadoop本地化測試模型[J];赤峰學院學報(自然科學版);2013年19期
4 張琦;盧志茂;徐森;劉晨;隋毅;;基于相似度矩陣的譜聚類集成圖像分割[J];傳感器與微系統(tǒng);2013年10期
5 王寧;楊揚;孟坤;陳宇;王磊;季青;;云計算環(huán)境下基于用戶體驗的成本最優(yōu)存儲策略研究[J];電子學報;2014年01期
6 李靜濱;楊柳;陳寧江;;基于MapReduce的改進K-Medoids并行算法[J];廣西大學學報(自然科學版);2014年02期
7 梅華威;米增強;吳廣磊;;基于MapReduce模型的間歇性能源海量數(shù)據(jù)處理技術(shù)[J];電力系統(tǒng)自動化;2014年15期
8 牛琨;張舒博;趙方;;采用聯(lián)合熵矩陣的子空間聚類算法[J];北京郵電大學學報;2014年03期
9 徐昌榮;王聰穎;袁秀華;;基于并行編程計算模型的索貝爾濾波技術(shù)[J];測繪科學;2014年10期
10 胡寅;呂浩勇;;基于VMware Vsphere的云計算實驗平臺構(gòu)建[J];電腦知識與技術(shù);2014年32期
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 彭菲菲;網(wǎng)絡(luò)熱點話題發(fā)現(xiàn)的關(guān)鍵技術(shù)研究[D];中國礦業(yè)大學(北京);2012年
2 張震;基于流量測量的高速IP業(yè)務感知技術(shù)研究[D];解放軍信息工程大學;2012年
3 王縱虎;聚類分析優(yōu)化關(guān)鍵技術(shù)研究[D];西安電子科技大學;2012年
4 劉麗敏;選擇性聚類融合算法研究[D];中南大學;2013年
5 張建萍;基于計算智能技術(shù)的聚類分析研究與應用[D];山東師范大學;2014年
6 穆治亞;紅外多目標實時跟蹤方法的研究[D];中國科學院研究生院(長春光學精密機械與物理研究所);2014年
7 吳迪;基于加權(quán)相似度的序列聚類算法研究[D];燕山大學;2014年
8 顧濤;集群MapReduce環(huán)境中任務和作業(yè)調(diào)度若干關(guān)鍵問題的研究[D];南開大學;2014年
9 王寧;云計算環(huán)境下數(shù)據(jù)管理與任務調(diào)度優(yōu)化策略研究[D];北京科技大學;2015年
10 徐飛;面向IaaS云計算的虛擬機負載性能優(yōu)化與保證機制研究[D];華中科技大學;2014年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 魏立梅,謝維信;對手抑制式模糊C-均值算法[J];電子學報;2000年07期
2 寧煥生;張瑜;劉芳麗;劉文明;渠慎豐;;中國物聯(lián)網(wǎng)信息服務系統(tǒng)研究[J];電子學報;2006年S1期
3 廖名學;范植華;;MPI程序同步通信基本模型死鎖檢測[J];電子學報;2008年02期
4 寧煥生;徐群玉;;全球物聯(lián)網(wǎng)發(fā)展及中國物聯(lián)網(wǎng)建設(shè)若干思考[J];電子學報;2010年11期
5 ;Spectral clustering based on matrix perturbation theory[J];Science in China(Series F:Information Sciences);2007年01期
6 羅四維;趙連偉;;基于譜圖理論的流形學習算法[J];計算機研究與發(fā)展;2006年07期
7 羅會蘭;孔繁勝;李一嘯;;聚類集成中的差異性度量研究[J];計算機學報;2007年08期
8 王珊;王會舉;覃雄派;周p,
本文編號:480707
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/480707.html