基于Spark云計算架構(gòu)的云南省生物醫(yī)藥專利數(shù)據(jù)的聚類分析研究
發(fā)布時間:2021-04-10 18:10
隨著時代技術(shù)的發(fā)展,專利數(shù)量急劇增加。專利信息作為技術(shù)情報最有效的載體,隱藏了大量的技術(shù)信息。其中,專利文本則是技術(shù)情報的最佳來源。云南作為生物醫(yī)藥產(chǎn)業(yè)的重點(diǎn)省份,專利數(shù)據(jù)收集及應(yīng)用相對落后,不能為產(chǎn)業(yè)規(guī)劃部署提供決策支撐。傳統(tǒng)的專利數(shù)據(jù)挖掘存在效率低、維度單一、數(shù)據(jù)樣本小、層次不夠深入等問題,以無法滿足如今對專利數(shù)據(jù)挖掘的需求;诖,本文使用云計算技術(shù)和數(shù)據(jù)挖掘技術(shù)對生物醫(yī)藥產(chǎn)業(yè)專利數(shù)據(jù)進(jìn)行分析研究。論文主要研究工作如下:(1)提出了一種對專利數(shù)據(jù)多維度聚類分析方法。該方法將專利分析中專利申請量、專利授權(quán)量、專利成長率、專利有效率4個重要評價指標(biāo)同時選作為聚類變量,進(jìn)而對專利年度發(fā)展?fàn)顩r、IPC分類號以及高產(chǎn)申請人進(jìn)行聚類分析。該方法能夠深層次挖掘數(shù)據(jù)間的關(guān)聯(lián),較好地對專利數(shù)據(jù)進(jìn)行類別劃分,使聚類結(jié)果更具整體性,以彌補(bǔ)傳統(tǒng)專利數(shù)據(jù)分析的不足。(2)提出了一種利用LDA主題模型對專利文本聚類從而挖掘?qū)@夹g(shù)主題的方法。LDA主題模型將每一篇專利文檔表示為一些主題所構(gòu)成的一個概率分布,而每一個主題又表示為很多單詞所構(gòu)成的一個概率分布。這樣LDA就將文檔和詞投射到了一組主題上,試圖通過主...
【文章來源】:昆明理工大學(xué)云南省
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【部分圖文】:
研究思路針對問題,結(jié)合研究思路,本文主要研究內(nèi)容如下:(1)提出了一種對專利數(shù)據(jù)多維度聚類分析方法
學(xué)位論文 DataNode 通信進(jìn)行文件讀取與寫入操作。當(dāng)文件寫入系統(tǒng)時,Clie為多個 Block,然后發(fā)送請求到 NameNode 去尋找最合適的 DataN,通過增加副本來提高容錯性。最后 Client 以 Pipeline 的形式將數(shù)系統(tǒng)讀取文件時,Client 會先與 NameNode 進(jìn)行通信,NomeNode 返回的 Block 的位置,最后 DataNode 會選擇離 Client 最近的 Block 中讀
第二章 關(guān)鍵技伸縮計算。為實現(xiàn)此要求的同時獲得最大靈活性,Spark 支持在各種集群管理器括 Hadoop YARN、Apache Mesos 以及 Spark 自帶的獨(dú)立調(diào)度器等等。從存儲層來k 不僅可以將任何 Hadoop 分布式文件系統(tǒng)上的文件讀取為分布式數(shù)據(jù)集,也可以支持 Hadoop 接口的系統(tǒng),如本地文件、亞馬孫 S3、Hive、HBase 等。Spark Co心組件,實現(xiàn)了 Spark 諸如任務(wù)調(diào)度、內(nèi)存管理、錯誤恢復(fù)等基本功能,并且還 RDD 的 API 定義[38]。由于 Spark 的核心引擎具有速度快和通用等特點(diǎn),因此 持為各種不同應(yīng)用場景專門設(shè)計的高級組件,比如用來操作結(jié)構(gòu)化數(shù)據(jù)的程序包、用來提供的對實時數(shù)據(jù)進(jìn)行流式計算的組件 Spark Streaming、提供常見的機(jī)器的程序庫 MLIib、操作圖的程序庫 GraphX 等[39]。
【參考文獻(xiàn)】:
期刊論文
[1]基于LDA模型和分類號的專利技術(shù)演化研究[J]. 廖列法,勒孚剛. 現(xiàn)代情報. 2017(05)
[2]云計算概念、技術(shù)發(fā)展與應(yīng)用[J]. 趙興芝,臧麗,朱效麗,譚鳳華. 電子世界. 2017(03)
[3]基于專利分析的江蘇生物醫(yī)藥發(fā)展現(xiàn)狀與對策研究[J]. 夏太壽,王園磊,田麗麗. 中國生物工程雜志. 2016(08)
[4]基于大數(shù)據(jù)視角的專利分析方法與模式研究[J]. 彭茂祥,李浩. 情報理論與實踐. 2016(07)
[5]基于專利維度的我國生物醫(yī)藥核心技術(shù)的識別與分析[J]. 王天歌,王金苗,袁紅梅. 情報雜志. 2016(04)
[6]基于改進(jìn)的LDA主題模型的微博用戶聚類研究[J]. 裴超,肖詩斌,江敏. 情報理論與實踐. 2016(03)
[7]基于Spark的Kmeans并行算法研究[J]. 蔡洪山. 電腦知識與技術(shù). 2016(04)
[8]K-means聚類算法在Spark平臺上的應(yīng)用[J]. 程國建,趙倩倩. 軟件導(dǎo)刊. 2016(02)
[9]數(shù)據(jù)挖掘的現(xiàn)狀及發(fā)展趨勢研究分析[J]. 劉帥,蔣貴凰. 現(xiàn)代商業(yè). 2015(33)
[10]Spark生態(tài)系統(tǒng)走向成熟和應(yīng)用[J]. 李曼,于青利. 世界電信. 2015(07)
碩士論文
[1]基于LDA模型的專利文本分類及演化研究[D]. 勒孚剛.江西理工大學(xué) 2017
[2]基于云模型和數(shù)據(jù)場的聚類研究[D]. 馮應(yīng)柱.重慶交通大學(xué) 2017
[3]云框架下的文本挖掘算法并行化研究[D]. 滕家雨.中國礦業(yè)大學(xué) 2015
[4]基于Spark的大數(shù)據(jù)挖掘技術(shù)的研究與實現(xiàn)[D]. 李文棟.山東大學(xué) 2015
[5]融合屬性抽取的多粒度專利文本聚類研究[D]. 孫東普.大連理工大學(xué) 2015
[6]基于分布式平臺Spark和YARN的數(shù)據(jù)挖掘算法的并行化研究[D]. 梁彥.中山大學(xué) 2014
[7]基于LDA多模型中文短文本主題分類體系構(gòu)建與分類[D]. 郭劍飛.哈爾濱工業(yè)大學(xué) 2014
[8]基于專利數(shù)據(jù)挖掘的技術(shù)趨勢分析方法[D]. 張超.大連理工大學(xué) 2014
[9]基于專利數(shù)據(jù)分析的云南生物醫(yī)藥企業(yè)專利戰(zhàn)略研究[D]. 姜莉莉.云南大學(xué) 2013
[10]基于LDA模型的文本主題挖掘和文本靜態(tài)可視化的研究[D]. 施乾坤.廣西大學(xué) 2013
本文編號:3130101
【文章來源】:昆明理工大學(xué)云南省
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【部分圖文】:
研究思路針對問題,結(jié)合研究思路,本文主要研究內(nèi)容如下:(1)提出了一種對專利數(shù)據(jù)多維度聚類分析方法
學(xué)位論文 DataNode 通信進(jìn)行文件讀取與寫入操作。當(dāng)文件寫入系統(tǒng)時,Clie為多個 Block,然后發(fā)送請求到 NameNode 去尋找最合適的 DataN,通過增加副本來提高容錯性。最后 Client 以 Pipeline 的形式將數(shù)系統(tǒng)讀取文件時,Client 會先與 NameNode 進(jìn)行通信,NomeNode 返回的 Block 的位置,最后 DataNode 會選擇離 Client 最近的 Block 中讀
第二章 關(guān)鍵技伸縮計算。為實現(xiàn)此要求的同時獲得最大靈活性,Spark 支持在各種集群管理器括 Hadoop YARN、Apache Mesos 以及 Spark 自帶的獨(dú)立調(diào)度器等等。從存儲層來k 不僅可以將任何 Hadoop 分布式文件系統(tǒng)上的文件讀取為分布式數(shù)據(jù)集,也可以支持 Hadoop 接口的系統(tǒng),如本地文件、亞馬孫 S3、Hive、HBase 等。Spark Co心組件,實現(xiàn)了 Spark 諸如任務(wù)調(diào)度、內(nèi)存管理、錯誤恢復(fù)等基本功能,并且還 RDD 的 API 定義[38]。由于 Spark 的核心引擎具有速度快和通用等特點(diǎn),因此 持為各種不同應(yīng)用場景專門設(shè)計的高級組件,比如用來操作結(jié)構(gòu)化數(shù)據(jù)的程序包、用來提供的對實時數(shù)據(jù)進(jìn)行流式計算的組件 Spark Streaming、提供常見的機(jī)器的程序庫 MLIib、操作圖的程序庫 GraphX 等[39]。
【參考文獻(xiàn)】:
期刊論文
[1]基于LDA模型和分類號的專利技術(shù)演化研究[J]. 廖列法,勒孚剛. 現(xiàn)代情報. 2017(05)
[2]云計算概念、技術(shù)發(fā)展與應(yīng)用[J]. 趙興芝,臧麗,朱效麗,譚鳳華. 電子世界. 2017(03)
[3]基于專利分析的江蘇生物醫(yī)藥發(fā)展現(xiàn)狀與對策研究[J]. 夏太壽,王園磊,田麗麗. 中國生物工程雜志. 2016(08)
[4]基于大數(shù)據(jù)視角的專利分析方法與模式研究[J]. 彭茂祥,李浩. 情報理論與實踐. 2016(07)
[5]基于專利維度的我國生物醫(yī)藥核心技術(shù)的識別與分析[J]. 王天歌,王金苗,袁紅梅. 情報雜志. 2016(04)
[6]基于改進(jìn)的LDA主題模型的微博用戶聚類研究[J]. 裴超,肖詩斌,江敏. 情報理論與實踐. 2016(03)
[7]基于Spark的Kmeans并行算法研究[J]. 蔡洪山. 電腦知識與技術(shù). 2016(04)
[8]K-means聚類算法在Spark平臺上的應(yīng)用[J]. 程國建,趙倩倩. 軟件導(dǎo)刊. 2016(02)
[9]數(shù)據(jù)挖掘的現(xiàn)狀及發(fā)展趨勢研究分析[J]. 劉帥,蔣貴凰. 現(xiàn)代商業(yè). 2015(33)
[10]Spark生態(tài)系統(tǒng)走向成熟和應(yīng)用[J]. 李曼,于青利. 世界電信. 2015(07)
碩士論文
[1]基于LDA模型的專利文本分類及演化研究[D]. 勒孚剛.江西理工大學(xué) 2017
[2]基于云模型和數(shù)據(jù)場的聚類研究[D]. 馮應(yīng)柱.重慶交通大學(xué) 2017
[3]云框架下的文本挖掘算法并行化研究[D]. 滕家雨.中國礦業(yè)大學(xué) 2015
[4]基于Spark的大數(shù)據(jù)挖掘技術(shù)的研究與實現(xiàn)[D]. 李文棟.山東大學(xué) 2015
[5]融合屬性抽取的多粒度專利文本聚類研究[D]. 孫東普.大連理工大學(xué) 2015
[6]基于分布式平臺Spark和YARN的數(shù)據(jù)挖掘算法的并行化研究[D]. 梁彥.中山大學(xué) 2014
[7]基于LDA多模型中文短文本主題分類體系構(gòu)建與分類[D]. 郭劍飛.哈爾濱工業(yè)大學(xué) 2014
[8]基于專利數(shù)據(jù)挖掘的技術(shù)趨勢分析方法[D]. 張超.大連理工大學(xué) 2014
[9]基于專利數(shù)據(jù)分析的云南生物醫(yī)藥企業(yè)專利戰(zhàn)略研究[D]. 姜莉莉.云南大學(xué) 2013
[10]基于LDA模型的文本主題挖掘和文本靜態(tài)可視化的研究[D]. 施乾坤.廣西大學(xué) 2013
本文編號:3130101
本文鏈接:http://sikaile.net/guanlilunwen/keyanlw/3130101.html
最近更新
教材專著