基于Spark的江西省新一代信息技術(shù)專利數(shù)據(jù)分析研究
發(fā)布時(shí)間:2023-10-14 07:40
新一代信息技術(shù)產(chǎn)業(yè)于2009年正式確立,數(shù)十年來(lái)一直是國(guó)家扶持的重點(diǎn)對(duì)象。近年,江西省新一代信息技術(shù)產(chǎn)業(yè)增長(zhǎng)勢(shì)頭明顯,但與沿海經(jīng)濟(jì)發(fā)達(dá)省份相比還存在不少差距。本文利用大數(shù)據(jù)技術(shù)和權(quán)威的專利數(shù)據(jù),對(duì)江西省新一代信息技術(shù)產(chǎn)業(yè)發(fā)展?fàn)顩r進(jìn)行深度分析和預(yù)測(cè),為產(chǎn)業(yè)發(fā)展提供更有效的對(duì)策。本文主要研究?jī)?nèi)容如下:1、收集實(shí)驗(yàn)所需數(shù)據(jù),并搭建Spark開(kāi)發(fā)環(huán)境。本文根據(jù)國(guó)家統(tǒng)計(jì)局給出的對(duì)于新一代信息技術(shù)產(chǎn)業(yè)的分類,以及國(guó)家知識(shí)產(chǎn)權(quán)局給出的產(chǎn)業(yè)劃分目錄,制定專利數(shù)據(jù)檢索式。利用Python實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)爬取,經(jīng)過(guò)清洗后生成原始數(shù)據(jù)集。本文建立了Spark集群及開(kāi)發(fā)環(huán)境,利用大數(shù)據(jù)框架進(jìn)行數(shù)據(jù)統(tǒng)計(jì)與分析,并利用Echarts圖表庫(kù)實(shí)現(xiàn)數(shù)據(jù)可視化。2、提出了改進(jìn)的K-Means算法對(duì)專利數(shù)據(jù)進(jìn)行聚類分析。聚類分析之前,為了提高實(shí)驗(yàn)結(jié)果的準(zhǔn)確度,對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行離散點(diǎn)檢測(cè)去除操作。為避免出現(xiàn)局部最優(yōu)解的問(wèn)題,改進(jìn)了選取聚類中心點(diǎn)的方式,實(shí)驗(yàn)以江西省數(shù)據(jù)為例,選取專利申請(qǐng)人、專利年度數(shù)據(jù)等指標(biāo),進(jìn)行多維度聚類分析。3、提出了基于Logistic模型以及生命周期理論的技術(shù)發(fā)展預(yù)測(cè)方法。以專利數(shù)據(jù)量為樣本數(shù)據(jù),用梯度下降...
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 引言
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 研究?jī)?nèi)容與組織結(jié)構(gòu)
第2章 相關(guān)技術(shù)概述
2.1 爬蟲(chóng)
2.2 文本分詞
2.3 Spark框架
2.4 Spark MLlib
2.5 Echarts
第3章 江西省新一代信息技術(shù)整體態(tài)勢(shì)分析
3.1 開(kāi)發(fā)環(huán)境的配置
3.1.1 基本配置
3.1.2 Spark集群建立
3.1.3 Spark開(kāi)發(fā)環(huán)境的搭建
3.2 專利數(shù)據(jù)獲取與處理
3.2.1 檢索式的構(gòu)建
3.2.2 數(shù)據(jù)獲取
3.2.3 數(shù)據(jù)清洗
3.2.4 Spark統(tǒng)計(jì)與排序
3.3 江西省新一代信息技術(shù)產(chǎn)業(yè)整體分析
3.3.1 申請(qǐng)量年度變化分析
3.3.2 法律狀態(tài)分析
3.3.3 主要申請(qǐng)人分布情況分析
3.3.4 發(fā)展熱點(diǎn)分析
3.3.5 全國(guó)范圍內(nèi)新一代信息技術(shù)產(chǎn)業(yè)整體分析
3.4 本章小結(jié)
第4章 江西省新一代信息技術(shù)產(chǎn)業(yè)聚類分析
4.1 聚類算法的選定
4.1.1 聚類算法的分類
4.1.2 K-Means聚類算法
4.2 改進(jìn)的K-Means聚類算法
4.3 基于Spark的文本特征構(gòu)造
4.4 改進(jìn)的聚類算法在Spark平臺(tái)中的實(shí)現(xiàn)
4.5 專利數(shù)據(jù)聚類分析實(shí)驗(yàn)結(jié)果
4.5.1 專利年度發(fā)展?fàn)顩r
4.5.2 專利申請(qǐng)熱點(diǎn)聚類挖掘
4.5.3 專利高產(chǎn)申請(qǐng)人聚類分析
4.5.4 全國(guó)各省市發(fā)展情況聚類分析
4.6 本章小結(jié)
第5章 新一代信息技術(shù)產(chǎn)業(yè)及相關(guān)技術(shù)發(fā)展預(yù)測(cè)
5.1 Logistic模型
5.2 S曲線預(yù)測(cè)
5.3 全國(guó)新一代信息技術(shù)產(chǎn)業(yè)及其關(guān)鍵技術(shù)發(fā)展預(yù)測(cè)
5.3.1 人工智能技術(shù)
5.3.2 物聯(lián)網(wǎng)技術(shù)
5.3.3 新能源汽車
5.4 江西省新一代信息技術(shù)產(chǎn)業(yè)發(fā)展現(xiàn)狀分析
5.5 基于技術(shù)生命周期的發(fā)展戰(zhàn)略
5.6 本章小結(jié)
第6章 新一代信息技術(shù)專利數(shù)據(jù)分析系統(tǒng)的實(shí)現(xiàn)
6.1 可行性分析
6.1.1 技術(shù)可行性
6.1.2 經(jīng)濟(jì)可行性
6.2 系統(tǒng)分析與設(shè)計(jì)
6.2.1 實(shí)際需求分析
6.2.2 功能需求分析
6.2.3 數(shù)據(jù)庫(kù)設(shè)計(jì)
6.2.4 系統(tǒng)整體架構(gòu)設(shè)計(jì)
6.3 可視化系統(tǒng)的實(shí)現(xiàn)
6.4 本章小結(jié)
第7章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間的研究成果
本文編號(hào):3853885
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 引言
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 研究?jī)?nèi)容與組織結(jié)構(gòu)
第2章 相關(guān)技術(shù)概述
2.1 爬蟲(chóng)
2.2 文本分詞
2.3 Spark框架
2.4 Spark MLlib
2.5 Echarts
第3章 江西省新一代信息技術(shù)整體態(tài)勢(shì)分析
3.1 開(kāi)發(fā)環(huán)境的配置
3.1.1 基本配置
3.1.2 Spark集群建立
3.1.3 Spark開(kāi)發(fā)環(huán)境的搭建
3.2 專利數(shù)據(jù)獲取與處理
3.2.1 檢索式的構(gòu)建
3.2.2 數(shù)據(jù)獲取
3.2.3 數(shù)據(jù)清洗
3.2.4 Spark統(tǒng)計(jì)與排序
3.3 江西省新一代信息技術(shù)產(chǎn)業(yè)整體分析
3.3.1 申請(qǐng)量年度變化分析
3.3.2 法律狀態(tài)分析
3.3.3 主要申請(qǐng)人分布情況分析
3.3.4 發(fā)展熱點(diǎn)分析
3.3.5 全國(guó)范圍內(nèi)新一代信息技術(shù)產(chǎn)業(yè)整體分析
3.4 本章小結(jié)
第4章 江西省新一代信息技術(shù)產(chǎn)業(yè)聚類分析
4.1 聚類算法的選定
4.1.1 聚類算法的分類
4.1.2 K-Means聚類算法
4.2 改進(jìn)的K-Means聚類算法
4.3 基于Spark的文本特征構(gòu)造
4.4 改進(jìn)的聚類算法在Spark平臺(tái)中的實(shí)現(xiàn)
4.5 專利數(shù)據(jù)聚類分析實(shí)驗(yàn)結(jié)果
4.5.1 專利年度發(fā)展?fàn)顩r
4.5.2 專利申請(qǐng)熱點(diǎn)聚類挖掘
4.5.3 專利高產(chǎn)申請(qǐng)人聚類分析
4.5.4 全國(guó)各省市發(fā)展情況聚類分析
4.6 本章小結(jié)
第5章 新一代信息技術(shù)產(chǎn)業(yè)及相關(guān)技術(shù)發(fā)展預(yù)測(cè)
5.1 Logistic模型
5.2 S曲線預(yù)測(cè)
5.3 全國(guó)新一代信息技術(shù)產(chǎn)業(yè)及其關(guān)鍵技術(shù)發(fā)展預(yù)測(cè)
5.3.1 人工智能技術(shù)
5.3.2 物聯(lián)網(wǎng)技術(shù)
5.3.3 新能源汽車
5.4 江西省新一代信息技術(shù)產(chǎn)業(yè)發(fā)展現(xiàn)狀分析
5.5 基于技術(shù)生命周期的發(fā)展戰(zhàn)略
5.6 本章小結(jié)
第6章 新一代信息技術(shù)專利數(shù)據(jù)分析系統(tǒng)的實(shí)現(xiàn)
6.1 可行性分析
6.1.1 技術(shù)可行性
6.1.2 經(jīng)濟(jì)可行性
6.2 系統(tǒng)分析與設(shè)計(jì)
6.2.1 實(shí)際需求分析
6.2.2 功能需求分析
6.2.3 數(shù)據(jù)庫(kù)設(shè)計(jì)
6.2.4 系統(tǒng)整體架構(gòu)設(shè)計(jì)
6.3 可視化系統(tǒng)的實(shí)現(xiàn)
6.4 本章小結(jié)
第7章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間的研究成果
本文編號(hào):3853885
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3853885.html
最近更新
教材專著