天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

大數(shù)據(jù)在專利信息分析中的應(yīng)用研究

發(fā)布時間:2020-11-18 18:26
   隨著科技的飛速發(fā)展,專利作為衡量技術(shù)創(chuàng)新的重要指標也備受關(guān)注,科研機構(gòu)和企業(yè)對專利信息的挖掘越發(fā)重視。盡管專利文獻已經(jīng)按照特定方法進行了詳細的分類,但是專利文獻的非結(jié)構(gòu)化特性和專利數(shù)據(jù)量的爆炸式增長決定了通過傳統(tǒng)的基于統(tǒng)計分析的方法難以挖掘深層的信息,而通過文本挖掘技術(shù)對專利文本進行分析處理又呈現(xiàn)出算法擴展性不足、數(shù)據(jù)處理平臺處理能力受限等問題。大數(shù)據(jù)的興起為專利數(shù)據(jù)的分析帶來了新的機遇,將大數(shù)據(jù)的理論、方法和工具運用到專利文獻的處理中是專利分析的新趨勢。本文以專利文獻的處理分析為目標,分析了大數(shù)據(jù)在專利信息分析中的應(yīng)用場景,并以聚類為切入點,根據(jù)專利文本的特征,改進了傳統(tǒng)的K-Means文本聚類算法,最后結(jié)合大數(shù)據(jù)處理平臺Hadoop以及并行處理框架MapReduce對專利文本聚類的整個過程進行了并行化設(shè)計。本文主要研究內(nèi)容如下:(1)根據(jù)當前專利信息分析的難點,對專利信息分析進行了需求分析,同時結(jié)合大數(shù)據(jù)的理論和技術(shù),研究了大數(shù)據(jù)在專利信息分析中的應(yīng)用場景。(2)根據(jù)需求分析的結(jié)果,選取專利文本聚類為切入點進行研究。根據(jù)專利文本聚類的需求,以傳統(tǒng)的K-Means聚類算法為基礎(chǔ),通過設(shè)計基于密度的離群點去除方法和基于距離積的初始質(zhì)心選擇策略,對原有算法進行改進。(3)結(jié)合MapReduce的特性,對專利文本聚類的整個過程進行并行化設(shè)計,包括分詞、特征選擇、TF-IDF權(quán)重計算、文本向量化表示等關(guān)鍵步驟的并行實現(xiàn)和本文提出的改進算法的并行化實現(xiàn)。(4)最后通過搭建Hadoop集群,采用多個專利文本數(shù)據(jù)集和設(shè)計相關(guān)實驗,對本文提出的改進算法的聚類效果進行了測試,對專利文本聚類的并行化設(shè)計進行了擴展性測試。實驗表明,本文提出的改進算法和設(shè)計的基于MapReduce的文本聚類并行化在專利文本的處理中取得了很好的效果,驗證了大數(shù)據(jù)的理論技術(shù)運用于專利信息分析的可行性。
【學位單位】:江蘇科技大學
【學位級別】:碩士
【學位年份】:2016
【中圖分類】:G306;TP311.13
【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 論文研究背景和意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 大數(shù)據(jù)研究現(xiàn)狀
        1.2.2 專利信息分析研究現(xiàn)狀
    1.3 本文的主要工作
    1.4 論文結(jié)構(gòu)安排
第2章 基于大數(shù)據(jù)理論的專利應(yīng)用需求分析
    2.1 大數(shù)據(jù)
        2.1.1 大數(shù)據(jù)的基本概念
        2.1.2 大數(shù)據(jù)的關(guān)鍵技術(shù)
    2.2 專利文獻
        2.2.1 專利文獻的特征
        2.2.2 專利文獻的處理難點
    2.3 基于大數(shù)據(jù)理論的專利分析技術(shù)
        2.3.1 基于大數(shù)據(jù)理論的專利文件系統(tǒng)
        2.3.2 基于大數(shù)據(jù)理論的專利處理平臺
        2.3.3 基于大數(shù)據(jù)工具的專利數(shù)據(jù)挖掘
    2.4 本章小結(jié)
第3章 Hadoop及Map Reduce框架
    3.1 Hadoop系統(tǒng)
        3.1.1 Hadoop技術(shù)簡介
        3.1.2 Hadoop的master/slave架構(gòu)
    3.2 HDFS分布式文件系統(tǒng)
        3.2.1 HDFS的組成結(jié)構(gòu)
        3.2.2 HDFS的工作流程
        3.2.3 HDFS的特點
    3.3 Map Reduce框架
        3.3.1 Map Reduce并行編程模型
        3.3.2 Map Reduce程序執(zhí)行過程
        3.3.3 Map Reduce的特點
    3.4 本章小結(jié)
第4章 文本聚類技術(shù)綜述
    4.1 文本聚類過程
    4.2 文本預(yù)處理
        4.2.1 文本分詞
        4.2.2 停用詞過濾
    4.3 文本特征降維
    4.4 文本特征表示
        4.4.1 布爾邏輯模型
        4.4.2 向量空間模型
    4.5 文本相似性度量
        4.5.1 海明距離
        4.5.2 歐幾里得距離
        4.5.3 馬氏距離
        4.5.4 余弦距離
    4.6 文本聚類算法
        4.6.1 基于劃分的方法
        4.6.2 基于層次的方法
        4.6.3 基于密度的方法
    4.7 本章小結(jié)
第5章 基于Map Reduce的專利文本聚類
    5.1 改進的K-Means文本聚類算法
        5.1.1 初始質(zhì)心的選擇
        5.1.2 改進算法的聚類過程
    5.2 基于Map Reduce的專利文本特征表示
        5.2.1 基于Map Reduce的TF-IDF權(quán)重計算
        5.2.2 基于Map Reduce的專利文本特征選擇
        5.2.3 基于Map Reduce的專利文本特征表示
    5.3 基于Map Reduce的聚類算法實現(xiàn)
        5.3.1 基于Map Reduce的初始質(zhì)心選擇
        5.3.2 基于Map Reduce的聚類過程
    5.4 本章小結(jié)
第六章 實驗與結(jié)果分析
    6.1 實驗環(huán)境準備
        6.1.1 Hadoop集群規(guī)劃
        6.1.2 Hadoop集群部署
    6.2 數(shù)據(jù)集與評價指標
        6.2.1 實驗數(shù)據(jù)集
        6.2.2 實驗評價指標
    6.3 聚類實驗與結(jié)果分析
        6.3.1 參數(shù)選取方法
        6.3.2 聚類效果實驗
        6.3.3 并行性能實驗
        6.3.4 實驗結(jié)果分析
    6.4 本章小結(jié)
總結(jié)與展望
參考文獻
攻讀碩士學位期間發(fā)表的論文
致謝
詳細摘要

【相似文獻】

相關(guān)期刊論文 前10條

1 張淑芬,范軍;專利信息管理淺論[J];科技情報開發(fā)與經(jīng)濟;2004年04期

2 呂榮波;整合專利信息資源,構(gòu)筑專利服務(wù)平臺[J];中國傳媒科技;2004年05期

3 宋保華;從專利信息中獲取創(chuàng)新靈感[J];發(fā)明與創(chuàng)新;2004年10期

4 ;專利信息[J];云南科技管理;2004年06期

5 ;專利信息[J];云南科技管理;2005年04期

6 ;專利信息[J];云南科技管理;2005年05期

7 ;專利信息[J];云南科技管理;2005年01期

8 王璐瑤;鄢小燕;;中國網(wǎng)絡(luò)化專利信息的發(fā)展現(xiàn)狀及趨勢研究[J];圖書情報工作;2006年06期

9 劉永計;錢立亞;戰(zhàn)威;;圖書館專利信息服務(wù)的不足與對策[J];當代圖書館;2010年01期

10 楊麗;;高校專利信息服務(wù)調(diào)查分析[J];圖書館論壇;2011年02期


相關(guān)博士學位論文 前1條

1 李鵬;基于專利信息分析的生物偵檢技術(shù)發(fā)展研究[D];中國人民解放軍軍事醫(yī)學科學院;2012年


相關(guān)碩士學位論文 前10條

1 卜遠芳;基于專利信息分析的我國4G移動通信技術(shù)發(fā)展研究[D];河南科技大學;2015年

2 謝紅;廣東省中小企業(yè)專利信息運用實證研究[D];華南理工大學;2016年

3 李慧穎;基于專利信息分析的區(qū)域技術(shù)創(chuàng)新能力比較研究[D];黑龍江大學;2015年

4 何峰;專利信息在技術(shù)研發(fā)中的運用研究[D];昆明理工大學;2015年

5 杜娟娟;高校專利信息服務(wù)業(yè)務(wù)流程優(yōu)化研究[D];北京交通大學;2016年

6 趙媛媛;2015年中國專利信息年會口譯實踐報告[D];河北大學;2016年

7 劉澎;大數(shù)據(jù)在專利信息分析中的應(yīng)用研究[D];江蘇科技大學;2016年

8 熊璇宇;專利信息分析方法在企業(yè)新產(chǎn)品研發(fā)中的應(yīng)用[D];河北大學;2011年

9 李飛;基于內(nèi)容挖掘的專利信息分析的方法體系及應(yīng)用研究[D];南京理工大學;2008年

10 陳蕾;基于語義與語境的專利信息查詢擴展的研究[D];北京工業(yè)大學;2012年



本文編號:2889048

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2889048.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶94de1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com