天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

科技人才信息分布式采集及處理關(guān)鍵技術(shù)研究

發(fā)布時間:2022-10-09 21:04
  近年來,科技成果轉(zhuǎn)化已成為國家重點發(fā)展和支持的產(chǎn)業(yè)。企業(yè)對科技成果轉(zhuǎn)化有著極大的需求。搭建一個面向企業(yè)實際需求的科技人才搜索引擎具有重要現(xiàn)實意義,而如何保證所有信息的全面性、完整性和準確性將是實現(xiàn)高效科技人才搜索引擎的重要前提,也是本文研究的重點問題。對于海量的科技人才信息,傳統(tǒng)的單機或多線程的爬蟲架構(gòu)其數(shù)據(jù)采集效率較低,很難滿足全網(wǎng)大規(guī)模數(shù)據(jù)采集需求。此外,由于數(shù)據(jù)的多源異構(gòu)性,采集到的科技人才數(shù)據(jù)往往存在一定的噪音,如科技人才的同名歧義現(xiàn)象等,導(dǎo)致數(shù)據(jù)的準確性無法得到保證。針對上述問題,本文從提高網(wǎng)絡(luò)爬蟲采集效率和消除同名歧義兩個方面入手展開相關(guān)研究,分別提出了:基于Hadoop的分布式數(shù)據(jù)采集平臺,用于提高海量科技人才信息的采集效率;一種多策略組合模型的同名消歧方法,用于解決科技人才同名歧義問題。本文的主要研究工作如下:(1)設(shè)計并實現(xiàn)了基于Hadoop的分布式科技人才信息采集平臺。分別從物理架構(gòu)、邏輯架構(gòu)、工作流程和功能模塊四個方面對采集平臺進行了設(shè)計,并基于Hadoop平臺進行實現(xiàn)與部署。通過該平臺,采集到海量的科技人才相關(guān)信息,包括學(xué)術(shù)論文、專利、科研項目以及科技人才個人信... 

【文章頁數(shù)】:68 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
第一章 緒論
    1.1 研究背景及意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 分布式主題爬蟲研究現(xiàn)狀
        1.2.2 同名消歧研究現(xiàn)狀
    1.3 本文研究內(nèi)容
    1.4 本文組織結(jié)構(gòu)
第二章 相關(guān)理論與技術(shù)基礎(chǔ)
    2.1 主題網(wǎng)絡(luò)爬蟲
        2.1.1 主題網(wǎng)絡(luò)爬蟲基本原理
        2.1.2 主題網(wǎng)絡(luò)爬蟲體系架構(gòu)
        2.1.3 分布式主題網(wǎng)絡(luò)爬蟲
    2.2 Hadoop分布式平臺
        2.2.1 分布式文件系統(tǒng)HDFS
        2.2.2 MapReduce計算框架
    2.3 同名消歧相關(guān)技術(shù)
        2.3.1 文本表示模型
        2.3.2 相似度計算
        2.3.3 層次聚類理論
    2.4 本章小結(jié)
第三章 分布式采集平臺設(shè)計和實現(xiàn)
    3.1 分布式采集平臺架構(gòu)設(shè)計
        3.1.1 物理架構(gòu)設(shè)計
        3.1.2 邏輯架構(gòu)設(shè)計
        3.1.3 工作流程設(shè)計
    3.2 分布式采集平臺功能模塊設(shè)計
        3.2.1 URL初始化模塊
        3.2.2 網(wǎng)頁下載模塊
        3.2.3 網(wǎng)頁解析模塊
        3.2.4 URL去重模塊
        3.2.5 數(shù)據(jù)存儲模塊
    3.3 分布式采集平臺的實現(xiàn)
        3.3.1 URL初始化模塊實現(xiàn)
        3.3.2 網(wǎng)頁下載模塊實現(xiàn)
        3.3.3 網(wǎng)頁解析模塊實現(xiàn)
        3.3.4 URL去重模塊實現(xiàn)
        3.3.5 數(shù)據(jù)存儲模塊實現(xiàn)
    3.4 本章小結(jié)
第四章 數(shù)據(jù)預(yù)處理
    4.1 數(shù)據(jù)規(guī)范化處理
    4.2 非結(jié)構(gòu)化數(shù)據(jù)提取
    4.3 本章小結(jié)
第五章 基于多策略組合模型的同名消歧方法
    5.1 基于實體連接的消歧策略
    5.2 基于成果時間窗的消歧策略
    5.3 基于成果合著者的消歧策略
    5.4 基于成果相似度的消歧策略
        5.4.1 成果向量化表示
        5.4.2 成果相似度計算
    5.5 基于多策略組合模型的消歧方法
    5.6 實驗分析驗證
        5.6.1 實驗1:驗證基于詞向量的文本表示
        5.6.2 實驗2:驗證多策略組合模型
    5.7 本章小結(jié)
第六章 科技人才信息采集及處理的應(yīng)用
    6.1 科技人才搜索與推薦平臺
    6.2 采集實現(xiàn)
    6.3 本章小結(jié)
第七章 總結(jié)與展望
    7.1 工作總結(jié)
    7.2 未來展望
致謝
參考文獻
附錄


【參考文獻】:
期刊論文
[1]百度:全球最大中文搜索引擎是怎樣煉成的[J]. 曾靈華.  軍事記者. 2013(01)
[2]主從模式下集散控制系統(tǒng)中無線通信的設(shè)計[J]. 陳小東.  自動化應(yīng)用. 2012(11)
[3]Namenode單點故障解決方案研究[J]. 鄧鵬,李枚毅,何誠.  計算機工程. 2012(21)
[4]基于社會網(wǎng)絡(luò)的人名檢索結(jié)果重名消解[J]. 郎君,秦兵,宋巍,劉龍,劉挺,李生.  計算機學(xué)報. 2009(07)
[5]專利申請?zhí)枠藴蔥J].   電子知識產(chǎn)權(quán). 2003(09)

碩士論文
[1]融合社會關(guān)系的屬性圖聚類專家消歧方法[D]. 江瑾.昆明理工大學(xué) 2015
[2]融合句義特征的人名消歧及人物關(guān)系抽取技術(shù)研究[D]. 張晗.北京理工大學(xué) 2015
[3]基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D]. 陳露.北京郵電大學(xué) 2015
[4]基于好友相似度的在線社會網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法研究[D]. 方平.華中科技大學(xué) 2013
[5]基于HDFS的云存儲系統(tǒng)數(shù)據(jù)安全性研究[D]. 石磊慶.北京郵電大學(xué) 2013
[6]科技文獻作者重名消歧與實體鏈接[D]. 宋文強.哈爾濱工業(yè)大學(xué) 2012
[7]基于分布式計算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D]. 么士宇.大連海事大學(xué) 2011
[8]基于廣域網(wǎng)的分布式網(wǎng)頁信息獲取系統(tǒng)的研究與實現(xiàn)[D]. 劉哲.吉林大學(xué) 2008



本文編號:3689352

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3689352.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0fc72***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com