天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于科技文獻的技術脈絡信息的抽取與分析

發(fā)布時間:2021-01-30 06:35
  科技文獻是科技創(chuàng)新發(fā)展的重要載體之一,科技文獻網(wǎng)絡是一種特殊的信息網(wǎng)絡,每一篇文獻都有對應的標題、作者、刊物、關鍵詞以及引用關系等信息,從而形成了以文獻為中心,其他對象通過文獻鏈接在一起的文獻網(wǎng)絡結構。無論在實際工程方面還是在科學研究方面,探索基于科技文獻的技術脈絡輔助生成技術都顯得尤為重要。首先,基于現(xiàn)有文獻數(shù)據(jù)庫動態(tài)采集計算機領域的文獻數(shù)據(jù)。具體采集內容包括施引文獻和被引文獻的題錄信息以及文獻之間的引用關系,隨后對采集的文獻數(shù)據(jù)進行清洗,包括刪除非文獻數(shù)據(jù)、不完整的數(shù)據(jù)以及合并重復的數(shù)據(jù)。其次,利用文獻網(wǎng)絡特有的引用關系對文獻數(shù)據(jù)進行聚類。文獻的題錄信息屬于短文本,本文在傳統(tǒng)層次聚類算法的基礎上,融合了文獻之間的共引關系,基于計算機領域文獻數(shù)據(jù)集,采用三種不同的簇間距離計算方法進行聚類,輪廓系數(shù)值有明顯提升,有效的改善了施引文獻和被引文獻之間的聚類效果。將聚類后的文獻簇投影到時間軸上,選出代表性文獻,得到線性的技術脈絡,運用BDP可視化工具展示技術脈絡圖。最后,設計并實現(xiàn)了基于科技文獻的技術脈絡分析系統(tǒng),該系統(tǒng)可以根據(jù)輸入的檢索詞實現(xiàn)在線文獻數(shù)據(jù)采集、文獻數(shù)據(jù)預處理、文獻聚類、技術... 

【文章來源】:沈陽航空航天大學遼寧省

【文章頁數(shù)】:50 頁

【學位級別】:碩士

【部分圖文】:

基于科技文獻的技術脈絡信息的抽取與分析


Aminer中的趨勢分析圖

被引文獻,文獻數(shù)據(jù)


分別是固定網(wǎng)址和施引文獻的唯一編號,網(wǎng)頁中被引文獻數(shù)據(jù)的格式如圖 3.2 所示。圖 3.2 被引文獻列表圖3.2 文獻數(shù)據(jù)清洗從萬方數(shù)據(jù)庫中抓取到的真實文獻數(shù)據(jù)有的摻雜一些非文獻信息如“會議通知”,“征稿信息”和“期刊介紹”等。有的文獻數(shù)據(jù)存在缺失數(shù)據(jù)項的現(xiàn)象,有的文獻數(shù)據(jù)格式不符合實驗要求,有的數(shù)據(jù)項在抓取過程中存在錯誤的情況,如關鍵詞或作者信息

文獻數(shù)據(jù)


沈陽航空航天大學碩士學位論文有誤,關鍵詞中摻雜著中文關鍵詞和英文關鍵詞,還有部分重復的數(shù)據(jù)。如果兩篇文獻的作者和刊物相同則認為兩篇文獻是重復的文獻,則將重復的文獻數(shù)據(jù)剔除。將文獻信息有誤的數(shù)據(jù)剔除掉后剩余文獻22180篇。進行預處理后的文本數(shù)據(jù)變成了結構化數(shù)據(jù)。3.2.1 刪除不符合要求的數(shù)據(jù)從萬方數(shù)據(jù)庫采集到的真實文獻數(shù)據(jù)中含有一些征稿信息,會議通知,期刊介紹等非文獻信息,這些數(shù)據(jù)會對后續(xù)的文獻聚類效果產(chǎn)生影響,如圖中第五到第七行,需要刪除非文獻信息。部分文獻數(shù)據(jù)的題錄信息不全,存在缺少標題,關鍵詞或作者等信息的現(xiàn)象,后續(xù)會對兩篇文獻之間的相似度運算造成影響,圖中的第二行到第四行數(shù)據(jù)屬于缺少關鍵詞信息的文獻數(shù)據(jù)。部分文獻數(shù)據(jù)的數(shù)據(jù)項不符合實驗要求的情況,比如關鍵詞中摻雜了中文關鍵詞和英文關鍵詞,數(shù)據(jù)列出現(xiàn)移位等現(xiàn)象,部分有誤的文獻數(shù)據(jù)如圖 3.3 所示,如果不刪除掉,后續(xù)會對兩篇文獻進行相似度運算造成影響,因此對缺失重要屬性的文獻數(shù)據(jù)一定要刪除掉。

【參考文獻】:
期刊論文
[1]基于文獻共被引和共詞分析的研究方法的比較研究——以共詞分析和內容分析為例[J]. 魏瑞斌,蔣倩雯,張瑞麗.  情報雜志. 2019(02)
[2]基于自然最近鄰相似圖的譜聚類[J]. 劉友超,張曦煌.  計算機應用研究. 2020(01)
[3]一種基于社交事件關聯(lián)的故事脈絡生成方法[J]. 李瑩瑩,馬帥,蔣浩誼,劉喆,胡春明,李雄.  計算機研究與發(fā)展. 2018(09)
[4]融合K均值聚類和低秩約束的屬性選擇算法[J]. 楊常清.  中文信息學報. 2018(07)
[5]基于概率模型的非均勻數(shù)據(jù)聚類算法[J]. 楊天鵬,陳黎飛.  計算機應用. 2018(10)
[6]Science Mapping:A Systematic Review of the Literature[J]. Chaomei Chen.  Journal of Data and Information Science. 2017(02)
[7]基于詞匯功能識別的科研文獻分析系統(tǒng)設計與實現(xiàn)[J]. 李信,程齊凱,劉興幫.  圖書情報工作. 2017(01)
[8]基于作者共被引分析的破壞性創(chuàng)新研究學術群類與脈絡探析[J]. 林春培,黃海媚,吳東儒.  科學學與科學技術管理. 2016(08)
[9]基于密度峰值的聚類集成[J]. 褚睿鴻,王紅軍,楊燕,李天瑞.  自動化學報. 2016(09)
[10]基于知識脈絡的科技論文推薦[J]. 譚紅葉,要一璐,梁穎紅.  山東大學學報(理學版). 2016(05)

碩士論文
[1]基于時間點過程對科技文獻引用行為的建模與預測[D]. 劉鑫.華東師范大學 2018
[2]基于LDA模型的實體解析技術的研究與實現(xiàn)[D]. 張?zhí)锾?北京郵電大學 2013
[3]基于模糊測試方法的Web應用安全性測試技術的研究及其工具實現(xiàn)[D]. 都娟.華東師范大學 2011



本文編號:3008440

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3008440.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶22bde***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com