基于科技文獻(xiàn)的技術(shù)脈絡(luò)信息的抽取與分析
發(fā)布時(shí)間:2021-01-30 06:35
科技文獻(xiàn)是科技創(chuàng)新發(fā)展的重要載體之一,科技文獻(xiàn)網(wǎng)絡(luò)是一種特殊的信息網(wǎng)絡(luò),每一篇文獻(xiàn)都有對(duì)應(yīng)的標(biāo)題、作者、刊物、關(guān)鍵詞以及引用關(guān)系等信息,從而形成了以文獻(xiàn)為中心,其他對(duì)象通過(guò)文獻(xiàn)鏈接在一起的文獻(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)。無(wú)論在實(shí)際工程方面還是在科學(xué)研究方面,探索基于科技文獻(xiàn)的技術(shù)脈絡(luò)輔助生成技術(shù)都顯得尤為重要。首先,基于現(xiàn)有文獻(xiàn)數(shù)據(jù)庫(kù)動(dòng)態(tài)采集計(jì)算機(jī)領(lǐng)域的文獻(xiàn)數(shù)據(jù)。具體采集內(nèi)容包括施引文獻(xiàn)和被引文獻(xiàn)的題錄信息以及文獻(xiàn)之間的引用關(guān)系,隨后對(duì)采集的文獻(xiàn)數(shù)據(jù)進(jìn)行清洗,包括刪除非文獻(xiàn)數(shù)據(jù)、不完整的數(shù)據(jù)以及合并重復(fù)的數(shù)據(jù)。其次,利用文獻(xiàn)網(wǎng)絡(luò)特有的引用關(guān)系對(duì)文獻(xiàn)數(shù)據(jù)進(jìn)行聚類(lèi)。文獻(xiàn)的題錄信息屬于短文本,本文在傳統(tǒng)層次聚類(lèi)算法的基礎(chǔ)上,融合了文獻(xiàn)之間的共引關(guān)系,基于計(jì)算機(jī)領(lǐng)域文獻(xiàn)數(shù)據(jù)集,采用三種不同的簇間距離計(jì)算方法進(jìn)行聚類(lèi),輪廓系數(shù)值有明顯提升,有效的改善了施引文獻(xiàn)和被引文獻(xiàn)之間的聚類(lèi)效果。將聚類(lèi)后的文獻(xiàn)簇投影到時(shí)間軸上,選出代表性文獻(xiàn),得到線性的技術(shù)脈絡(luò),運(yùn)用BDP可視化工具展示技術(shù)脈絡(luò)圖。最后,設(shè)計(jì)并實(shí)現(xiàn)了基于科技文獻(xiàn)的技術(shù)脈絡(luò)分析系統(tǒng),該系統(tǒng)可以根據(jù)輸入的檢索詞實(shí)現(xiàn)在線文獻(xiàn)數(shù)據(jù)采集、文獻(xiàn)數(shù)據(jù)預(yù)處理、文獻(xiàn)聚類(lèi)、技術(shù)...
【文章來(lái)源】:沈陽(yáng)航空航天大學(xué)遼寧省
【文章頁(yè)數(shù)】:50 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Aminer中的趨勢(shì)分析圖
分別是固定網(wǎng)址和施引文獻(xiàn)的唯一編號(hào),網(wǎng)頁(yè)中被引文獻(xiàn)數(shù)據(jù)的格式如圖 3.2 所示。圖 3.2 被引文獻(xiàn)列表圖3.2 文獻(xiàn)數(shù)據(jù)清洗從萬(wàn)方數(shù)據(jù)庫(kù)中抓取到的真實(shí)文獻(xiàn)數(shù)據(jù)有的摻雜一些非文獻(xiàn)信息如“會(huì)議通知”,“征稿信息”和“期刊介紹”等。有的文獻(xiàn)數(shù)據(jù)存在缺失數(shù)據(jù)項(xiàng)的現(xiàn)象,有的文獻(xiàn)數(shù)據(jù)格式不符合實(shí)驗(yàn)要求,有的數(shù)據(jù)項(xiàng)在抓取過(guò)程中存在錯(cuò)誤的情況,如關(guān)鍵詞或作者信息
沈陽(yáng)航空航天大學(xué)碩士學(xué)位論文有誤,關(guān)鍵詞中摻雜著中文關(guān)鍵詞和英文關(guān)鍵詞,還有部分重復(fù)的數(shù)據(jù)。如果兩篇文獻(xiàn)的作者和刊物相同則認(rèn)為兩篇文獻(xiàn)是重復(fù)的文獻(xiàn),則將重復(fù)的文獻(xiàn)數(shù)據(jù)剔除。將文獻(xiàn)信息有誤的數(shù)據(jù)剔除掉后剩余文獻(xiàn)22180篇。進(jìn)行預(yù)處理后的文本數(shù)據(jù)變成了結(jié)構(gòu)化數(shù)據(jù)。3.2.1 刪除不符合要求的數(shù)據(jù)從萬(wàn)方數(shù)據(jù)庫(kù)采集到的真實(shí)文獻(xiàn)數(shù)據(jù)中含有一些征稿信息,會(huì)議通知,期刊介紹等非文獻(xiàn)信息,這些數(shù)據(jù)會(huì)對(duì)后續(xù)的文獻(xiàn)聚類(lèi)效果產(chǎn)生影響,如圖中第五到第七行,需要?jiǎng)h除非文獻(xiàn)信息。部分文獻(xiàn)數(shù)據(jù)的題錄信息不全,存在缺少標(biāo)題,關(guān)鍵詞或作者等信息的現(xiàn)象,后續(xù)會(huì)對(duì)兩篇文獻(xiàn)之間的相似度運(yùn)算造成影響,圖中的第二行到第四行數(shù)據(jù)屬于缺少關(guān)鍵詞信息的文獻(xiàn)數(shù)據(jù)。部分文獻(xiàn)數(shù)據(jù)的數(shù)據(jù)項(xiàng)不符合實(shí)驗(yàn)要求的情況,比如關(guān)鍵詞中摻雜了中文關(guān)鍵詞和英文關(guān)鍵詞,數(shù)據(jù)列出現(xiàn)移位等現(xiàn)象,部分有誤的文獻(xiàn)數(shù)據(jù)如圖 3.3 所示,如果不刪除掉,后續(xù)會(huì)對(duì)兩篇文獻(xiàn)進(jìn)行相似度運(yùn)算造成影響,因此對(duì)缺失重要屬性的文獻(xiàn)數(shù)據(jù)一定要?jiǎng)h除掉。
【參考文獻(xiàn)】:
期刊論文
[1]基于文獻(xiàn)共被引和共詞分析的研究方法的比較研究——以共詞分析和內(nèi)容分析為例[J]. 魏瑞斌,蔣倩雯,張瑞麗. 情報(bào)雜志. 2019(02)
[2]基于自然最近鄰相似圖的譜聚類(lèi)[J]. 劉友超,張曦煌. 計(jì)算機(jī)應(yīng)用研究. 2020(01)
[3]一種基于社交事件關(guān)聯(lián)的故事脈絡(luò)生成方法[J]. 李瑩瑩,馬帥,蔣浩誼,劉喆,胡春明,李雄. 計(jì)算機(jī)研究與發(fā)展. 2018(09)
[4]融合K均值聚類(lèi)和低秩約束的屬性選擇算法[J]. 楊常清. 中文信息學(xué)報(bào). 2018(07)
[5]基于概率模型的非均勻數(shù)據(jù)聚類(lèi)算法[J]. 楊天鵬,陳黎飛. 計(jì)算機(jī)應(yīng)用. 2018(10)
[6]Science Mapping:A Systematic Review of the Literature[J]. Chaomei Chen. Journal of Data and Information Science. 2017(02)
[7]基于詞匯功能識(shí)別的科研文獻(xiàn)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 李信,程齊凱,劉興幫. 圖書(shū)情報(bào)工作. 2017(01)
[8]基于作者共被引分析的破壞性創(chuàng)新研究學(xué)術(shù)群類(lèi)與脈絡(luò)探析[J]. 林春培,黃海媚,吳東儒. 科學(xué)學(xué)與科學(xué)技術(shù)管理. 2016(08)
[9]基于密度峰值的聚類(lèi)集成[J]. 褚睿鴻,王紅軍,楊燕,李天瑞. 自動(dòng)化學(xué)報(bào). 2016(09)
[10]基于知識(shí)脈絡(luò)的科技論文推薦[J]. 譚紅葉,要一璐,梁穎紅. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2016(05)
碩士論文
[1]基于時(shí)間點(diǎn)過(guò)程對(duì)科技文獻(xiàn)引用行為的建模與預(yù)測(cè)[D]. 劉鑫.華東師范大學(xué) 2018
[2]基于LDA模型的實(shí)體解析技術(shù)的研究與實(shí)現(xiàn)[D]. 張?zhí)锾?北京郵電大學(xué) 2013
[3]基于模糊測(cè)試方法的Web應(yīng)用安全性測(cè)試技術(shù)的研究及其工具實(shí)現(xiàn)[D]. 都娟.華東師范大學(xué) 2011
本文編號(hào):3008440
【文章來(lái)源】:沈陽(yáng)航空航天大學(xué)遼寧省
【文章頁(yè)數(shù)】:50 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Aminer中的趨勢(shì)分析圖
分別是固定網(wǎng)址和施引文獻(xiàn)的唯一編號(hào),網(wǎng)頁(yè)中被引文獻(xiàn)數(shù)據(jù)的格式如圖 3.2 所示。圖 3.2 被引文獻(xiàn)列表圖3.2 文獻(xiàn)數(shù)據(jù)清洗從萬(wàn)方數(shù)據(jù)庫(kù)中抓取到的真實(shí)文獻(xiàn)數(shù)據(jù)有的摻雜一些非文獻(xiàn)信息如“會(huì)議通知”,“征稿信息”和“期刊介紹”等。有的文獻(xiàn)數(shù)據(jù)存在缺失數(shù)據(jù)項(xiàng)的現(xiàn)象,有的文獻(xiàn)數(shù)據(jù)格式不符合實(shí)驗(yàn)要求,有的數(shù)據(jù)項(xiàng)在抓取過(guò)程中存在錯(cuò)誤的情況,如關(guān)鍵詞或作者信息
沈陽(yáng)航空航天大學(xué)碩士學(xué)位論文有誤,關(guān)鍵詞中摻雜著中文關(guān)鍵詞和英文關(guān)鍵詞,還有部分重復(fù)的數(shù)據(jù)。如果兩篇文獻(xiàn)的作者和刊物相同則認(rèn)為兩篇文獻(xiàn)是重復(fù)的文獻(xiàn),則將重復(fù)的文獻(xiàn)數(shù)據(jù)剔除。將文獻(xiàn)信息有誤的數(shù)據(jù)剔除掉后剩余文獻(xiàn)22180篇。進(jìn)行預(yù)處理后的文本數(shù)據(jù)變成了結(jié)構(gòu)化數(shù)據(jù)。3.2.1 刪除不符合要求的數(shù)據(jù)從萬(wàn)方數(shù)據(jù)庫(kù)采集到的真實(shí)文獻(xiàn)數(shù)據(jù)中含有一些征稿信息,會(huì)議通知,期刊介紹等非文獻(xiàn)信息,這些數(shù)據(jù)會(huì)對(duì)后續(xù)的文獻(xiàn)聚類(lèi)效果產(chǎn)生影響,如圖中第五到第七行,需要?jiǎng)h除非文獻(xiàn)信息。部分文獻(xiàn)數(shù)據(jù)的題錄信息不全,存在缺少標(biāo)題,關(guān)鍵詞或作者等信息的現(xiàn)象,后續(xù)會(huì)對(duì)兩篇文獻(xiàn)之間的相似度運(yùn)算造成影響,圖中的第二行到第四行數(shù)據(jù)屬于缺少關(guān)鍵詞信息的文獻(xiàn)數(shù)據(jù)。部分文獻(xiàn)數(shù)據(jù)的數(shù)據(jù)項(xiàng)不符合實(shí)驗(yàn)要求的情況,比如關(guān)鍵詞中摻雜了中文關(guān)鍵詞和英文關(guān)鍵詞,數(shù)據(jù)列出現(xiàn)移位等現(xiàn)象,部分有誤的文獻(xiàn)數(shù)據(jù)如圖 3.3 所示,如果不刪除掉,后續(xù)會(huì)對(duì)兩篇文獻(xiàn)進(jìn)行相似度運(yùn)算造成影響,因此對(duì)缺失重要屬性的文獻(xiàn)數(shù)據(jù)一定要?jiǎng)h除掉。
【參考文獻(xiàn)】:
期刊論文
[1]基于文獻(xiàn)共被引和共詞分析的研究方法的比較研究——以共詞分析和內(nèi)容分析為例[J]. 魏瑞斌,蔣倩雯,張瑞麗. 情報(bào)雜志. 2019(02)
[2]基于自然最近鄰相似圖的譜聚類(lèi)[J]. 劉友超,張曦煌. 計(jì)算機(jī)應(yīng)用研究. 2020(01)
[3]一種基于社交事件關(guān)聯(lián)的故事脈絡(luò)生成方法[J]. 李瑩瑩,馬帥,蔣浩誼,劉喆,胡春明,李雄. 計(jì)算機(jī)研究與發(fā)展. 2018(09)
[4]融合K均值聚類(lèi)和低秩約束的屬性選擇算法[J]. 楊常清. 中文信息學(xué)報(bào). 2018(07)
[5]基于概率模型的非均勻數(shù)據(jù)聚類(lèi)算法[J]. 楊天鵬,陳黎飛. 計(jì)算機(jī)應(yīng)用. 2018(10)
[6]Science Mapping:A Systematic Review of the Literature[J]. Chaomei Chen. Journal of Data and Information Science. 2017(02)
[7]基于詞匯功能識(shí)別的科研文獻(xiàn)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 李信,程齊凱,劉興幫. 圖書(shū)情報(bào)工作. 2017(01)
[8]基于作者共被引分析的破壞性創(chuàng)新研究學(xué)術(shù)群類(lèi)與脈絡(luò)探析[J]. 林春培,黃海媚,吳東儒. 科學(xué)學(xué)與科學(xué)技術(shù)管理. 2016(08)
[9]基于密度峰值的聚類(lèi)集成[J]. 褚睿鴻,王紅軍,楊燕,李天瑞. 自動(dòng)化學(xué)報(bào). 2016(09)
[10]基于知識(shí)脈絡(luò)的科技論文推薦[J]. 譚紅葉,要一璐,梁穎紅. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2016(05)
碩士論文
[1]基于時(shí)間點(diǎn)過(guò)程對(duì)科技文獻(xiàn)引用行為的建模與預(yù)測(cè)[D]. 劉鑫.華東師范大學(xué) 2018
[2]基于LDA模型的實(shí)體解析技術(shù)的研究與實(shí)現(xiàn)[D]. 張?zhí)锾?北京郵電大學(xué) 2013
[3]基于模糊測(cè)試方法的Web應(yīng)用安全性測(cè)試技術(shù)的研究及其工具實(shí)現(xiàn)[D]. 都娟.華東師范大學(xué) 2011
本文編號(hào):3008440
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3008440.html
最近更新
教材專(zhuān)著