基于關(guān)系圖譜的科技人員大數(shù)據(jù)分析
發(fā)布時(shí)間:2021-10-16 20:39
隨著計(jì)算機(jī)技術(shù)的發(fā)展,“互聯(lián)網(wǎng)+”時(shí)代的網(wǎng)絡(luò)數(shù)據(jù)量呈爆發(fā)式增長(zhǎng)。在科技創(chuàng)新與科技管理改革的過(guò)程中,各個(gè)科技部門積累了大量科技項(xiàng)目的申報(bào)、評(píng)審和過(guò)程管理等科技管理數(shù)據(jù),這些數(shù)據(jù)既包含元數(shù)據(jù)為主的結(jié)構(gòu)化數(shù)據(jù),也包括申報(bào)書等非結(jié)構(gòu)化數(shù)據(jù)。對(duì)數(shù)據(jù)的挖掘與深度利用是近年來(lái)的研究熱點(diǎn),尤其是對(duì)數(shù)據(jù)之間關(guān)系的挖掘更利于拓展數(shù)據(jù)價(jià)值。以科技管理過(guò)程中的評(píng)審專家抽取為例,在數(shù)據(jù)抽取時(shí)不僅僅需要考慮專家的領(lǐng)域、職稱、單位等信息,更重要的是要回避一段時(shí)間內(nèi)有過(guò)項(xiàng)目合作、成果合作以及具有同單位、前同事等關(guān)系的專家。對(duì)于科技數(shù)據(jù)中包含的各類關(guān)系,如何識(shí)別、獲取并對(duì)其進(jìn)行關(guān)聯(lián)關(guān)系分析是要解決的關(guān)鍵問(wèn)題。目前,諸多數(shù)據(jù)分析系統(tǒng)均基于關(guān)系數(shù)據(jù)庫(kù)。關(guān)系數(shù)據(jù)庫(kù)對(duì)于關(guān)聯(lián)關(guān)系分析問(wèn)題存在諸多缺點(diǎn),包括執(zhí)行效率低、算法設(shè)計(jì)復(fù)雜等等。因此,本文在目前廣泛使用的基于關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)分析系統(tǒng)的基礎(chǔ)上引入了關(guān)系圖譜,利用關(guān)系圖譜基于歐拉圖論這一模型的優(yōu)勢(shì),解決關(guān)系數(shù)據(jù)庫(kù)下關(guān)聯(lián)關(guān)系分析效果不佳的問(wèn)題。本文基于關(guān)系數(shù)據(jù)庫(kù)以及圖數(shù)據(jù)庫(kù),重點(diǎn)解決了以下問(wèn)題:1、對(duì)源數(shù)據(jù)進(jìn)行信息抽取過(guò)程中的實(shí)體識(shí)別問(wèn)題;2、關(guān)系圖譜數(shù)據(jù)更新過(guò)程中的實(shí)體及屬性的...
【文章來(lái)源】:北方工業(yè)大學(xué)北京市
【文章頁(yè)數(shù)】:76 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
“云計(jì)算”與“大數(shù)據(jù)”詞條搜索次數(shù)
esourceDescriptionFramework),是萬(wàn)維網(wǎng)聯(lián)盟(W3C)提出的在Web上交換數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù)模型[30]。RDF框架定義為三元組(,,)的集合,每個(gè)三元組表示為一條完整的數(shù)據(jù),有時(shí)候也稱為一條語(yǔ)句,在關(guān)系圖譜中可以稱之為一條關(guān)系。其中,為主語(yǔ),為謂語(yǔ),為賓語(yǔ)。一條三元組可以被理解為:與之間具有某種關(guān)系或聯(lián)系,這種關(guān)系或者聯(lián)系的屬性為。在RDF圖形示例中,這里使用方框表示資源,一條有向線段表示關(guān)系。通過(guò)線段連接的兩個(gè)頂點(diǎn)組合成為于一條三元組,其中,尾頂點(diǎn)是主語(yǔ),邊標(biāo)簽是謂語(yǔ),頭頂點(diǎn)是賓語(yǔ)。圖形化表述如下。圖2-2RDF關(guān)系模型
第三章關(guān)系圖譜構(gòu)建與更新29出現(xiàn)頻率不同的詞語(yǔ),進(jìn)行詞頻統(tǒng)計(jì),而后使用由詞頻較高的詞語(yǔ)集合而成的詞典進(jìn)行名稱搜索。針對(duì)提出的方法,共使用了兩個(gè)數(shù)據(jù)集進(jìn)行了試驗(yàn)。圖3-12構(gòu)造的詞頻詞典圖3-13cnki數(shù)據(jù)集下的識(shí)別率在cnki數(shù)據(jù)集中,當(dāng)詞典數(shù)量達(dá)到45個(gè)時(shí),識(shí)別率超過(guò)95%;當(dāng)詞典的數(shù)量達(dá)到65個(gè)時(shí),識(shí)別率為100%。
【參考文獻(xiàn)】:
期刊論文
[1]主流知識(shí)圖譜存儲(chǔ)系統(tǒng)試驗(yàn)對(duì)比[J]. 葛唯益,王振宇,王羽,陸辰,姜曉夏. 指揮信息系統(tǒng)與技術(shù). 2019(05)
[2]知識(shí)圖譜數(shù)據(jù)管理研究綜述[J]. 王鑫,鄒磊,王朝坤,彭鵬,馮志勇. 軟件學(xué)報(bào). 2019(07)
[3]基于知識(shí)圖譜和頻繁序列挖掘的旅游路線推薦[J]. 孫文平,常亮,賓辰忠,古天龍,孫彥鵬. 計(jì)算機(jī)科學(xué). 2019(02)
[4]基于城市安全知識(shí)圖譜的多關(guān)鍵詞流式并行檢索算法[J]. 管健,汪璟玢,卞倩虹. 計(jì)算機(jī)科學(xué). 2019(02)
[5]知識(shí)圖譜研究綜述及其在醫(yī)療領(lǐng)域的應(yīng)用[J]. 侯夢(mèng)薇,衛(wèi)榮,陸亮,蘭欣,蔡宏偉. 計(jì)算機(jī)研究與發(fā)展. 2018(12)
[6]AceMap學(xué)術(shù)地圖與AceKG學(xué)術(shù)知識(shí)圖譜——學(xué)術(shù)數(shù)據(jù)可視化[J]. 張曄,賈雨葶,傅洛伊,王新兵. 上海交通大學(xué)學(xué)報(bào). 2018(10)
[7]知識(shí)圖譜及其在學(xué)術(shù)信息服務(wù)領(lǐng)域的應(yīng)用[J]. 湯庸,陳國(guó)華,賀超波,彭博. 華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(05)
[8]關(guān)聯(lián)圖譜的研究進(jìn)展及面臨的挑戰(zhàn)[J]. 尹亮,袁飛,謝文波,王棟志,孫崇敬. 計(jì)算機(jī)科學(xué). 2018(S1)
[9]用戶日常頻繁行為模式挖掘[J]. 史殿習(xí),李寒,楊若松,莫曉赟,魏菁. 國(guó)防科技大學(xué)學(xué)報(bào). 2017(01)
[10]MapReduce大數(shù)據(jù)處理平臺(tái)與算法研究進(jìn)展[J]. 宋杰,孫宗哲,毛克明,鮑玉斌,于戈. 軟件學(xué)報(bào). 2017(03)
碩士論文
[1]基于知識(shí)圖譜構(gòu)建人物關(guān)系的設(shè)計(jì)與實(shí)現(xiàn)[D]. 馮元為.重慶大學(xué) 2016
本文編號(hào):3440460
【文章來(lái)源】:北方工業(yè)大學(xué)北京市
【文章頁(yè)數(shù)】:76 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
“云計(jì)算”與“大數(shù)據(jù)”詞條搜索次數(shù)
esourceDescriptionFramework),是萬(wàn)維網(wǎng)聯(lián)盟(W3C)提出的在Web上交換數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù)模型[30]。RDF框架定義為三元組(,,)的集合,每個(gè)三元組表示為一條完整的數(shù)據(jù),有時(shí)候也稱為一條語(yǔ)句,在關(guān)系圖譜中可以稱之為一條關(guān)系。其中,為主語(yǔ),為謂語(yǔ),為賓語(yǔ)。一條三元組可以被理解為:與之間具有某種關(guān)系或聯(lián)系,這種關(guān)系或者聯(lián)系的屬性為。在RDF圖形示例中,這里使用方框表示資源,一條有向線段表示關(guān)系。通過(guò)線段連接的兩個(gè)頂點(diǎn)組合成為于一條三元組,其中,尾頂點(diǎn)是主語(yǔ),邊標(biāo)簽是謂語(yǔ),頭頂點(diǎn)是賓語(yǔ)。圖形化表述如下。圖2-2RDF關(guān)系模型
第三章關(guān)系圖譜構(gòu)建與更新29出現(xiàn)頻率不同的詞語(yǔ),進(jìn)行詞頻統(tǒng)計(jì),而后使用由詞頻較高的詞語(yǔ)集合而成的詞典進(jìn)行名稱搜索。針對(duì)提出的方法,共使用了兩個(gè)數(shù)據(jù)集進(jìn)行了試驗(yàn)。圖3-12構(gòu)造的詞頻詞典圖3-13cnki數(shù)據(jù)集下的識(shí)別率在cnki數(shù)據(jù)集中,當(dāng)詞典數(shù)量達(dá)到45個(gè)時(shí),識(shí)別率超過(guò)95%;當(dāng)詞典的數(shù)量達(dá)到65個(gè)時(shí),識(shí)別率為100%。
【參考文獻(xiàn)】:
期刊論文
[1]主流知識(shí)圖譜存儲(chǔ)系統(tǒng)試驗(yàn)對(duì)比[J]. 葛唯益,王振宇,王羽,陸辰,姜曉夏. 指揮信息系統(tǒng)與技術(shù). 2019(05)
[2]知識(shí)圖譜數(shù)據(jù)管理研究綜述[J]. 王鑫,鄒磊,王朝坤,彭鵬,馮志勇. 軟件學(xué)報(bào). 2019(07)
[3]基于知識(shí)圖譜和頻繁序列挖掘的旅游路線推薦[J]. 孫文平,常亮,賓辰忠,古天龍,孫彥鵬. 計(jì)算機(jī)科學(xué). 2019(02)
[4]基于城市安全知識(shí)圖譜的多關(guān)鍵詞流式并行檢索算法[J]. 管健,汪璟玢,卞倩虹. 計(jì)算機(jī)科學(xué). 2019(02)
[5]知識(shí)圖譜研究綜述及其在醫(yī)療領(lǐng)域的應(yīng)用[J]. 侯夢(mèng)薇,衛(wèi)榮,陸亮,蘭欣,蔡宏偉. 計(jì)算機(jī)研究與發(fā)展. 2018(12)
[6]AceMap學(xué)術(shù)地圖與AceKG學(xué)術(shù)知識(shí)圖譜——學(xué)術(shù)數(shù)據(jù)可視化[J]. 張曄,賈雨葶,傅洛伊,王新兵. 上海交通大學(xué)學(xué)報(bào). 2018(10)
[7]知識(shí)圖譜及其在學(xué)術(shù)信息服務(wù)領(lǐng)域的應(yīng)用[J]. 湯庸,陳國(guó)華,賀超波,彭博. 華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(05)
[8]關(guān)聯(lián)圖譜的研究進(jìn)展及面臨的挑戰(zhàn)[J]. 尹亮,袁飛,謝文波,王棟志,孫崇敬. 計(jì)算機(jī)科學(xué). 2018(S1)
[9]用戶日常頻繁行為模式挖掘[J]. 史殿習(xí),李寒,楊若松,莫曉赟,魏菁. 國(guó)防科技大學(xué)學(xué)報(bào). 2017(01)
[10]MapReduce大數(shù)據(jù)處理平臺(tái)與算法研究進(jìn)展[J]. 宋杰,孫宗哲,毛克明,鮑玉斌,于戈. 軟件學(xué)報(bào). 2017(03)
碩士論文
[1]基于知識(shí)圖譜構(gòu)建人物關(guān)系的設(shè)計(jì)與實(shí)現(xiàn)[D]. 馮元為.重慶大學(xué) 2016
本文編號(hào):3440460
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3440460.html
最近更新
教材專著