檔案知識圖譜構(gòu)建技術(shù)研究
發(fā)布時間:2021-04-23 13:24
隨著計算機信息技術(shù)的發(fā)展,檔案數(shù)據(jù)的類型由單一的結(jié)構(gòu)化數(shù)據(jù)變得多樣化,檔案數(shù)據(jù)規(guī)模也顯著增長。本文針對檔案知識圖譜構(gòu)建技術(shù)進行研究,旨在通過改變檔案數(shù)據(jù)的存儲方式和檔案資源的使用方式,為檔案數(shù)字信息化提供一種新的思路。論文依據(jù)檔案概念模型理論標(biāo)準(zhǔn),提出采用七步法構(gòu)建檔案本體,分析了檔案知識圖譜的專業(yè)領(lǐng)域范圍,同時定義了檔案實體類型和實體之間的層級關(guān)系。在完成檔案本體構(gòu)建分析之后,論文對檔案實體識別模塊進行了架構(gòu)設(shè)計,并提出了兩種檔案實體識別算法來實現(xiàn)檔案實體知識的抽取。然后通過實驗對兩種檔案實體識別算法進行了質(zhì)量評估,得出結(jié)論基于LSTM網(wǎng)絡(luò)的實體識別算法相比基于規(guī)則匹配的實體識別算法具有更高的正確率。在完成實體識別工作之后,論文提出采用基于實體詞性的關(guān)系抽取算法和基于依存句法分析的關(guān)系抽取算法對檔案實體之間的關(guān)系進行抽取。最后通過實驗對兩種檔案關(guān)系抽取算法進行了質(zhì)量評估,得出結(jié)論基于依存句法分析的關(guān)系抽取算法的正確率要高于基于實體詞性的關(guān)系抽取算法。為了解決檔案知識圖譜中知識重復(fù)的問題,論文對檔案知識融合模塊進行了架構(gòu)設(shè)計,并提出通過建立分區(qū)索引,減小知識融合的工作量。在論證了屬性權(quán)...
【文章來源】:中國電子科技集團公司電子科學(xué)研究院北京市
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
注釋表
縮略詞
第一章 緒論
1.1 研究背景和意義
1.2 研究內(nèi)容和創(chuàng)新點
1.3 國內(nèi)外研究現(xiàn)狀
1.3.1 檔案信息數(shù)字化
1.3.2 構(gòu)建知識圖譜技術(shù)
1.4 論文組織結(jié)構(gòu)
第二章 知識圖譜構(gòu)建技術(shù)綜述
2.1 知識圖譜技術(shù)概念
2.2 知識圖譜構(gòu)建方法和流程
2.2.1 知識圖譜構(gòu)建方法
2.2.2 知識圖譜構(gòu)建流程
2.3 知識圖譜在商業(yè)領(lǐng)域的應(yīng)用
2.4 本章小結(jié)
第三章 檔案知識圖譜本體構(gòu)建和知識抽取
3.1 構(gòu)建檔案本體
3.1.1 檔案本體構(gòu)建標(biāo)準(zhǔn)
3.1.2 基于七步法構(gòu)建檔案本體
3.2 檔案實體識別和關(guān)系抽取
3.2.1 檔案實體識別模塊設(shè)計
3.2.2 基于規(guī)則的檔案實體識別
3.2.3 基于機器學(xué)習(xí)的檔案實體識別
3.2.4 基于實體詞性的檔案關(guān)系抽取
3.2.5 基于依存句法分析的檔案關(guān)系抽取
3.3 本章小結(jié)
第四章 檔案知識融合
4.1 知識融合模塊設(shè)計
4.1.1 知識融合模塊流程分析
4.1.2 基于MinHash建立分區(qū)索引
4.2 成對知識融合
4.2.1 基于屬性權(quán)重的成對實體對齊
4.2.2 基于機器學(xué)習(xí)的成對實體對齊
4.3 集體知識融合
4.3.1 局部集體實體對齊
4.3.2 基于概率模型的全局集體對齊
4.4 本章小結(jié)
第五章 檔案知識圖譜質(zhì)量評估
5.1 檔案實體識別質(zhì)量評估
5.1.1 實驗設(shè)置
5.1.2 實驗結(jié)果與分析
5.2 檔案關(guān)系抽取質(zhì)量評估
5.2.1 實驗設(shè)置
5.2.2 實驗結(jié)果與分析
5.3 檔案數(shù)據(jù)實體對齊質(zhì)量評估
5.3.1 實驗設(shè)置
5.3.2 實驗結(jié)果與分析
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 本文總結(jié)
6.2 工作展望
參考文獻
致謝
在學(xué)期間發(fā)表的學(xué)術(shù)論文及取得的研究成果
【參考文獻】:
期刊論文
[1]中文實體關(guān)系抽取研究綜述[J]. 武文雅,陳鈺楓,徐金安,張玉潔. 計算機與現(xiàn)代化. 2018(08)
[2]面向企業(yè)知識圖譜構(gòu)建的中文實體關(guān)系抽取[J]. 孫晨,付英男,程文亮,錢衛(wèi)寧. 華東師范大學(xué)學(xué)報(自然科學(xué)版). 2018(03)
[3]論數(shù)字檔案館生態(tài)系統(tǒng)的健康管理[J]. 羅傳祥. 檔案管理. 2018(01)
[4]國際文件/檔案著錄標(biāo)準(zhǔn)化前沿與趨勢展望——基于國際最新著錄標(biāo)準(zhǔn)ICA RiC的研究[J]. 段榮婷,馬寅源,李真. 檔案管理. 2018(01)
[5]基于中文知識圖譜的電商領(lǐng)域問答系統(tǒng)[J]. 杜澤宇,楊燕,賀樑. 計算機應(yīng)用與軟件. 2017(05)
[6]知識圖譜研究進展[J]. 漆桂林,高桓,吳天星. 情報工程. 2017(01)
[7]知識圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計算機研究與發(fā)展. 2016(03)
[8]知識庫實體對齊技術(shù)綜述[J]. 莊嚴(yán),李國良,馮建華. 計算機研究與發(fā)展. 2016(01)
[9]基于知識圖譜的專家系統(tǒng)發(fā)展綜述[J]. 廖佚. 現(xiàn)代情報. 2012(02)
[10]中國2009年金融學(xué)研究的知識圖譜分析——南京大學(xué)知識圖譜研究組系列論文[J]. 童玲玉,宗乾進,袁勤儉. 現(xiàn)代情報. 2011(05)
本文編號:3155411
【文章來源】:中國電子科技集團公司電子科學(xué)研究院北京市
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
注釋表
縮略詞
第一章 緒論
1.1 研究背景和意義
1.2 研究內(nèi)容和創(chuàng)新點
1.3 國內(nèi)外研究現(xiàn)狀
1.3.1 檔案信息數(shù)字化
1.3.2 構(gòu)建知識圖譜技術(shù)
1.4 論文組織結(jié)構(gòu)
第二章 知識圖譜構(gòu)建技術(shù)綜述
2.1 知識圖譜技術(shù)概念
2.2 知識圖譜構(gòu)建方法和流程
2.2.1 知識圖譜構(gòu)建方法
2.2.2 知識圖譜構(gòu)建流程
2.3 知識圖譜在商業(yè)領(lǐng)域的應(yīng)用
2.4 本章小結(jié)
第三章 檔案知識圖譜本體構(gòu)建和知識抽取
3.1 構(gòu)建檔案本體
3.1.1 檔案本體構(gòu)建標(biāo)準(zhǔn)
3.1.2 基于七步法構(gòu)建檔案本體
3.2 檔案實體識別和關(guān)系抽取
3.2.1 檔案實體識別模塊設(shè)計
3.2.2 基于規(guī)則的檔案實體識別
3.2.3 基于機器學(xué)習(xí)的檔案實體識別
3.2.4 基于實體詞性的檔案關(guān)系抽取
3.2.5 基于依存句法分析的檔案關(guān)系抽取
3.3 本章小結(jié)
第四章 檔案知識融合
4.1 知識融合模塊設(shè)計
4.1.1 知識融合模塊流程分析
4.1.2 基于MinHash建立分區(qū)索引
4.2 成對知識融合
4.2.1 基于屬性權(quán)重的成對實體對齊
4.2.2 基于機器學(xué)習(xí)的成對實體對齊
4.3 集體知識融合
4.3.1 局部集體實體對齊
4.3.2 基于概率模型的全局集體對齊
4.4 本章小結(jié)
第五章 檔案知識圖譜質(zhì)量評估
5.1 檔案實體識別質(zhì)量評估
5.1.1 實驗設(shè)置
5.1.2 實驗結(jié)果與分析
5.2 檔案關(guān)系抽取質(zhì)量評估
5.2.1 實驗設(shè)置
5.2.2 實驗結(jié)果與分析
5.3 檔案數(shù)據(jù)實體對齊質(zhì)量評估
5.3.1 實驗設(shè)置
5.3.2 實驗結(jié)果與分析
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 本文總結(jié)
6.2 工作展望
參考文獻
致謝
在學(xué)期間發(fā)表的學(xué)術(shù)論文及取得的研究成果
【參考文獻】:
期刊論文
[1]中文實體關(guān)系抽取研究綜述[J]. 武文雅,陳鈺楓,徐金安,張玉潔. 計算機與現(xiàn)代化. 2018(08)
[2]面向企業(yè)知識圖譜構(gòu)建的中文實體關(guān)系抽取[J]. 孫晨,付英男,程文亮,錢衛(wèi)寧. 華東師范大學(xué)學(xué)報(自然科學(xué)版). 2018(03)
[3]論數(shù)字檔案館生態(tài)系統(tǒng)的健康管理[J]. 羅傳祥. 檔案管理. 2018(01)
[4]國際文件/檔案著錄標(biāo)準(zhǔn)化前沿與趨勢展望——基于國際最新著錄標(biāo)準(zhǔn)ICA RiC的研究[J]. 段榮婷,馬寅源,李真. 檔案管理. 2018(01)
[5]基于中文知識圖譜的電商領(lǐng)域問答系統(tǒng)[J]. 杜澤宇,楊燕,賀樑. 計算機應(yīng)用與軟件. 2017(05)
[6]知識圖譜研究進展[J]. 漆桂林,高桓,吳天星. 情報工程. 2017(01)
[7]知識圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計算機研究與發(fā)展. 2016(03)
[8]知識庫實體對齊技術(shù)綜述[J]. 莊嚴(yán),李國良,馮建華. 計算機研究與發(fā)展. 2016(01)
[9]基于知識圖譜的專家系統(tǒng)發(fā)展綜述[J]. 廖佚. 現(xiàn)代情報. 2012(02)
[10]中國2009年金融學(xué)研究的知識圖譜分析——南京大學(xué)知識圖譜研究組系列論文[J]. 童玲玉,宗乾進,袁勤儉. 現(xiàn)代情報. 2011(05)
本文編號:3155411
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3155411.html
最近更新
教材專著