海量異構(gòu)少數(shù)民族文化資源融合研究
發(fā)布時(shí)間:2022-02-08 12:01
在擁有龐大數(shù)據(jù)的信息時(shí)代,如何從分散的、隱藏的、異構(gòu)的數(shù)據(jù)中找到用戶所需要的信息,如何將信息從數(shù)據(jù)層面上升到知識層面,如何隨著新知識產(chǎn)生完成高質(zhì)量知識服務(wù)就顯得尤為重要。云南的少數(shù)民族文化資源非常豐富,但這些資源卻存在著不同程度的分散和異構(gòu),有礙于少數(shù)民族文化資源的有效傳播和利用,而異構(gòu)知識融合可以從分散的、異構(gòu)的知識源中挖掘出尚未被發(fā)現(xiàn)、隱含、有用的知識,這正好為少數(shù)民族文化資源的知識獲取、知識組織和知識利用提供了很好的方法和手段。因此,本文對海量異構(gòu)少數(shù)民族文化資源融合進(jìn)行深入的研究,主要包括以下三個(gè)方面:(1)構(gòu)建了少數(shù)民族文化資源異構(gòu)知識庫。首先對少數(shù)民族文化資源進(jìn)行預(yù)處理,其中在對文本資源處理時(shí),提出了基于HMM的分詞及詞性標(biāo)注方法和基于BiLSTM-CRF模型的命名實(shí)體識別方法;然后采用句法分析技術(shù)抽出實(shí)體間的關(guān)系;最后將抽取的知識以RDF/XML的形式存儲并構(gòu)成少數(shù)民族文化資源異構(gòu)知識庫。(2)提出一種少數(shù)民族文化資源的知識融合算法。針對傳統(tǒng)模式下海量少數(shù)民族文化資源融合算法速度慢的問題,本文在Hadoop平臺和MapReduce并行計(jì)算框架下提出一種基于屬性和規(guī)則的知識...
【文章來源】:云南師范大學(xué)云南省
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
少數(shù)民族文化資源知識庫模型框架
Step1. 讀取 Web 數(shù)據(jù)Step2. 清理冗余 HTML 標(biāo)簽及無關(guān)的樣式Step3. 提取<body>中的內(nèi)容Step4. 獲取<body>中的列表內(nèi)容Step5. 獲取<body>中的表格內(nèi)容Step6. 讀取<body>中剩余的詞句Step7. 輸出解析結(jié)果對少數(shù)民族文化資源知識語料的文檔進(jìn)行 DOM 樹解析,主要有三個(gè)步驟化 HTML 標(biāo)記,去掉冗余標(biāo)簽;進(jìn)行 DOM 樹解析,抽取各模塊內(nèi)容;將塊內(nèi)容交由相應(yīng)的子任務(wù)程序處理。(2)HTML 表格通過爬蟲獲得搜狗百科、百度百科、互動(dòng)百科和 360 百科下的半結(jié)構(gòu)化的信息,采用 Java 語言針對不同網(wǎng)站不同的標(biāo)簽規(guī)則來爬取我們所需要的信息過命名實(shí)體間聯(lián)系,我們查看表中每一列的實(shí)體表示的謂詞以及每一列對系和推理,并將這些半結(jié)構(gòu)化信息提取保存成 RDF/XML 格式,在這類網(wǎng)頁中,網(wǎng)頁標(biāo)題就是一個(gè)概念實(shí)體,表格中分別是概念實(shí)體的屬性和屬性值。
圖 3.3 少數(shù)民族百度百科詞條信息抽取出的三元組在百科網(wǎng)上總共抓取了 2462 個(gè)包含少數(shù)民族文化資源的網(wǎng)頁,這些少數(shù)民族文化資源的種類主要有 55 個(gè)少數(shù)民族的節(jié)日、服飾、風(fēng)俗、宗教、倫理、哲學(xué)等文化資源,并且,每個(gè)網(wǎng)站少數(shù)民族的文檔數(shù)都達(dá)到了一定數(shù)量,如表 3.1所示。表 3.1 半結(jié)構(gòu)化少數(shù)民族知識語料庫統(tǒng)計(jì)百科 文檔數(shù)搜狗百科 963百度百科 718360 百科 602互動(dòng)百科 179總計(jì) 24623.2.2 面向非結(jié)構(gòu)化數(shù)據(jù)的知識抽取
【參考文獻(xiàn)】:
期刊論文
[1]基于多元語義網(wǎng)絡(luò)的民族信息資源庫構(gòu)建研究[J]. 王俊,高煒. 蘇州科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(03)
[2]面向網(wǎng)絡(luò)大數(shù)據(jù)的建設(shè)項(xiàng)目施工領(lǐng)域知識融合框架研究[J]. 張小龍,戚欣,王婉. 工程建設(shè). 2018(08)
[3]多源文本知識融合算法分析[J]. 閆昱姝,雷玉霞. 軟件導(dǎo)刊. 2018(05)
[4]網(wǎng)絡(luò)大數(shù)據(jù)中的知識融合框架研究[J]. 周利琴,范昊,潘建鵬. 情報(bào)雜志. 2018(01)
[5]開放世界視角:面向多源詞表的知識融合框架MtFFO研究[J]. 嚴(yán)承希,房小可. 中國圖書館學(xué)報(bào). 2017(04)
[6]大數(shù)據(jù)下的多源異構(gòu)知識融合算法研究[J]. 張瑤,李蜀瑜,湯玥. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(09)
[7]基于Hadoop的海量科技信息資源管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 蒙杰,楊生舉,趙昕暉,趙凡. 科技管理研究. 2017(13)
[8]一種基于深度學(xué)習(xí)模型的數(shù)據(jù)融合處理算法[J]. 馬永軍,薛永浩,劉洋,李亞軍. 天津科技大學(xué)學(xué)報(bào). 2017(04)
[9]“數(shù)據(jù)—信息—知識”整體視角下的知識融合初探——數(shù)據(jù)融合、信息融合、知識融合的關(guān)聯(lián)與比較[J]. 祝振媛,李廣建. 情報(bào)理論與實(shí)踐. 2017(02)
[10]大數(shù)據(jù)環(huán)境下的知識融合框架研究[J]. 張心源,邱均平. 圖書館學(xué)研究. 2016(08)
博士論文
[1]政府網(wǎng)站信息資源多維語義知識融合研究[D]. 黃新平.吉林大學(xué) 2017
[2]面向海量數(shù)據(jù)處理領(lǐng)域的云計(jì)算及其關(guān)鍵技術(shù)研究[D]. 任崇廣.南京理工大學(xué) 2013
[3]知識融合中若干關(guān)鍵技術(shù)研究[D]. 緱錦.浙江大學(xué) 2005
碩士論文
[1]民族教育信息資源服務(wù)模型語義化描述及應(yīng)用研究[D]. 閻宇.云南師范大學(xué) 2018
[2]融合知識圖譜的實(shí)體鏈接的算法研究[D]. 羅安根.北京郵電大學(xué) 2018
[3]面向文本的民族信息資源本體自動(dòng)構(gòu)建研究[D]. 肖朝廷.云南師范大學(xué) 2017
[4]面向民族信息資源領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)語義關(guān)系挖掘[D]. 黃鵬.云南師范大學(xué) 2016
[5]大數(shù)據(jù)環(huán)境下異構(gòu)知識融合方法研究[D]. 湯玥.陜西師范大學(xué) 2016
[6]基于少數(shù)民族文化的信息技術(shù)課程資源本體構(gòu)建與實(shí)現(xiàn)[D]. 張冉.云南師范大學(xué) 2016
[7]云環(huán)境下少數(shù)民族Web信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 金學(xué)鵬.云南師范大學(xué) 2015
[8]基于協(xié)同過濾算法的民族文化資源個(gè)性化推薦技術(shù)研究[D]. 向曦.云南師范大學(xué) 2015
[9]德宏州民族文化信息資源管理系統(tǒng)的分析與設(shè)計(jì)[D]. 陶健.云南大學(xué) 2014
[10]云制造環(huán)境下海量信息采集技術(shù)研究[D]. 申彤彤.內(nèi)蒙古科技大學(xué) 2014
本文編號:3615030
【文章來源】:云南師范大學(xué)云南省
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
少數(shù)民族文化資源知識庫模型框架
Step1. 讀取 Web 數(shù)據(jù)Step2. 清理冗余 HTML 標(biāo)簽及無關(guān)的樣式Step3. 提取<body>中的內(nèi)容Step4. 獲取<body>中的列表內(nèi)容Step5. 獲取<body>中的表格內(nèi)容Step6. 讀取<body>中剩余的詞句Step7. 輸出解析結(jié)果對少數(shù)民族文化資源知識語料的文檔進(jìn)行 DOM 樹解析,主要有三個(gè)步驟化 HTML 標(biāo)記,去掉冗余標(biāo)簽;進(jìn)行 DOM 樹解析,抽取各模塊內(nèi)容;將塊內(nèi)容交由相應(yīng)的子任務(wù)程序處理。(2)HTML 表格通過爬蟲獲得搜狗百科、百度百科、互動(dòng)百科和 360 百科下的半結(jié)構(gòu)化的信息,采用 Java 語言針對不同網(wǎng)站不同的標(biāo)簽規(guī)則來爬取我們所需要的信息過命名實(shí)體間聯(lián)系,我們查看表中每一列的實(shí)體表示的謂詞以及每一列對系和推理,并將這些半結(jié)構(gòu)化信息提取保存成 RDF/XML 格式,在這類網(wǎng)頁中,網(wǎng)頁標(biāo)題就是一個(gè)概念實(shí)體,表格中分別是概念實(shí)體的屬性和屬性值。
圖 3.3 少數(shù)民族百度百科詞條信息抽取出的三元組在百科網(wǎng)上總共抓取了 2462 個(gè)包含少數(shù)民族文化資源的網(wǎng)頁,這些少數(shù)民族文化資源的種類主要有 55 個(gè)少數(shù)民族的節(jié)日、服飾、風(fēng)俗、宗教、倫理、哲學(xué)等文化資源,并且,每個(gè)網(wǎng)站少數(shù)民族的文檔數(shù)都達(dá)到了一定數(shù)量,如表 3.1所示。表 3.1 半結(jié)構(gòu)化少數(shù)民族知識語料庫統(tǒng)計(jì)百科 文檔數(shù)搜狗百科 963百度百科 718360 百科 602互動(dòng)百科 179總計(jì) 24623.2.2 面向非結(jié)構(gòu)化數(shù)據(jù)的知識抽取
【參考文獻(xiàn)】:
期刊論文
[1]基于多元語義網(wǎng)絡(luò)的民族信息資源庫構(gòu)建研究[J]. 王俊,高煒. 蘇州科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(03)
[2]面向網(wǎng)絡(luò)大數(shù)據(jù)的建設(shè)項(xiàng)目施工領(lǐng)域知識融合框架研究[J]. 張小龍,戚欣,王婉. 工程建設(shè). 2018(08)
[3]多源文本知識融合算法分析[J]. 閆昱姝,雷玉霞. 軟件導(dǎo)刊. 2018(05)
[4]網(wǎng)絡(luò)大數(shù)據(jù)中的知識融合框架研究[J]. 周利琴,范昊,潘建鵬. 情報(bào)雜志. 2018(01)
[5]開放世界視角:面向多源詞表的知識融合框架MtFFO研究[J]. 嚴(yán)承希,房小可. 中國圖書館學(xué)報(bào). 2017(04)
[6]大數(shù)據(jù)下的多源異構(gòu)知識融合算法研究[J]. 張瑤,李蜀瑜,湯玥. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(09)
[7]基于Hadoop的海量科技信息資源管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 蒙杰,楊生舉,趙昕暉,趙凡. 科技管理研究. 2017(13)
[8]一種基于深度學(xué)習(xí)模型的數(shù)據(jù)融合處理算法[J]. 馬永軍,薛永浩,劉洋,李亞軍. 天津科技大學(xué)學(xué)報(bào). 2017(04)
[9]“數(shù)據(jù)—信息—知識”整體視角下的知識融合初探——數(shù)據(jù)融合、信息融合、知識融合的關(guān)聯(lián)與比較[J]. 祝振媛,李廣建. 情報(bào)理論與實(shí)踐. 2017(02)
[10]大數(shù)據(jù)環(huán)境下的知識融合框架研究[J]. 張心源,邱均平. 圖書館學(xué)研究. 2016(08)
博士論文
[1]政府網(wǎng)站信息資源多維語義知識融合研究[D]. 黃新平.吉林大學(xué) 2017
[2]面向海量數(shù)據(jù)處理領(lǐng)域的云計(jì)算及其關(guān)鍵技術(shù)研究[D]. 任崇廣.南京理工大學(xué) 2013
[3]知識融合中若干關(guān)鍵技術(shù)研究[D]. 緱錦.浙江大學(xué) 2005
碩士論文
[1]民族教育信息資源服務(wù)模型語義化描述及應(yīng)用研究[D]. 閻宇.云南師范大學(xué) 2018
[2]融合知識圖譜的實(shí)體鏈接的算法研究[D]. 羅安根.北京郵電大學(xué) 2018
[3]面向文本的民族信息資源本體自動(dòng)構(gòu)建研究[D]. 肖朝廷.云南師范大學(xué) 2017
[4]面向民族信息資源領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)語義關(guān)系挖掘[D]. 黃鵬.云南師范大學(xué) 2016
[5]大數(shù)據(jù)環(huán)境下異構(gòu)知識融合方法研究[D]. 湯玥.陜西師范大學(xué) 2016
[6]基于少數(shù)民族文化的信息技術(shù)課程資源本體構(gòu)建與實(shí)現(xiàn)[D]. 張冉.云南師范大學(xué) 2016
[7]云環(huán)境下少數(shù)民族Web信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 金學(xué)鵬.云南師范大學(xué) 2015
[8]基于協(xié)同過濾算法的民族文化資源個(gè)性化推薦技術(shù)研究[D]. 向曦.云南師范大學(xué) 2015
[9]德宏州民族文化信息資源管理系統(tǒng)的分析與設(shè)計(jì)[D]. 陶健.云南大學(xué) 2014
[10]云制造環(huán)境下海量信息采集技術(shù)研究[D]. 申彤彤.內(nèi)蒙古科技大學(xué) 2014
本文編號:3615030
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3615030.html
最近更新
教材專著