基于知識圖譜的地理實體關(guān)系構(gòu)建研究
發(fā)布時間:2021-02-15 22:40
當(dāng)前,網(wǎng)絡(luò)中存在著海量的地理數(shù)據(jù),但是想要從互聯(lián)網(wǎng)中將這些大量的、類型多樣的數(shù)據(jù)中抽取出地理實體關(guān)系或結(jié)構(gòu)化地理信息較為困難。知識圖譜是一個語義網(wǎng)絡(luò),其作用在于對現(xiàn)實中的實體與實體之間的關(guān)系進(jìn)行描述,在眾多領(lǐng)域都有運(yùn)用。從網(wǎng)絡(luò)中抽取地理信息,然后通過知識圖譜來獲取地理信息知識,是目前這個領(lǐng)域的常用方法。針對當(dāng)前互聯(lián)網(wǎng)中海量而又復(fù)雜的地理信息利用較為困難的問題,本文以知識圖譜為基礎(chǔ),設(shè)計了一種在地理領(lǐng)域中基于網(wǎng)絡(luò)文本的實體關(guān)系構(gòu)建的方法,其主要內(nèi)容包括:(1)針對地理信息采集之后網(wǎng)絡(luò)文本過于繁雜的問題,本文建立一個以TF-IDF算法為基礎(chǔ)的文本分類方式,首先在文本預(yù)處理中添加地理詞典,然后通過建立文本向量空間模型,并修正TF-IDF地理特征權(quán)重運(yùn)算方式,最后選擇K臨近算法來實現(xiàn)文本的分類。本研究利用地理詞典來處理特征維度,能夠使其維度進(jìn)一步降低,而修正的特征權(quán)重運(yùn)算方式可以對分類結(jié)果進(jìn)行優(yōu)化,從而進(jìn)一步清除不屬于地理的網(wǎng)絡(luò)文本。(2)一般只有存在海量人工標(biāo)注的語料時才可以實現(xiàn)關(guān)系構(gòu)建,同時這種以弱監(jiān)督回標(biāo)為基礎(chǔ)的構(gòu)建模式,在獲取訓(xùn)練語料的過程中常常出現(xiàn)大量的噪聲,而且還會出現(xiàn)語料數(shù)量不足...
【文章來源】:北京建筑大學(xué)北京市
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
技術(shù)路線圖
第2章知識圖譜及關(guān)鍵技術(shù)11對文本分詞詞性標(biāo)注、詞法分析等工作。首先給定觀察序列={1,2,…,},輸出對應(yīng)的標(biāo)注序列為={1,2,…,}。CRF就是建立一個條件概率模型,使觀察序列與輸出標(biāo)注系列相互對應(yīng)。如下圖2-4圖2-4條件隨機(jī)場模型Fig.2-4CRFModel對于上圖2-4中的模型,我們定義兩種特征:狀態(tài)特征和轉(zhuǎn)移特征。(1)狀態(tài)特征:定義在結(jié)點上,表示這個結(jié)點是否擁有某個屬性。(2)轉(zhuǎn)移特征:定義在邊上,表示兩個狀態(tài)是否會因為某個特征而轉(zhuǎn)移。用數(shù)學(xué)公式來表達(dá)這些特征:假設(shè)定義了K1個轉(zhuǎn)移特征1,2,…,1,定義了K2個狀態(tài)特征{1,2,…,1},當(dāng)一個結(jié)點擁有狀態(tài)特征時,=1,否則,=0。則狀態(tài)特征公式為2-5:=(,,)∈{0,1}=1,2,1,=1,2,(2-5)一個結(jié)點的狀態(tài)特征只與這個結(jié)點和觀測序列有關(guān),其他結(jié)點無關(guān),同理,轉(zhuǎn)移特征可以表示如下公式2-6:=(1,,,)∈{0,1}=1,2,2,=2,3,(2-6)在此定義轉(zhuǎn)移特征的權(quán)值為,狀態(tài)特征的權(quán)值為,則當(dāng)我們得到觀測序列=(1,2,…,),狀態(tài)序列為=(1,2,…,)時的所有結(jié)點的特征之和為下列公式2-7:∑(1,,,),+∑(,,),(2-7)為了保證概率值不能是負(fù)的,所以將這個特征和變換為正值,并且保證各個狀態(tài)序列特征和大小關(guān)系不變,所以使用指數(shù)函數(shù)exp進(jìn)行變換得到,再把這個結(jié)果規(guī)范化后就得到了概率函數(shù)了,也是線性鏈條件隨機(jī)場的參數(shù)化形式定義,公式2-8:(|)=1()(∑(1,,,),+∑(,,),)(2-8)
中文百度百科目前擁有超過1500萬條詞條數(shù)量,我們接觸到的所有領(lǐng)域都有涉足,同時很多詞條頁面都具有信息盒,信息盒通過列表模式表現(xiàn)出實體關(guān)系,因此我們可以選擇網(wǎng)絡(luò)爬蟲程序來抽取信息,并將這些信息當(dāng)成知識三元組“<實體-關(guān)系-實體>”的初始種子。對論文涉及的地理區(qū)域進(jìn)行定位。 百科網(wǎng)頁文本信息一般表達(dá)為 HTML 語言模式,而爬蟲程序獲取的信息不可以用于訓(xùn)練語料,還應(yīng)進(jìn)行解析操作,機(jī)器才能識別。因此,通過大量的詞條源文件研究,得出所有詞條對應(yīng)的信息和格式是為 HTML 語言模式,采用“basicInfo-itme name”屬性值的<dt>與</dt>標(biāo)簽之間對實體關(guān)系名進(jìn)行定義,有:“行政區(qū)類別”、郵政區(qū)碼”!癰asicInfo-item value”屬性值的<dd>與</dd>標(biāo)簽進(jìn)行實體定義,有“郵政區(qū)碼”與“102600”,“行政區(qū)類別”與“鎮(zhèn)”相對應(yīng)。見下圖 3-3。
【參考文獻(xiàn)】:
期刊論文
[1]中文實體關(guān)系抽取研究綜述[J]. 武文雅,陳鈺楓,徐金安,張玉潔. 計算機(jī)與現(xiàn)代化. 2018(08)
[2]A Novel Active Learning Method Using SVM for Text Classification[J]. Mohamed Goudjil,Mouloud Koudil,Mouldi Bedda,Noureddine Ghoggali. International Journal of Automation and Computing. 2018(03)
[3]基于Jena系統(tǒng)的知識融合三元組存儲結(jié)構(gòu)研究[J]. 楊夏柏,楊明,楊德強(qiáng),黃瑜. 價值工程. 2018(08)
[4]論地理知識圖譜[J]. 陸鋒,余麗,仇培元. 地球信息科學(xué)學(xué)報. 2017(06)
[5]海量RDF數(shù)據(jù)存儲查詢研究[J]. 肖佳,肖詩斌,王洪俊. 北京信息科技大學(xué)學(xué)報(自然科學(xué)版). 2017(03)
[6]知識圖譜的發(fā)展與構(gòu)建[J]. 李濤,王次臣,李華康. 南京理工大學(xué)學(xué)報. 2017(01)
[7]知識圖譜研究進(jìn)展[J]. 漆桂林,高桓,吳天星. 情報工程. 2017(01)
[8]開放式地理實體關(guān)系抽取的Bootstrapping方法[J]. 余麗,陸鋒,劉希亮. 測繪學(xué)報. 2016(05)
[9]知識圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計算機(jī)研究與發(fā)展. 2016(03)
[10]基于圖形數(shù)據(jù)庫Neo4j的RDF數(shù)據(jù)存儲研究[J]. 康杰華,羅章璇. 信息技術(shù). 2015(06)
博士論文
[1]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學(xué) 2013
[2]文檔數(shù)據(jù)庫若干關(guān)鍵技術(shù)研究[D]. 劉永丹.復(fù)旦大學(xué) 2004
碩士論文
[1]基于樸素貝葉斯的文本分類算法研究[D]. 何偉.南京郵電大學(xué) 2018
[2]基于文本挖掘的領(lǐng)域知識圖譜構(gòu)建方法的研究與實現(xiàn)[D]. 劉霄陽.北京交通大學(xué) 2019
[3]基于改進(jìn)的樸素貝葉斯算法和KNN算法在招聘文本分類中的應(yīng)用[D]. 劉欣.河南大學(xué) 2019
[4]文本分類TF-IDF算法的改進(jìn)研究[D]. 葉雪梅.合肥工業(yè)大學(xué) 2019
[5]基于知識圖譜的農(nóng)業(yè)知識服務(wù)系統(tǒng)研究[D]. 夏迎春.安徽農(nóng)業(yè)大學(xué) 2018
[6]基于互聯(lián)網(wǎng)的地理實體信息獲取關(guān)鍵技術(shù)研究[D]. 楊瑞杰.解放軍信息工程大學(xué) 2017
[7]大規(guī)模Web信息抽取與文本分類研究[D]. 曹攀.南京郵電大學(xué) 2016
[8]Redis緩存技術(shù)研究及應(yīng)用[D]. 邱書洋.鄭州大學(xué) 2016
[9]基于深度學(xué)習(xí)的商業(yè)領(lǐng)域知識圖譜構(gòu)建[D]. 袁旭萍.華東師范大學(xué) 2015
[10]NoSQL數(shù)據(jù)庫技術(shù)及其應(yīng)用研究[D]. 沈姝.南京信息工程大學(xué) 2012
本文編號:3035655
【文章來源】:北京建筑大學(xué)北京市
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
技術(shù)路線圖
第2章知識圖譜及關(guān)鍵技術(shù)11對文本分詞詞性標(biāo)注、詞法分析等工作。首先給定觀察序列={1,2,…,},輸出對應(yīng)的標(biāo)注序列為={1,2,…,}。CRF就是建立一個條件概率模型,使觀察序列與輸出標(biāo)注系列相互對應(yīng)。如下圖2-4圖2-4條件隨機(jī)場模型Fig.2-4CRFModel對于上圖2-4中的模型,我們定義兩種特征:狀態(tài)特征和轉(zhuǎn)移特征。(1)狀態(tài)特征:定義在結(jié)點上,表示這個結(jié)點是否擁有某個屬性。(2)轉(zhuǎn)移特征:定義在邊上,表示兩個狀態(tài)是否會因為某個特征而轉(zhuǎn)移。用數(shù)學(xué)公式來表達(dá)這些特征:假設(shè)定義了K1個轉(zhuǎn)移特征1,2,…,1,定義了K2個狀態(tài)特征{1,2,…,1},當(dāng)一個結(jié)點擁有狀態(tài)特征時,=1,否則,=0。則狀態(tài)特征公式為2-5:=(,,)∈{0,1}=1,2,1,=1,2,(2-5)一個結(jié)點的狀態(tài)特征只與這個結(jié)點和觀測序列有關(guān),其他結(jié)點無關(guān),同理,轉(zhuǎn)移特征可以表示如下公式2-6:=(1,,,)∈{0,1}=1,2,2,=2,3,(2-6)在此定義轉(zhuǎn)移特征的權(quán)值為,狀態(tài)特征的權(quán)值為,則當(dāng)我們得到觀測序列=(1,2,…,),狀態(tài)序列為=(1,2,…,)時的所有結(jié)點的特征之和為下列公式2-7:∑(1,,,),+∑(,,),(2-7)為了保證概率值不能是負(fù)的,所以將這個特征和變換為正值,并且保證各個狀態(tài)序列特征和大小關(guān)系不變,所以使用指數(shù)函數(shù)exp進(jìn)行變換得到,再把這個結(jié)果規(guī)范化后就得到了概率函數(shù)了,也是線性鏈條件隨機(jī)場的參數(shù)化形式定義,公式2-8:(|)=1()(∑(1,,,),+∑(,,),)(2-8)
中文百度百科目前擁有超過1500萬條詞條數(shù)量,我們接觸到的所有領(lǐng)域都有涉足,同時很多詞條頁面都具有信息盒,信息盒通過列表模式表現(xiàn)出實體關(guān)系,因此我們可以選擇網(wǎng)絡(luò)爬蟲程序來抽取信息,并將這些信息當(dāng)成知識三元組“<實體-關(guān)系-實體>”的初始種子。對論文涉及的地理區(qū)域進(jìn)行定位。 百科網(wǎng)頁文本信息一般表達(dá)為 HTML 語言模式,而爬蟲程序獲取的信息不可以用于訓(xùn)練語料,還應(yīng)進(jìn)行解析操作,機(jī)器才能識別。因此,通過大量的詞條源文件研究,得出所有詞條對應(yīng)的信息和格式是為 HTML 語言模式,采用“basicInfo-itme name”屬性值的<dt>與</dt>標(biāo)簽之間對實體關(guān)系名進(jìn)行定義,有:“行政區(qū)類別”、郵政區(qū)碼”!癰asicInfo-item value”屬性值的<dd>與</dd>標(biāo)簽進(jìn)行實體定義,有“郵政區(qū)碼”與“102600”,“行政區(qū)類別”與“鎮(zhèn)”相對應(yīng)。見下圖 3-3。
【參考文獻(xiàn)】:
期刊論文
[1]中文實體關(guān)系抽取研究綜述[J]. 武文雅,陳鈺楓,徐金安,張玉潔. 計算機(jī)與現(xiàn)代化. 2018(08)
[2]A Novel Active Learning Method Using SVM for Text Classification[J]. Mohamed Goudjil,Mouloud Koudil,Mouldi Bedda,Noureddine Ghoggali. International Journal of Automation and Computing. 2018(03)
[3]基于Jena系統(tǒng)的知識融合三元組存儲結(jié)構(gòu)研究[J]. 楊夏柏,楊明,楊德強(qiáng),黃瑜. 價值工程. 2018(08)
[4]論地理知識圖譜[J]. 陸鋒,余麗,仇培元. 地球信息科學(xué)學(xué)報. 2017(06)
[5]海量RDF數(shù)據(jù)存儲查詢研究[J]. 肖佳,肖詩斌,王洪俊. 北京信息科技大學(xué)學(xué)報(自然科學(xué)版). 2017(03)
[6]知識圖譜的發(fā)展與構(gòu)建[J]. 李濤,王次臣,李華康. 南京理工大學(xué)學(xué)報. 2017(01)
[7]知識圖譜研究進(jìn)展[J]. 漆桂林,高桓,吳天星. 情報工程. 2017(01)
[8]開放式地理實體關(guān)系抽取的Bootstrapping方法[J]. 余麗,陸鋒,劉希亮. 測繪學(xué)報. 2016(05)
[9]知識圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計算機(jī)研究與發(fā)展. 2016(03)
[10]基于圖形數(shù)據(jù)庫Neo4j的RDF數(shù)據(jù)存儲研究[J]. 康杰華,羅章璇. 信息技術(shù). 2015(06)
博士論文
[1]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學(xué) 2013
[2]文檔數(shù)據(jù)庫若干關(guān)鍵技術(shù)研究[D]. 劉永丹.復(fù)旦大學(xué) 2004
碩士論文
[1]基于樸素貝葉斯的文本分類算法研究[D]. 何偉.南京郵電大學(xué) 2018
[2]基于文本挖掘的領(lǐng)域知識圖譜構(gòu)建方法的研究與實現(xiàn)[D]. 劉霄陽.北京交通大學(xué) 2019
[3]基于改進(jìn)的樸素貝葉斯算法和KNN算法在招聘文本分類中的應(yīng)用[D]. 劉欣.河南大學(xué) 2019
[4]文本分類TF-IDF算法的改進(jìn)研究[D]. 葉雪梅.合肥工業(yè)大學(xué) 2019
[5]基于知識圖譜的農(nóng)業(yè)知識服務(wù)系統(tǒng)研究[D]. 夏迎春.安徽農(nóng)業(yè)大學(xué) 2018
[6]基于互聯(lián)網(wǎng)的地理實體信息獲取關(guān)鍵技術(shù)研究[D]. 楊瑞杰.解放軍信息工程大學(xué) 2017
[7]大規(guī)模Web信息抽取與文本分類研究[D]. 曹攀.南京郵電大學(xué) 2016
[8]Redis緩存技術(shù)研究及應(yīng)用[D]. 邱書洋.鄭州大學(xué) 2016
[9]基于深度學(xué)習(xí)的商業(yè)領(lǐng)域知識圖譜構(gòu)建[D]. 袁旭萍.華東師范大學(xué) 2015
[10]NoSQL數(shù)據(jù)庫技術(shù)及其應(yīng)用研究[D]. 沈姝.南京信息工程大學(xué) 2012
本文編號:3035655
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3035655.html
最近更新
教材專著