基于微博的知識圖譜的構(gòu)建與研究
發(fā)布時間:2017-04-30 04:19
本文關(guān)鍵詞:基于微博的知識圖譜的構(gòu)建與研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著信息技術(shù)的不斷發(fā)展,個人電腦以及移動終端的普及,越來越多的人開始接觸到網(wǎng)絡(luò)。各種社交平臺,例如FaceBook,sina微博,騰訊微博等,極大的改變了人們的生活方式,讓網(wǎng)上的信息交流變得越發(fā)的頻繁和便利。互聯(lián)網(wǎng)現(xiàn)在已經(jīng)成為一個全球性的信息資源庫,里面包含了大量的信息資源,其中的數(shù)據(jù)具有海量,復(fù)雜和變化性極強等特點,為大數(shù)據(jù)下的信息檢索帶來了極大的困難。為了提高檢索的質(zhì)量,實現(xiàn)人與web之間的互動,最終達到預(yù)測人的搜索的目的,知識圖譜就在這種情況下誕生了。隨著社交網(wǎng)絡(luò)的發(fā)展,社交搜索變得越發(fā)重要。面對社交平臺中大量的數(shù)據(jù),構(gòu)建社交平臺下的知識圖譜,對于提高社交搜索的質(zhì)量尤為關(guān)鍵。在本文中,本文構(gòu)建了基于新浪微博的知識圖譜。本文在微博數(shù)據(jù)的基礎(chǔ)上,從這些數(shù)據(jù)中提取了其中的實體及實體之間的關(guān)系,在有了實體以及實體之間關(guān)系的數(shù)據(jù)基礎(chǔ)之上,開展了本文的研究工作。(1),本文首先在三元閉包原理的基礎(chǔ)上定義了平衡的概念,通過平衡來量化實體之間關(guān)系的權(quán)重。(2),然后使用改進的PFNET(尋徑網(wǎng)絡(luò))算法來生成單個話題下基本的知識圖譜,本文中稱為CKG(緊湊型知識圖譜)。(3),對于同一個話題,通過不同時間段抓取的數(shù)據(jù),可以構(gòu)建多個不同的CKG,這些CKG中必然包含相同的實體,然后利用這些相同的實體對這些CKG進行合并,從而一個話題下只有一個知識圖譜。(4),對于不同話題下的知識圖譜,首先需要找到二者之間的關(guān)系,如果二者之中有共同的實體,則可以通過實體合并,如果沒有,則需要找出二者實體之間的關(guān)系,這分為兩種情況,有一種關(guān)系和有多種關(guān)系著幾種情況,對每種情況都要單獨處理。在多種關(guān)系的情況下,本文主要是通過計算每個關(guān)系的介數(shù)值,最后只保留介數(shù)值最大的邊。本文對提出的方式進行了實驗驗證,通過文中所提方法,可以有效的形成微博下的知識圖譜。因此,本文對知識圖譜的發(fā)展有一定的理論和實踐意義。
【關(guān)鍵詞】:知識圖譜 三元閉包 構(gòu)建 尋徑網(wǎng)絡(luò)算法
【學位授予單位】:西華大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.09
【目錄】:
- 摘要4-5
- Abstract5-8
- 1 緒論8-15
- 1.1 研究目的和意義8-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-13
- 1.3 本文的研究意義及內(nèi)容13-14
- 1.3.1 研究意義13-14
- 1.3.2 研究內(nèi)容14
- 1.4 本文的章節(jié)安排14-15
- 2 相關(guān)工作15-22
- 2.1 知識圖譜的現(xiàn)狀15-17
- 2.2 相似度的計算17-21
- 2.2.1 基于語義詞典的相似度的計算18-20
- 2.2.2 基于大規(guī)模語料庫的相似度的計算20-21
- 2.3 本章小結(jié)21-22
- 3 知識圖譜的構(gòu)建22-39
- 3.1 三元閉包原理22-24
- 3.1.1 三元閉包的由來22
- 3.1.2 三元閉包的內(nèi)容22-24
- 3.2 尋徑網(wǎng)絡(luò)算法(PFNET)24-27
- 3.2.1 尋徑網(wǎng)絡(luò)算法的介紹24-26
- 3.2.2 改進的尋徑網(wǎng)絡(luò)算法26-27
- 3.3 構(gòu)建緊湊型知識圖譜27-32
- 3.3.1 實體之間關(guān)系的量化27-29
- 3.3.2 使用改進的PFNET去構(gòu)建CKG29-32
- 3.4 知識圖譜的形成32-38
- 3.4.1 CKG的合并32-34
- 3.4.2 不同主題下知識圖譜的合并34-38
- 3.5 本章小結(jié)38-39
- 4 實驗及評估39-56
- 4.1 實驗設(shè)計39-44
- 4.1.1 實驗流程39-41
- 4.1.2 實驗環(huán)境41-43
- 4.1.3 主題的選定43-44
- 4.2 實驗流程44-51
- 4.2.1 數(shù)據(jù)的獲取44-45
- 4.2.2 數(shù)據(jù)處理45
- 4.2.3 實體的提取45-47
- 4.2.4 實體之間關(guān)系的提取47
- 4.2.5 實體之間關(guān)系的量化47-49
- 4.2.6 CKG的形成49
- 4.2.7 CKG的合并49-50
- 4.2.8 不同主題下知識圖譜的合并50-51
- 4.3 實驗評估51-55
- 4.4 本章小結(jié)55-56
- 總結(jié)與展望56-57
- 參考文獻57-60
- 攻讀碩士學位期間發(fā)表的論文及科研成果60-61
- 致謝61-62
【相似文獻】
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 孫馳;基于微博的知識圖譜的構(gòu)建與研究[D];西華大學;2015年
本文關(guān)鍵詞:基于微博的知識圖譜的構(gòu)建與研究,由筆耕文化傳播整理發(fā)布。
本文編號:336243
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/336243.html
最近更新
教材專著