基于網(wǎng)絡(luò)新聞的知識(shí)圖譜構(gòu)建與研究
發(fā)布時(shí)間:2024-07-07 09:34
由于Web2.0時(shí)代的到來,互聯(lián)網(wǎng)從信息共享時(shí)代步入了信息共建時(shí)代,網(wǎng)絡(luò)新聞的迅速發(fā)展極大的改變了人們?cè)谏钪蝎@取新聞信息的媒介和習(xí)慣。在大數(shù)據(jù)時(shí)代的今天,我們要對(duì)互聯(lián)網(wǎng)上日益遞增的新聞數(shù)據(jù)進(jìn)行高效率的全網(wǎng)檢索常常都會(huì)因其海量、高復(fù)雜性、非結(jié)構(gòu)性的特點(diǎn)而受阻。為了提升用戶與互聯(lián)網(wǎng)之間的互動(dòng)體驗(yàn),實(shí)現(xiàn)更高質(zhì)量檢索,最終實(shí)現(xiàn)能夠預(yù)測(cè)出互聯(lián)網(wǎng)用戶所需信息的目的,知識(shí)圖譜便應(yīng)運(yùn)而生。本文在爬取到的網(wǎng)絡(luò)新聞數(shù)據(jù)基礎(chǔ)上提取了單一主題新聞中的實(shí)體,通過算法調(diào)整實(shí)體關(guān)系網(wǎng)絡(luò)各個(gè)實(shí)體之間的關(guān)系,從而構(gòu)建各個(gè)新聞事件下的知識(shí)圖譜。首先對(duì)獲取到的原始新聞數(shù)據(jù)進(jìn)行簡(jiǎn)單的處理,獲得初步的實(shí)體和相關(guān)關(guān)系,然后基于初始關(guān)系網(wǎng)絡(luò)的三元封閉原理,建立了實(shí)體間“穩(wěn)定”這一關(guān)系的概念,并計(jì)算每條邊的“穩(wěn)定”占總圖中的“穩(wěn)定”比例,以此為依據(jù)建立評(píng)估實(shí)體之間關(guān)系的權(quán)重的指標(biāo)。再使用優(yōu)化的Kruskal算法來獲得部分主題新聞的知識(shí)圖譜,本文中稱為基礎(chǔ)型知識(shí)圖譜(Basic Knowledge Graph,后簡(jiǎn)稱BKG)。針對(duì)相同的新聞事件,在不同媒介和不同時(shí)間點(diǎn)抓取到的數(shù)據(jù),可構(gòu)建出實(shí)體種類相異的BKG,而由于不同的新聞數(shù)據(jù)所...
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 課題研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文組織結(jié)構(gòu)
2 背景知識(shí)
2.1 數(shù)據(jù)集的獲取
2.1.1 爬蟲程序的設(shè)計(jì)
2.1.2 實(shí)體及關(guān)系的獲取
2.2 三元閉包原理
2.2.1 三元閉包原理的背景
2.2.2 三元閉包的內(nèi)容
2.3 實(shí)體間的相似度
2.4 本章小結(jié)
3 知識(shí)圖譜的構(gòu)建流程
3.1 Kruskal算法
3.1.1 最小生成樹的Kruskal算法
3.1.2 優(yōu)化的Kruskal算法
3.2 基礎(chǔ)型知識(shí)圖譜的構(gòu)建
3.2.1 實(shí)體關(guān)系的量化
3.2.2 使用優(yōu)化的Kruskal算法構(gòu)建BKG
3.3 基礎(chǔ)型知識(shí)圖譜的合并
3.4 構(gòu)建方案的實(shí)現(xiàn)和分析
3.5 本章小結(jié)
4 圖譜構(gòu)建及效果評(píng)估
4.1 圖譜的總體設(shè)計(jì)
4.1.1 圖譜的流程設(shè)計(jì)
4.1.2 圖譜的生成環(huán)境
4.2 BKG的構(gòu)建與融合
4.2.1 數(shù)據(jù)的獲取
4.2.2 實(shí)體及初步關(guān)系的提取
4.2.3 實(shí)體關(guān)系的量化
4.2.4 BKG的融合
4.3 BKG的展示與評(píng)估
4.4 本章小結(jié)
5 總結(jié)與展望
參考文獻(xiàn)
致謝
附錄1 攻讀碩士學(xué)位期間參與的項(xiàng)目和發(fā)表的論文
本文編號(hào):4003508
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 課題研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文組織結(jié)構(gòu)
2 背景知識(shí)
2.1 數(shù)據(jù)集的獲取
2.1.1 爬蟲程序的設(shè)計(jì)
2.1.2 實(shí)體及關(guān)系的獲取
2.2 三元閉包原理
2.2.1 三元閉包原理的背景
2.2.2 三元閉包的內(nèi)容
2.3 實(shí)體間的相似度
2.4 本章小結(jié)
3 知識(shí)圖譜的構(gòu)建流程
3.1 Kruskal算法
3.1.1 最小生成樹的Kruskal算法
3.1.2 優(yōu)化的Kruskal算法
3.2 基礎(chǔ)型知識(shí)圖譜的構(gòu)建
3.2.1 實(shí)體關(guān)系的量化
3.2.2 使用優(yōu)化的Kruskal算法構(gòu)建BKG
3.3 基礎(chǔ)型知識(shí)圖譜的合并
3.4 構(gòu)建方案的實(shí)現(xiàn)和分析
3.5 本章小結(jié)
4 圖譜構(gòu)建及效果評(píng)估
4.1 圖譜的總體設(shè)計(jì)
4.1.1 圖譜的流程設(shè)計(jì)
4.1.2 圖譜的生成環(huán)境
4.2 BKG的構(gòu)建與融合
4.2.1 數(shù)據(jù)的獲取
4.2.2 實(shí)體及初步關(guān)系的提取
4.2.3 實(shí)體關(guān)系的量化
4.2.4 BKG的融合
4.3 BKG的展示與評(píng)估
4.4 本章小結(jié)
5 總結(jié)與展望
參考文獻(xiàn)
致謝
附錄1 攻讀碩士學(xué)位期間參與的項(xiàng)目和發(fā)表的論文
本文編號(hào):4003508
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/4003508.html
上一篇:“新青年耀青春”系列活動(dòng)的五四運(yùn)動(dòng)集體記憶建構(gòu)研究
下一篇:沒有了
下一篇:沒有了
最近更新
教材專著