基于領(lǐng)域知識圖譜的網(wǎng)絡(luò)信息可信度測度

發(fā)布時(shí)間：2020-05-17 07:14

【摘要】：網(wǎng)絡(luò)信息的可信度關(guān)乎決策的有效性程度。社交媒體、移動(dòng)互聯(lián)及大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)信息具有用戶主動(dòng)參與、信息多源異構(gòu)及海量動(dòng)態(tài)等新的特征。在新型的網(wǎng)絡(luò)環(huán)境下,信息交互過程越來越紛繁復(fù)雜,信息的真實(shí)性或可信度日漸受到人們的關(guān)注,特別是針對網(wǎng)絡(luò)信息可信度評估及測度的研究越來越多。本文嘗試以知識圖譜為工具,通過構(gòu)建知識圖譜來測度網(wǎng)絡(luò)信息的可信度,便于直觀的了解和感受網(wǎng)絡(luò)信息可信度測度的具體過程。知識圖譜是一種圖譜組織形式,通過語義關(guān)聯(lián)將各種實(shí)體關(guān)聯(lián)起來,將基于語義網(wǎng)的知識庫可視化展示出來,重在抽取關(guān)系,便于展示高關(guān)聯(lián)性,高結(jié)構(gòu)化的結(jié)果。語義網(wǎng)實(shí)際上是讓計(jì)算機(jī)理解人的意思,因而圖形結(jié)構(gòu)就為推理提供了很好的依托。知識圖譜把結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)通過數(shù)據(jù)抽取融合在一起,揭示了數(shù)據(jù)治理、語義連接的思想,從而有利于大規(guī)模數(shù)據(jù)的利用和遷移。知識圖譜作為如今大數(shù)據(jù)時(shí)代下興起的知識組織與檢索技術(shù),其知識組織和展示的優(yōu)勢逐漸體現(xiàn)出來,受到了眾多領(lǐng)域的關(guān)注,應(yīng)用前景非常廣闊。但是當(dāng)前知識圖譜的發(fā)展還處于初級階段,面臨著許多挑戰(zhàn)和難題,譬如知識庫的自動(dòng)擴(kuò)展,異構(gòu)知識的處理,推理規(guī)則的學(xué)習(xí)等。雖然相關(guān)研究針對不同問題提出了處理辦法和改進(jìn)模型,但仍然要對其進(jìn)行更深入的研究。本文基于專家性用戶經(jīng)驗(yàn)以及社交媒體平臺中大眾性用戶體驗(yàn)從文本聚類、社會網(wǎng)絡(luò)分析以及文本分類三個(gè)方面對知識圖譜的構(gòu)建進(jìn)行了研究。針對知識圖譜構(gòu)建過程中的難題以及相關(guān)研究的不足,本文做了一些探討研究,主要包括以下幾個(gè)方面:(1)本文嘗試基于領(lǐng)域范圍內(nèi)專家性用戶經(jīng)驗(yàn)構(gòu)建領(lǐng)域知識圖譜,作為領(lǐng)域內(nèi)參照標(biāo)準(zhǔn)。數(shù)據(jù)來源于多個(gè)專業(yè)網(wǎng)站的不同專家經(jīng)驗(yàn)知識,既能體現(xiàn)不同專家經(jīng)驗(yàn)的交叉驗(yàn)證,又能使得領(lǐng)域知識的維度更加全面,防止單一網(wǎng)站或者專家經(jīng)驗(yàn)的不同傾向?qū)е碌钠嫘浴；趯哟尉垲?構(gòu)建了同質(zhì)網(wǎng)絡(luò)聚類的知識圖譜,揭示了同類型節(jié)點(diǎn)之間的相似程度和關(guān)聯(lián)關(guān)系;基于社會網(wǎng)絡(luò)分析,構(gòu)建了異質(zhì)網(wǎng)絡(luò)聚類的知識圖譜,揭示了兩種不同類型節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系,彌補(bǔ)了傳統(tǒng)多維尺度分析方法的不足。(2)以專家性用戶經(jīng)驗(yàn)為參照標(biāo)準(zhǔn),基于社交媒體平臺中大眾性用戶體驗(yàn)構(gòu)建知識圖譜。由于大眾性用戶對領(lǐng)域知識缺乏系統(tǒng)全面的認(rèn)知,導(dǎo)致交互數(shù)據(jù)非常稀、碎片化,因此將專家經(jīng)驗(yàn)作為參照標(biāo)準(zhǔn)是很有必要的。對社交媒體平臺中的用戶交互數(shù)據(jù)進(jìn)行自然語言處理,以專家詞典作為中文分詞詞典,使得處理結(jié)果更加規(guī)范化。同樣基于層次聚類以及社會網(wǎng)絡(luò)分析,構(gòu)建同質(zhì)網(wǎng)絡(luò)聚類以及異質(zhì)網(wǎng)絡(luò)聚類的知識圖譜,揭示節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系,便于兩者之間的分析比較。(3)將社交媒體平臺中大眾性用戶體驗(yàn)和專家性用戶經(jīng)驗(yàn)進(jìn)行比較分析,測度大眾性用戶體驗(yàn)的可信度。基于KL散度計(jì)算詞語之間的相似度,相似度越高,可信程度越大。然后對KL值從小到大進(jìn)行排列,設(shè)置閾值并且通過交叉驗(yàn)證的方法對不同閾值設(shè)定進(jìn)行評價(jià),選取指標(biāo)值最高的閾值設(shè)定作為保證分類結(jié)果最穩(wěn)健分類閾值。
【圖文】：

框架圖,模型構(gòu)建,框架圖,詞語

圖 3.1 模型構(gòu)建框架圖Fig.3.1 Model building frame diagram3.1.1 文本預(yù)處理由于文本聚類或者分類處理的是大量非結(jié)構(gòu)化的利用自然語言描述的非統(tǒng)一結(jié)構(gòu)的文本數(shù)據(jù)，因此對文本進(jìn)行特征提取前，需要先對這些文本數(shù)據(jù)進(jìn)行預(yù)處理，這會影響文本聚類或者分類的準(zhǔn)確率、效率以及最終模式的有效性。由于中文文本的詞語之間沒有空格，那么分詞就是一個(gè)必須要處理的問題。本文基于醫(yī)療詞典利用爬蟲軟件對獲取的文本進(jìn)行分詞。中文分詞后文本就變成了單個(gè)的詞語，這些詞語就是文本的特征項(xiàng)，如果直接用分詞后的詞語集合進(jìn)行建模的話，一來詞語空間比較大，導(dǎo)致性能比較低；二來詞語集合中有很多低頻詞、無意義詞等噪音，也會降低聚類和分類的效果，，所以要通過特征項(xiàng)提取選出最能代表文本的特征項(xiàng)和最能區(qū)分文本的特征項(xiàng)。本文建立在 TF-IDF 計(jì)算簡潔、速度快的基礎(chǔ)上，采用 TF-IDF 值來度量每個(gè)詞語的重要程度，通過 TF-IDF 值排序及語義分析選取特征詞語。

癥狀,碎石,知識圖,治療方案

高血壓癥狀和高血壓治療方案的專家性經(jīng)驗(yàn)內(nèi)容并整合成文本集然。先分別對高血壓癥狀及治療方案分別進(jìn)行同質(zhì)網(wǎng)絡(luò)聚類，以此構(gòu)將癥狀詞頻矩陣和治療詞頻矩陣個(gè)相乘得到癥狀-治療方案 2-mode質(zhì)網(wǎng)絡(luò)聚類并構(gòu)建知識圖譜，將癥狀-治療方案之間的關(guān)聯(lián)關(guān)系可同質(zhì)網(wǎng)絡(luò)聚類知識圖譜構(gòu)建可視化血壓癥狀樣本數(shù)據(jù)知識圖譜方便分析與觀測，本文從實(shí)驗(yàn)數(shù)據(jù)中選取 80 個(gè)對于癥狀判斷重要程樣本數(shù)據(jù)進(jìn)行分析。首先用 R 畫出這個(gè)樣本的碎石圖[73]，可以確定可以方便提取出其中的幾個(gè)小類具體展示。
【學(xué)位授予單位】：江蘇科技大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2018
【分類號】：G353.1

【參考文獻(xiàn)】

相關(guān)期刊論文前10條

1 李保珍;王亞;;社交媒體環(huán)境下網(wǎng)絡(luò)信息可信度評估研究綜述[J];情報(bào)學(xué)報(bào);2015年12期

2 錢揚(yáng);張金波;吳一陽;;大型無線網(wǎng)絡(luò)入侵安全風(fēng)險(xiǎn)等級評估[J];計(jì)算機(jī)仿真;2015年12期

3 曹倩;趙一鳴;;知識圖譜的技術(shù)實(shí)現(xiàn)流程及相關(guān)應(yīng)用[J];情報(bào)理論與實(shí)踐;2015年12期

4 劉春年;陳通;;基于共詞聚類的我國檔案信息化研究結(jié)構(gòu)、趨勢分析[J];檔案管理;2015年06期

5 王艷博;;圖書館學(xué)知識圖譜分析[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2015年21期

6 彭云;萬常選;江騰蛟;劉德喜;劉喜平;;一種詞聚類LDA的商品特征提取算法[J];小型微型計(jì)算機(jī)系統(tǒng);2015年07期

7 馮偉偉;秦長江;;國內(nèi)機(jī)構(gòu)知識庫研究現(xiàn)狀分析——基于知識圖譜的視角[J];現(xiàn)代情報(bào);2015年06期

8 高學(xué)東;黃月;;異質(zhì)對象協(xié)同實(shí)體解析的聯(lián)合聚類算法[J];系統(tǒng)工程理論與實(shí)踐;2015年04期

9 賈紅雨;趙雪燕;邱晨子;;基于復(fù)雜網(wǎng)絡(luò)的微博網(wǎng)絡(luò)輿情圖譜分析方法研究[J];現(xiàn)代情報(bào);2015年03期

10 許德山;張運(yùn)良;李芳;;中文本體三元組的單字索引與更新方法研究[J];圖書情報(bào)工作;2014年22期

相關(guān)碩士學(xué)位論文前4條

1 付茜;維基百科知識的層次化體系構(gòu)建[D];華中科技大學(xué);2016年

2 劉彥含;語義物聯(lián)網(wǎng)中基于統(tǒng)一知識圖譜的語義協(xié)同方法[D];大連海事大學(xué);2016年

3 范永東;模型選擇中的交叉驗(yàn)證方法綜述[D];山西大學(xué);2013年

4 吳啟南;一種改進(jìn)的基于層次的聚類和異常檢測算法及其在數(shù)據(jù)挖掘平臺上的應(yīng)用[D];新疆大學(xué);2002年

本文編號：2668140

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/tushudanganlunwen/2668140.html

上一篇：和諧社會公共圖書館總分館服務(wù)體系建設(shè)研究
下一篇：增強(qiáng)現(xiàn)實(shí)（AR）對圖書館服務(wù)與管理的提升研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于領(lǐng)域知識圖譜的網(wǎng)絡(luò)信息可信度測度