基于領域知識圖譜的網(wǎng)絡信息可信度測度
【圖文】:
圖 3.1 模型構建框架圖Fig.3.1 Model building frame diagram3.1.1 文本預處理由于文本聚類或者分類處理的是大量非結(jié)構化的利用自然語言描述的非統(tǒng)一結(jié)構的文本數(shù)據(jù),因此對文本進行特征提取前,需要先對這些文本數(shù)據(jù)進行預處理,這會影響文本聚類或者分類的準確率、效率以及最終模式的有效性。由于中文文本的詞語之間沒有空格,那么分詞就是一個必須要處理的問題。本文基于醫(yī)療詞典利用爬蟲軟件對獲取的文本進行分詞。中文分詞后文本就變成了單個的詞語,這些詞語就是文本的特征項,如果直接用分詞后的詞語集合進行建模的話,一來詞語空間比較大,導致性能比較低;二來詞語集合中有很多低頻詞、無意義詞等噪音,也會降低聚類和分類的效果,,所以要通過特征項提取選出最能代表文本的特征項和最能區(qū)分文本的特征項。本文建立在 TF-IDF 計算簡潔、速度快的基礎上,采用 TF-IDF 值來度量每個詞語的重要程度,通過 TF-IDF 值排序及語義分析選取特征詞語。
高血壓癥狀和高血壓治療方案的專家性經(jīng)驗內(nèi)容并整合成文本集然。先分別對高血壓癥狀及治療方案分別進行同質(zhì)網(wǎng)絡聚類,以此構將癥狀詞頻矩陣和治療詞頻矩陣個相乘得到癥狀-治療方案 2-mode質(zhì)網(wǎng)絡聚類并構建知識圖譜,將癥狀-治療方案之間的關聯(lián)關系可同質(zhì)網(wǎng)絡聚類知識圖譜構建可視化血壓癥狀樣本數(shù)據(jù)知識圖譜方便分析與觀測,本文從實驗數(shù)據(jù)中選取 80 個對于癥狀判斷重要程樣本數(shù)據(jù)進行分析。首先用 R 畫出這個樣本的碎石圖[73],可以確定可以方便提取出其中的幾個小類具體展示。
【學位授予單位】:江蘇科技大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:G353.1
【參考文獻】
相關期刊論文 前10條
1 李保珍;王亞;;社交媒體環(huán)境下網(wǎng)絡信息可信度評估研究綜述[J];情報學報;2015年12期
2 錢揚;張金波;吳一陽;;大型無線網(wǎng)絡入侵安全風險等級評估[J];計算機仿真;2015年12期
3 曹倩;趙一鳴;;知識圖譜的技術實現(xiàn)流程及相關應用[J];情報理論與實踐;2015年12期
4 劉春年;陳通;;基于共詞聚類的我國檔案信息化研究結(jié)構、趨勢分析[J];檔案管理;2015年06期
5 王艷博;;圖書館學知識圖譜分析[J];科技情報開發(fā)與經(jīng)濟;2015年21期
6 彭云;萬常選;江騰蛟;劉德喜;劉喜平;;一種詞聚類LDA的商品特征提取算法[J];小型微型計算機系統(tǒng);2015年07期
7 馮偉偉;秦長江;;國內(nèi)機構知識庫研究現(xiàn)狀分析——基于知識圖譜的視角[J];現(xiàn)代情報;2015年06期
8 高學東;黃月;;異質(zhì)對象協(xié)同實體解析的聯(lián)合聚類算法[J];系統(tǒng)工程理論與實踐;2015年04期
9 賈紅雨;趙雪燕;邱晨子;;基于復雜網(wǎng)絡的微博網(wǎng)絡輿情圖譜分析方法研究[J];現(xiàn)代情報;2015年03期
10 許德山;張運良;李芳;;中文本體三元組的單字索引與更新方法研究[J];圖書情報工作;2014年22期
相關碩士學位論文 前4條
1 付茜;維基百科知識的層次化體系構建[D];華中科技大學;2016年
2 劉彥含;語義物聯(lián)網(wǎng)中基于統(tǒng)一知識圖譜的語義協(xié)同方法[D];大連海事大學;2016年
3 范永東;模型選擇中的交叉驗證方法綜述[D];山西大學;2013年
4 吳啟南;一種改進的基于層次的聚類和異常檢測算法及其在數(shù)據(jù)挖掘平臺上的應用[D];新疆大學;2002年
本文編號:2668140
本文鏈接:http://sikaile.net/tushudanganlunwen/2668140.html