基于領(lǐng)域知識圖譜的網(wǎng)絡(luò)信息可信度測度
【圖文】:
圖 3.1 模型構(gòu)建框架圖Fig.3.1 Model building frame diagram3.1.1 文本預(yù)處理由于文本聚類或者分類處理的是大量非結(jié)構(gòu)化的利用自然語言描述的非統(tǒng)一結(jié)構(gòu)的文本數(shù)據(jù),因此對文本進(jìn)行特征提取前,需要先對這些文本數(shù)據(jù)進(jìn)行預(yù)處理,這會影響文本聚類或者分類的準(zhǔn)確率、效率以及最終模式的有效性。由于中文文本的詞語之間沒有空格,那么分詞就是一個(gè)必須要處理的問題。本文基于醫(yī)療詞典利用爬蟲軟件對獲取的文本進(jìn)行分詞。中文分詞后文本就變成了單個(gè)的詞語,這些詞語就是文本的特征項(xiàng),如果直接用分詞后的詞語集合進(jìn)行建模的話,一來詞語空間比較大,導(dǎo)致性能比較低;二來詞語集合中有很多低頻詞、無意義詞等噪音,也會降低聚類和分類的效果,,所以要通過特征項(xiàng)提取選出最能代表文本的特征項(xiàng)和最能區(qū)分文本的特征項(xiàng)。本文建立在 TF-IDF 計(jì)算簡潔、速度快的基礎(chǔ)上,采用 TF-IDF 值來度量每個(gè)詞語的重要程度,通過 TF-IDF 值排序及語義分析選取特征詞語。
高血壓癥狀和高血壓治療方案的專家性經(jīng)驗(yàn)內(nèi)容并整合成文本集然。先分別對高血壓癥狀及治療方案分別進(jìn)行同質(zhì)網(wǎng)絡(luò)聚類,以此構(gòu)將癥狀詞頻矩陣和治療詞頻矩陣個(gè)相乘得到癥狀-治療方案 2-mode質(zhì)網(wǎng)絡(luò)聚類并構(gòu)建知識圖譜,將癥狀-治療方案之間的關(guān)聯(lián)關(guān)系可同質(zhì)網(wǎng)絡(luò)聚類知識圖譜構(gòu)建可視化血壓癥狀樣本數(shù)據(jù)知識圖譜方便分析與觀測,本文從實(shí)驗(yàn)數(shù)據(jù)中選取 80 個(gè)對于癥狀判斷重要程樣本數(shù)據(jù)進(jìn)行分析。首先用 R 畫出這個(gè)樣本的碎石圖[73],可以確定可以方便提取出其中的幾個(gè)小類具體展示。
【學(xué)位授予單位】:江蘇科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:G353.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李保珍;王亞;;社交媒體環(huán)境下網(wǎng)絡(luò)信息可信度評估研究綜述[J];情報(bào)學(xué)報(bào);2015年12期
2 錢揚(yáng);張金波;吳一陽;;大型無線網(wǎng)絡(luò)入侵安全風(fēng)險(xiǎn)等級評估[J];計(jì)算機(jī)仿真;2015年12期
3 曹倩;趙一鳴;;知識圖譜的技術(shù)實(shí)現(xiàn)流程及相關(guān)應(yīng)用[J];情報(bào)理論與實(shí)踐;2015年12期
4 劉春年;陳通;;基于共詞聚類的我國檔案信息化研究結(jié)構(gòu)、趨勢分析[J];檔案管理;2015年06期
5 王艷博;;圖書館學(xué)知識圖譜分析[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2015年21期
6 彭云;萬常選;江騰蛟;劉德喜;劉喜平;;一種詞聚類LDA的商品特征提取算法[J];小型微型計(jì)算機(jī)系統(tǒng);2015年07期
7 馮偉偉;秦長江;;國內(nèi)機(jī)構(gòu)知識庫研究現(xiàn)狀分析——基于知識圖譜的視角[J];現(xiàn)代情報(bào);2015年06期
8 高學(xué)東;黃月;;異質(zhì)對象協(xié)同實(shí)體解析的聯(lián)合聚類算法[J];系統(tǒng)工程理論與實(shí)踐;2015年04期
9 賈紅雨;趙雪燕;邱晨子;;基于復(fù)雜網(wǎng)絡(luò)的微博網(wǎng)絡(luò)輿情圖譜分析方法研究[J];現(xiàn)代情報(bào);2015年03期
10 許德山;張運(yùn)良;李芳;;中文本體三元組的單字索引與更新方法研究[J];圖書情報(bào)工作;2014年22期
相關(guān)碩士學(xué)位論文 前4條
1 付茜;維基百科知識的層次化體系構(gòu)建[D];華中科技大學(xué);2016年
2 劉彥含;語義物聯(lián)網(wǎng)中基于統(tǒng)一知識圖譜的語義協(xié)同方法[D];大連海事大學(xué);2016年
3 范永東;模型選擇中的交叉驗(yàn)證方法綜述[D];山西大學(xué);2013年
4 吳啟南;一種改進(jìn)的基于層次的聚類和異常檢測算法及其在數(shù)據(jù)挖掘平臺上的應(yīng)用[D];新疆大學(xué);2002年
本文編號:2668140
本文鏈接:http://sikaile.net/tushudanganlunwen/2668140.html