基于信息融合的Web信息可信度研究
本文關(guān)鍵詞:基于信息融合的Web信息可信度研究,由筆耕文化傳播整理發(fā)布。
【摘要】:當(dāng)用戶通過在網(wǎng)絡(luò)上尋找自己需要的信息時(shí),使用最多的工具是搜索引擎。然而作為商業(yè)工具,搜索引擎的結(jié)果也并沒有讓用戶特別滿意。當(dāng)然用戶可以自己逐一篩選找出有用結(jié)果。但是如果要進(jìn)行Web信息融合,直接使用搜索引擎的結(jié)果會加大信息融合的工作量,甚至可能導(dǎo)致結(jié)果不準(zhǔn)確。本文在這樣的背景下提出了基于信息融合的Web信息可信度評估。 通過分析搜索引擎在網(wǎng)頁可信度評估方面的不足,再根據(jù)Web信息的特點(diǎn)和信息融合的要求,得出影響Web信息可信度最重要的指標(biāo)網(wǎng)頁相關(guān)度。本文對網(wǎng)頁相關(guān)度的計(jì)算進(jìn)行了研究,構(gòu)建了信息可信度評估指標(biāo)體系,提出了可信度計(jì)算方法。 本文主要內(nèi)容如下: 1.分析現(xiàn)階段使用較多的計(jì)算網(wǎng)頁相關(guān)度的算法,根據(jù)信息融合的特征,提出本文采用的算法詞頻位置加權(quán)排序算法。根據(jù)原有算法的缺點(diǎn),提出改進(jìn)設(shè)想。引入了TextRank模型來提取主題詞,并在原有的TextRank模型基礎(chǔ)上加入詞語本身的位置權(quán)重。既引入了詞語的語義概念,又考慮了詞語所在網(wǎng)頁的位置,提高了主題詞提取的準(zhǔn)確率。計(jì)算相關(guān)度時(shí),將詞語在提取主題詞步驟計(jì)算出詞語的權(quán)重引入公式中,還考慮了主題詞與查詢詞的語義相似度。相關(guān)度計(jì)算考慮了詞語間的語義關(guān)系、詞語的頻率和位置,使得計(jì)算更準(zhǔn)確。 2.歸納了現(xiàn)有的信息可信度評估指標(biāo),通過分析搜索引擎在可信度評估方面的不足,構(gòu)建了本文采用的信息可信度評估指標(biāo)體系。從權(quán)威性、重要性、相關(guān)性三個(gè)方面來評估可信度,每個(gè)方面選取最相關(guān)的指標(biāo),提出了計(jì)算可信度的公式。通過這個(gè)公式計(jì)算的可信度是綜合考慮了幾種最有影響力最客觀的指標(biāo),使得可信度的值也最接近信息融合的需要。 3.設(shè)計(jì)與實(shí)施了可信度評估系統(tǒng)來驗(yàn)證上述方法的有效性,并對結(jié)果進(jìn)行了分析。結(jié)果表明,本文提出的算法具有一定的有效性和實(shí)用性。
【關(guān)鍵詞】:信息可信度 信息融合 詞頻位置加權(quán)排序 TextRank模型 可信度評估體系
【學(xué)位授予單位】:中南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP202
【目錄】:
- 摘要4-5
- Abstract5-7
- 目錄7-9
- 1 緒論9-14
- 1.1 論文研究背景與意義9
- 1.1.1 論文研究背景9
- 1.1.2 論文研究意義9
- 1.2 國內(nèi)外研究現(xiàn)狀9-12
- 1.3 論文的重點(diǎn)和創(chuàng)新點(diǎn)12
- 1.4 論文組織結(jié)構(gòu)安排12-14
- 2 Web信息可信度相關(guān)技術(shù)和理論分析14-23
- 2.1 信息可信度評估理論分析14-15
- 2.2 搜索引擎基本流程與原理15-17
- 2.3 基于鏈接分析的算法17-20
- 2.3.1 PageRank算法17-18
- 2.3.2 Hilltop算法18-19
- 2.3.3 HITS算法19
- 2.3.4 TrustRank算法19-20
- 2.4 基于內(nèi)容分析和鏈接分析的算法20-22
- 2.4.1 Topic-sensitive PageRank算法20-21
- 2.4.2 ARC算法21
- 2.4.3 Average和Sim算法21-22
- 2.5 本章小結(jié)22-23
- 3 網(wǎng)頁內(nèi)容相關(guān)可信度計(jì)算算法研究23-39
- 3.1 網(wǎng)頁相關(guān)度計(jì)算算法23-27
- 3.1.1 向量空間模型概念23-24
- 3.1.2 詞頻位置加權(quán)排序算法24-25
- 3.1.3 基于語義模型方法25-27
- 3.2 基于內(nèi)容相關(guān)度算法的改進(jìn)研究27-29
- 3.2.1 傳統(tǒng)的內(nèi)容相關(guān)度算法的缺點(diǎn)27-28
- 3.2.2 本文采用的內(nèi)容相關(guān)度算法28-29
- 3.3 主題詞提取算法改進(jìn)29-36
- 3.3.1 主題詞提取方法30-31
- 3.3.2 TextRank算法31-32
- 3.3.3 結(jié)合位置權(quán)重的TextRank算法32-36
- 3.4 相關(guān)度計(jì)算36-38
- 3.4.1 相關(guān)度計(jì)算公式36-37
- 3.4.2 算法分析37-38
- 3.5 本章小結(jié)38-39
- 4 Web信息可信度計(jì)算方法39-54
- 4.1 Web信息可信度指標(biāo)體系39-49
- 4.1.1 Web信息可信度指標(biāo)分析39-43
- 4.1.2 搜索引擎可信度評估分析43-45
- 4.1.3 可信度評估指標(biāo)體系結(jié)構(gòu)45-49
- 4.2 Web信息可信度評估流程49-51
- 4.3 可信度計(jì)算方法51-53
- 4.3.1 可信度計(jì)算公式51
- 4.3.2 指標(biāo)權(quán)重選取方法51-53
- 4.4 本章小結(jié)53-54
- 5 可信度評估系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)54-63
- 5.1 系統(tǒng)設(shè)計(jì)54-57
- 5.1.1 實(shí)驗(yàn)環(huán)境介紹55
- 5.1.2 系統(tǒng)模塊介紹55-57
- 5.2 實(shí)驗(yàn)過程57-59
- 5.2.1 數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)57-58
- 5.2.2 主要界面58-59
- 5.3 實(shí)驗(yàn)結(jié)果分析59-62
- 5.4 本章小結(jié)62-63
- 6 總結(jié)與展望63-65
- 6.1 總結(jié)63-64
- 6.2 展望64-65
- 參考文獻(xiàn)65-69
- 攻讀學(xué)位期間主要研究成果69-70
- 致謝70
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王暉;陳麗;陳墾;薛漫清;梁慶;;多指標(biāo)綜合評價(jià)方法及權(quán)重系數(shù)的選擇[J];廣東藥學(xué)院學(xué)報(bào);2007年05期
2 王立霞;淮曉永;;基于語義的中文文本關(guān)鍵詞提取算法[J];計(jì)算機(jī)工程;2012年01期
3 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計(jì)算機(jī)學(xué)報(bào);2011年08期
4 徐險(xiǎn)峰,盧云;雅虎中國分類體系剖析[J];新世紀(jì)圖書館;2005年05期
5 李靜月;李培峰;朱巧明;;一種改進(jìn)的TFIDF網(wǎng)頁關(guān)鍵詞提取方法[J];計(jì)算機(jī)應(yīng)用與軟件;2011年05期
6 李鵬;王斌;石志偉;崔雅超;李恒訓(xùn);;Tag-TextRank:一種基于Tag的網(wǎng)頁關(guān)鍵詞抽取方法[J];計(jì)算機(jī)研究與發(fā)展;2012年11期
7 原福永;張園園;;基于鏈接分析的相關(guān)排序方法的研究和改進(jìn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年07期
8 支鳳麟;徐煒民;;基于主題的個(gè)性化查詢擴(kuò)展模型[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年20期
9 朱寧;陳紅勤;聶應(yīng)高;;網(wǎng)絡(luò)信息有效獲取與可信度的案例分析[J];圖書館學(xué)研究;2009年11期
10 劉陽;張化祥;;基于結(jié)合內(nèi)容特征的TrustRank算法改進(jìn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年04期
本文關(guān)鍵詞:基于信息融合的Web信息可信度研究,由筆耕文化傳播整理發(fā)布。
,本文編號:351470
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/351470.html