天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于可信度和語義相似度的網(wǎng)頁信息甄選研究

發(fā)布時(shí)間:2017-06-16 00:12

  本文關(guān)鍵詞:基于可信度和語義相似度的網(wǎng)頁信息甄選研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為一個(gè)巨大的、全球性的信息服務(wù)中心,成為人們獲取信息知識的主要來源。但是,由于互聯(lián)網(wǎng)的開放性、無界性等特點(diǎn),使得互聯(lián)網(wǎng)上的信息質(zhì)量參差不齊,魚目混雜,充斥著很多虛假、有誤、無用等信息。在面對互聯(lián)網(wǎng)上浩如煙海、良莠不齊的信息時(shí),人們通常使用主流搜索引擎來查找自身所需信息。然而,主流搜索引擎作為商業(yè)工具,其搜索結(jié)果也不能使用戶覺得特別滿意:一方面,它不能保證信息質(zhì)量可靠的網(wǎng)頁都排在前面;另一方面,它可能包含大量重復(fù)和轉(zhuǎn)載的網(wǎng)頁。這極大地影響了用戶獲取信息的效率,同時(shí)也嚴(yán)重浪費(fèi)了用戶篩選信息的時(shí)間和精力。因此,本文提出基于可信度和語義相似度的網(wǎng)頁信息甄選方法,旨在為用戶減輕從互聯(lián)網(wǎng)獲取高質(zhì)量和高可信度信息的負(fù)擔(dān),提高網(wǎng)頁信息甄選的效率。本文首先在對國內(nèi)外現(xiàn)有相關(guān)研究進(jìn)行全面調(diào)查和系統(tǒng)分析的基礎(chǔ)上,歸納總結(jié)相關(guān)的理論研究成果和技術(shù)方法;其次,重點(diǎn)構(gòu)建本研究所使用的網(wǎng)頁信息可信度評估指標(biāo)體系,并將其劃分為來源權(quán)威性、內(nèi)容重要性和網(wǎng)頁相關(guān)性三個(gè)層次,每個(gè)層次還設(shè)定多個(gè)具體的評價(jià)指標(biāo),通過專家打分法和層次分析法確定每個(gè)指標(biāo)的權(quán)重,并給出可信度的計(jì)算公式;再次,本文在對網(wǎng)頁內(nèi)容和結(jié)構(gòu)進(jìn)行詳細(xì)分析的基礎(chǔ)上,重點(diǎn)研究分析基于DOM樹結(jié)構(gòu)的網(wǎng)頁正文提取方法和實(shí)現(xiàn)過程,并將LDA主題模型應(yīng)用到網(wǎng)頁的語義相似度計(jì)算當(dāng)中,提出基于LDA主題模型的網(wǎng)頁語義相似度計(jì)算方法,詳細(xì)研究其實(shí)現(xiàn)過程;最后,本文設(shè)計(jì)并實(shí)現(xiàn)基于可信度和語義相似度的網(wǎng)頁信息甄選系統(tǒng),詳細(xì)分析系統(tǒng)各個(gè)模塊的功能,并通過相關(guān)實(shí)驗(yàn)和結(jié)果分析,驗(yàn)證本文所提方法的有效性與實(shí)用性。
【關(guān)鍵詞】:網(wǎng)頁信息可信度 信息甄選 語義相似度 DOM LDA主題模型
【學(xué)位授予單位】:南京理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092;TP391.3
【目錄】:
  • 摘要5-6
  • Abstract6-11
  • 1 緒論11-25
  • 1.1 論文研究背景與意義11-13
  • 1.1.1 研究背景11-12
  • 1.1.2 研究意義12-13
  • 1.2 國內(nèi)外研究現(xiàn)狀13-20
  • 1.2.1 網(wǎng)絡(luò)信息可信度研究現(xiàn)狀分析13-16
  • 1.2.2 網(wǎng)頁相似性研究現(xiàn)狀分析16-19
  • 1.2.3 網(wǎng)頁信息甄選研究現(xiàn)狀分析19-20
  • 1.3 研究問題、內(nèi)容與方法20-23
  • 1.3.1 研究目標(biāo)與問題20-21
  • 1.3.2 研究的主要內(nèi)容21-22
  • 1.3.3 研究方法22-23
  • 1.4 本文的創(chuàng)新點(diǎn)23
  • 1.5 本文的內(nèi)容組織結(jié)構(gòu)23-24
  • 1.6 本章小結(jié)24-25
  • 2 研究的理論基礎(chǔ)與技術(shù)方法25-39
  • 2.1 網(wǎng)頁信息可信度評估理論25-28
  • 2.1.1 信息可信度的定義25-26
  • 2.1.2 網(wǎng)頁信息的屬性和特點(diǎn)26-27
  • 2.1.3 網(wǎng)頁信息可信度的評估標(biāo)準(zhǔn)27-28
  • 2.2 網(wǎng)頁相似度計(jì)算理論與方法28-31
  • 2.2.1 向量空間模型28-29
  • 2.2.2 網(wǎng)頁相似性特點(diǎn)29-30
  • 2.2.3 相似網(wǎng)頁識別的基本流程30-31
  • 2.3 文本語義相似度計(jì)算方法與理論31-35
  • 2.3.1 詞語語義相似度與計(jì)算方法31-32
  • 2.3.2 文本語義相似度計(jì)算的常用方法32-35
  • 2.4 Web信息抽取方法與理論35-38
  • 2.4.1 Web信息抽取的內(nèi)涵35-36
  • 2.4.2 Web正文信息抽取的主要方法36-38
  • 2.5 本章小結(jié)38-39
  • 3 網(wǎng)頁信息可信度評估體系構(gòu)建與計(jì)算方法研究39-54
  • 3.1 網(wǎng)頁信息可信度評估體系構(gòu)建39-46
  • 3.1.1 網(wǎng)頁信息可信度評估指標(biāo)分析39-42
  • 3.1.2 可信度評估指標(biāo)體系的構(gòu)成研究42-46
  • 3.2 網(wǎng)頁信息可信度評估流程分析46-48
  • 3.3 網(wǎng)頁信息可信度計(jì)算方法研究48-53
  • 3.3.1 可信度計(jì)算公式48-49
  • 3.3.2 指標(biāo)權(quán)重選取方法研究49-53
  • 3.4 本章小結(jié)53-54
  • 4 網(wǎng)頁語義相似度計(jì)算方法與分析54-66
  • 4.1 基于DOM的網(wǎng)頁正文內(nèi)容抽取研究54-61
  • 4.1.1 網(wǎng)頁內(nèi)容和結(jié)構(gòu)分析54-56
  • 4.1.2 基于DOM的正文提取算法分析與實(shí)現(xiàn)56-61
  • 4.2 基于LDA的網(wǎng)頁語義相似度計(jì)算方法研究61-65
  • 4.2.1 基于LDA的文本建模分析61-64
  • 4.2.2 語義相似度計(jì)算研究64-65
  • 4.3 本章小結(jié)65-66
  • 5 系統(tǒng)設(shè)計(jì)與實(shí)驗(yàn)分析66-77
  • 5.1 系統(tǒng)功能與結(jié)構(gòu)設(shè)計(jì)66-69
  • 5.1.1 實(shí)驗(yàn)環(huán)境介紹67-68
  • 5.1.2 系統(tǒng)功能模塊設(shè)計(jì)68-69
  • 5.2 實(shí)驗(yàn)過程分析69-74
  • 5.2.1 數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì)69-70
  • 5.2.2 系統(tǒng)主要界面分析70-74
  • 5.3 實(shí)驗(yàn)結(jié)果分析74-76
  • 5.4 本章小結(jié)76-77
  • 6 總結(jié)與展望77-79
  • 6.1 全文總結(jié)77-78
  • 6.2 工作展望78-79
  • 致謝79-80
  • 參考文獻(xiàn)80-84

  本文關(guān)鍵詞:基于可信度和語義相似度的網(wǎng)頁信息甄選研究,由筆耕文化傳播整理發(fā)布。

,

本文編號:453896

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/453896.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a706f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com