基于可信度和語(yǔ)義相似度的網(wǎng)頁(yè)信息甄選研究
發(fā)布時(shí)間:2017-06-16 00:12
本文關(guān)鍵詞:基于可信度和語(yǔ)義相似度的網(wǎng)頁(yè)信息甄選研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為一個(gè)巨大的、全球性的信息服務(wù)中心,成為人們獲取信息知識(shí)的主要來(lái)源。但是,由于互聯(lián)網(wǎng)的開放性、無(wú)界性等特點(diǎn),使得互聯(lián)網(wǎng)上的信息質(zhì)量參差不齊,魚目混雜,充斥著很多虛假、有誤、無(wú)用等信息。在面對(duì)互聯(lián)網(wǎng)上浩如煙海、良莠不齊的信息時(shí),人們通常使用主流搜索引擎來(lái)查找自身所需信息。然而,主流搜索引擎作為商業(yè)工具,其搜索結(jié)果也不能使用戶覺得特別滿意:一方面,它不能保證信息質(zhì)量可靠的網(wǎng)頁(yè)都排在前面;另一方面,它可能包含大量重復(fù)和轉(zhuǎn)載的網(wǎng)頁(yè)。這極大地影響了用戶獲取信息的效率,同時(shí)也嚴(yán)重浪費(fèi)了用戶篩選信息的時(shí)間和精力。因此,本文提出基于可信度和語(yǔ)義相似度的網(wǎng)頁(yè)信息甄選方法,旨在為用戶減輕從互聯(lián)網(wǎng)獲取高質(zhì)量和高可信度信息的負(fù)擔(dān),提高網(wǎng)頁(yè)信息甄選的效率。本文首先在對(duì)國(guó)內(nèi)外現(xiàn)有相關(guān)研究進(jìn)行全面調(diào)查和系統(tǒng)分析的基礎(chǔ)上,歸納總結(jié)相關(guān)的理論研究成果和技術(shù)方法;其次,重點(diǎn)構(gòu)建本研究所使用的網(wǎng)頁(yè)信息可信度評(píng)估指標(biāo)體系,并將其劃分為來(lái)源權(quán)威性、內(nèi)容重要性和網(wǎng)頁(yè)相關(guān)性三個(gè)層次,每個(gè)層次還設(shè)定多個(gè)具體的評(píng)價(jià)指標(biāo),通過(guò)專家打分法和層次分析法確定每個(gè)指標(biāo)的權(quán)重,并給出可信度的計(jì)算公式;再次,本文在對(duì)網(wǎng)頁(yè)內(nèi)容和結(jié)構(gòu)進(jìn)行詳細(xì)分析的基礎(chǔ)上,重點(diǎn)研究分析基于DOM樹結(jié)構(gòu)的網(wǎng)頁(yè)正文提取方法和實(shí)現(xiàn)過(guò)程,并將LDA主題模型應(yīng)用到網(wǎng)頁(yè)的語(yǔ)義相似度計(jì)算當(dāng)中,提出基于LDA主題模型的網(wǎng)頁(yè)語(yǔ)義相似度計(jì)算方法,詳細(xì)研究其實(shí)現(xiàn)過(guò)程;最后,本文設(shè)計(jì)并實(shí)現(xiàn)基于可信度和語(yǔ)義相似度的網(wǎng)頁(yè)信息甄選系統(tǒng),詳細(xì)分析系統(tǒng)各個(gè)模塊的功能,并通過(guò)相關(guān)實(shí)驗(yàn)和結(jié)果分析,驗(yàn)證本文所提方法的有效性與實(shí)用性。
【關(guān)鍵詞】:網(wǎng)頁(yè)信息可信度 信息甄選 語(yǔ)義相似度 DOM LDA主題模型
【學(xué)位授予單位】:南京理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.092;TP391.3
【目錄】:
- 摘要5-6
- Abstract6-11
- 1 緒論11-25
- 1.1 論文研究背景與意義11-13
- 1.1.1 研究背景11-12
- 1.1.2 研究意義12-13
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀13-20
- 1.2.1 網(wǎng)絡(luò)信息可信度研究現(xiàn)狀分析13-16
- 1.2.2 網(wǎng)頁(yè)相似性研究現(xiàn)狀分析16-19
- 1.2.3 網(wǎng)頁(yè)信息甄選研究現(xiàn)狀分析19-20
- 1.3 研究問(wèn)題、內(nèi)容與方法20-23
- 1.3.1 研究目標(biāo)與問(wèn)題20-21
- 1.3.2 研究的主要內(nèi)容21-22
- 1.3.3 研究方法22-23
- 1.4 本文的創(chuàng)新點(diǎn)23
- 1.5 本文的內(nèi)容組織結(jié)構(gòu)23-24
- 1.6 本章小結(jié)24-25
- 2 研究的理論基礎(chǔ)與技術(shù)方法25-39
- 2.1 網(wǎng)頁(yè)信息可信度評(píng)估理論25-28
- 2.1.1 信息可信度的定義25-26
- 2.1.2 網(wǎng)頁(yè)信息的屬性和特點(diǎn)26-27
- 2.1.3 網(wǎng)頁(yè)信息可信度的評(píng)估標(biāo)準(zhǔn)27-28
- 2.2 網(wǎng)頁(yè)相似度計(jì)算理論與方法28-31
- 2.2.1 向量空間模型28-29
- 2.2.2 網(wǎng)頁(yè)相似性特點(diǎn)29-30
- 2.2.3 相似網(wǎng)頁(yè)識(shí)別的基本流程30-31
- 2.3 文本語(yǔ)義相似度計(jì)算方法與理論31-35
- 2.3.1 詞語(yǔ)語(yǔ)義相似度與計(jì)算方法31-32
- 2.3.2 文本語(yǔ)義相似度計(jì)算的常用方法32-35
- 2.4 Web信息抽取方法與理論35-38
- 2.4.1 Web信息抽取的內(nèi)涵35-36
- 2.4.2 Web正文信息抽取的主要方法36-38
- 2.5 本章小結(jié)38-39
- 3 網(wǎng)頁(yè)信息可信度評(píng)估體系構(gòu)建與計(jì)算方法研究39-54
- 3.1 網(wǎng)頁(yè)信息可信度評(píng)估體系構(gòu)建39-46
- 3.1.1 網(wǎng)頁(yè)信息可信度評(píng)估指標(biāo)分析39-42
- 3.1.2 可信度評(píng)估指標(biāo)體系的構(gòu)成研究42-46
- 3.2 網(wǎng)頁(yè)信息可信度評(píng)估流程分析46-48
- 3.3 網(wǎng)頁(yè)信息可信度計(jì)算方法研究48-53
- 3.3.1 可信度計(jì)算公式48-49
- 3.3.2 指標(biāo)權(quán)重選取方法研究49-53
- 3.4 本章小結(jié)53-54
- 4 網(wǎng)頁(yè)語(yǔ)義相似度計(jì)算方法與分析54-66
- 4.1 基于DOM的網(wǎng)頁(yè)正文內(nèi)容抽取研究54-61
- 4.1.1 網(wǎng)頁(yè)內(nèi)容和結(jié)構(gòu)分析54-56
- 4.1.2 基于DOM的正文提取算法分析與實(shí)現(xiàn)56-61
- 4.2 基于LDA的網(wǎng)頁(yè)語(yǔ)義相似度計(jì)算方法研究61-65
- 4.2.1 基于LDA的文本建模分析61-64
- 4.2.2 語(yǔ)義相似度計(jì)算研究64-65
- 4.3 本章小結(jié)65-66
- 5 系統(tǒng)設(shè)計(jì)與實(shí)驗(yàn)分析66-77
- 5.1 系統(tǒng)功能與結(jié)構(gòu)設(shè)計(jì)66-69
- 5.1.1 實(shí)驗(yàn)環(huán)境介紹67-68
- 5.1.2 系統(tǒng)功能模塊設(shè)計(jì)68-69
- 5.2 實(shí)驗(yàn)過(guò)程分析69-74
- 5.2.1 數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)69-70
- 5.2.2 系統(tǒng)主要界面分析70-74
- 5.3 實(shí)驗(yàn)結(jié)果分析74-76
- 5.4 本章小結(jié)76-77
- 6 總結(jié)與展望77-79
- 6.1 全文總結(jié)77-78
- 6.2 工作展望78-79
- 致謝79-80
- 參考文獻(xiàn)80-84
本文關(guān)鍵詞:基于可信度和語(yǔ)義相似度的網(wǎng)頁(yè)信息甄選研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):453896
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/453896.html
最近更新
教材專著