Web熱點(diǎn)信息發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-05-20 12:15
本文關(guān)鍵詞:Web熱點(diǎn)信息發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:近幾年來,Web網(wǎng)站技術(shù)發(fā)展迅速,已經(jīng)徹底改變了互聯(lián)網(wǎng)的面貌。Web網(wǎng)站現(xiàn)在更加強(qiáng)調(diào)自由創(chuàng)作和用戶參與活動(dòng),越來越多的網(wǎng)民在新一代Web平臺(tái)上創(chuàng)造了海量生動(dòng)有趣的信息內(nèi)容。越來越豐富的互聯(lián)網(wǎng)信息資源使得用戶難以在信息浩瀚的數(shù)據(jù)海洋中尋找到自己真正感興趣的信息。因此,各種各樣的信息檢索和搜索引擎技術(shù)得到了廣泛關(guān)注和巨大發(fā)展。 隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)媒體已經(jīng)成為繼報(bào)紙、廣播、電視之后的“第四大媒體”。由于網(wǎng)絡(luò)新聞所具備的開放性、信息傳播的快速性等特點(diǎn),使其成為熱點(diǎn)信息傳播的主要途徑,也是產(chǎn)生熱點(diǎn)信息的重要來源。因此,如何自動(dòng)的從巨大的網(wǎng)絡(luò)資源中發(fā)現(xiàn)當(dāng)前的熱點(diǎn)事件及實(shí)體具有非常重要的意義。 熱點(diǎn)信息包括熱點(diǎn)話題及熱點(diǎn)詞語,是指某段時(shí)間內(nèi)社會(huì)上發(fā)生的重大事件或人們普遍關(guān)注的對(duì)象;本文通過研究現(xiàn)有的話題檢測(cè)與跟蹤以及關(guān)鍵詞的自動(dòng)抽取等技術(shù),利用這些技術(shù)來自動(dòng)發(fā)現(xiàn)網(wǎng)絡(luò)新聞報(bào)道中熱點(diǎn)信息,設(shè)計(jì)并實(shí)現(xiàn)了Web熱點(diǎn)信息發(fā)現(xiàn)系統(tǒng)。本文研究內(nèi)容的創(chuàng)新點(diǎn)主要包括:(1)新聞網(wǎng)頁的分類抓取及文本預(yù)處理操作;(2)針對(duì)高維向量的稀疏問題,提出了一種稀疏向量壓縮存儲(chǔ)和相似度計(jì)算方法;(3)熱點(diǎn)信息的自動(dòng)發(fā)現(xiàn)功能;(4)熱點(diǎn)信息的展示功能。通過對(duì)熱點(diǎn)話題和熱點(diǎn)詞語進(jìn)行統(tǒng)計(jì)分析,最終以各種圖表的方式進(jìn)行了展示。
【關(guān)鍵詞】:Web網(wǎng)站技術(shù) 熱點(diǎn)信息 自我發(fā)現(xiàn) 文本預(yù)處理 關(guān)鍵詞自動(dòng)抽取
【學(xué)位授予單位】:湖南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092
【目錄】:
- 摘要5-6
- Abstract6-12
- 第1章 緒論12-17
- 1.1 研究背景和意義12-13
- 1.2 國內(nèi)外研究現(xiàn)狀13-15
- 1.2.1 話題的檢測(cè)與跟蹤研究現(xiàn)狀13-14
- 1.2.2 關(guān)鍵詞自動(dòng)抽取研究現(xiàn)狀14-15
- 1.3 研究內(nèi)容與創(chuàng)新點(diǎn)15-16
- 1.4 論文結(jié)構(gòu)16-17
- 第2章 相關(guān)理論和關(guān)鍵技術(shù)17-25
- 2.1 PAT-Tree技術(shù)17-19
- 2.2 網(wǎng)頁正文抽取技術(shù)19-20
- 2.3 文本相似度計(jì)算方法20-21
- 2.4 文本聚類21-24
- 2.4.1 文本聚類概述21-22
- 2.4.2 常用靜態(tài)聚類算法22-24
- 2.4.3 常用動(dòng)態(tài)聚類算法24
- 2.5 本章小結(jié)24-25
- 第3章 Web頁面采集與文本預(yù)處理25-35
- 3.1 網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)25-28
- 3.1.1 真實(shí)站點(diǎn)目錄層次結(jié)構(gòu)抽取25-27
- 3.1.2 網(wǎng)頁分類抓取實(shí)現(xiàn)27-28
- 3.2 網(wǎng)頁正文抽取28-30
- 3.3 文本預(yù)處理30-34
- 3.3.1 中文分詞31
- 3.3.2 停用詞處理31-32
- 3.3.3 特征詞抽取及權(quán)重處理32-33
- 3.3.4 稀疏向量壓縮矩陣及相似度計(jì)算33-34
- 3.4 本章小結(jié)34-35
- 第4章 熱點(diǎn)信息發(fā)現(xiàn)35-52
- 4.1 熱點(diǎn)信息發(fā)現(xiàn)功能劃分35
- 4.2 熱點(diǎn)詞語發(fā)現(xiàn)35-46
- 4.2.1 熱點(diǎn)命名實(shí)體抽取36-39
- 4.2.2 熱點(diǎn)非實(shí)體串識(shí)別39-46
- 4.3 熱點(diǎn)話題發(fā)現(xiàn)與跟蹤46-51
- 4.3.1 熱點(diǎn)話題定義46
- 4.3.2 話題檢測(cè)與跟蹤的設(shè)計(jì)與實(shí)現(xiàn)46-49
- 4.3.3 話題的熱度分析49
- 4.3.4 話題發(fā)現(xiàn)與跟蹤的類圖49-51
- 4.4 本章小結(jié)51-52
- 第5章 熱點(diǎn)信息分析及測(cè)試52-64
- 5.1 軟件測(cè)試方法52
- 5.2 測(cè)試流程52-53
- 5.3 測(cè)試用例53
- 5.4 熱點(diǎn)話題分析與測(cè)試結(jié)果53-61
- 5.4.1 話題標(biāo)題抽取與測(cè)試54-59
- 5.4.2 話題趨勢(shì)圖分析與測(cè)試59-60
- 5.4.3 話題信息島圖分析與測(cè)試60-61
- 5.5 熱點(diǎn)詞語分析與測(cè)試結(jié)果61-63
- 5.5.1 熱點(diǎn)詞語分析與測(cè)試61-62
- 5.5.2 熱點(diǎn)詞語趨勢(shì)與測(cè)試62
- 5.5.3 熱點(diǎn)詞語頻率分析與測(cè)試62-63
- 5.6 本章小結(jié)63-64
- 結(jié)論64-66
- 參考文獻(xiàn)66-70
- 致謝70
【相似文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 徐慧;Web熱點(diǎn)信息發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2014年
本文關(guān)鍵詞:Web熱點(diǎn)信息發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):381591
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/381591.html
最近更新
教材專著