天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

Web熱點信息發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2017-05-20 12:15

  本文關(guān)鍵詞:Web熱點信息發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。


【摘要】:近幾年來,Web網(wǎng)站技術(shù)發(fā)展迅速,已經(jīng)徹底改變了互聯(lián)網(wǎng)的面貌。Web網(wǎng)站現(xiàn)在更加強調(diào)自由創(chuàng)作和用戶參與活動,越來越多的網(wǎng)民在新一代Web平臺上創(chuàng)造了海量生動有趣的信息內(nèi)容。越來越豐富的互聯(lián)網(wǎng)信息資源使得用戶難以在信息浩瀚的數(shù)據(jù)海洋中尋找到自己真正感興趣的信息。因此,各種各樣的信息檢索和搜索引擎技術(shù)得到了廣泛關(guān)注和巨大發(fā)展。 隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)媒體已經(jīng)成為繼報紙、廣播、電視之后的“第四大媒體”。由于網(wǎng)絡(luò)新聞所具備的開放性、信息傳播的快速性等特點,使其成為熱點信息傳播的主要途徑,也是產(chǎn)生熱點信息的重要來源。因此,如何自動的從巨大的網(wǎng)絡(luò)資源中發(fā)現(xiàn)當(dāng)前的熱點事件及實體具有非常重要的意義。 熱點信息包括熱點話題及熱點詞語,是指某段時間內(nèi)社會上發(fā)生的重大事件或人們普遍關(guān)注的對象;本文通過研究現(xiàn)有的話題檢測與跟蹤以及關(guān)鍵詞的自動抽取等技術(shù),利用這些技術(shù)來自動發(fā)現(xiàn)網(wǎng)絡(luò)新聞報道中熱點信息,設(shè)計并實現(xiàn)了Web熱點信息發(fā)現(xiàn)系統(tǒng)。本文研究內(nèi)容的創(chuàng)新點主要包括:(1)新聞網(wǎng)頁的分類抓取及文本預(yù)處理操作;(2)針對高維向量的稀疏問題,提出了一種稀疏向量壓縮存儲和相似度計算方法;(3)熱點信息的自動發(fā)現(xiàn)功能;(4)熱點信息的展示功能。通過對熱點話題和熱點詞語進行統(tǒng)計分析,最終以各種圖表的方式進行了展示。
【關(guān)鍵詞】:Web網(wǎng)站技術(shù) 熱點信息 自我發(fā)現(xiàn) 文本預(yù)處理 關(guān)鍵詞自動抽取
【學(xué)位授予單位】:湖南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092
【目錄】:
  • 摘要5-6
  • Abstract6-12
  • 第1章 緒論12-17
  • 1.1 研究背景和意義12-13
  • 1.2 國內(nèi)外研究現(xiàn)狀13-15
  • 1.2.1 話題的檢測與跟蹤研究現(xiàn)狀13-14
  • 1.2.2 關(guān)鍵詞自動抽取研究現(xiàn)狀14-15
  • 1.3 研究內(nèi)容與創(chuàng)新點15-16
  • 1.4 論文結(jié)構(gòu)16-17
  • 第2章 相關(guān)理論和關(guān)鍵技術(shù)17-25
  • 2.1 PAT-Tree技術(shù)17-19
  • 2.2 網(wǎng)頁正文抽取技術(shù)19-20
  • 2.3 文本相似度計算方法20-21
  • 2.4 文本聚類21-24
  • 2.4.1 文本聚類概述21-22
  • 2.4.2 常用靜態(tài)聚類算法22-24
  • 2.4.3 常用動態(tài)聚類算法24
  • 2.5 本章小結(jié)24-25
  • 第3章 Web頁面采集與文本預(yù)處理25-35
  • 3.1 網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)25-28
  • 3.1.1 真實站點目錄層次結(jié)構(gòu)抽取25-27
  • 3.1.2 網(wǎng)頁分類抓取實現(xiàn)27-28
  • 3.2 網(wǎng)頁正文抽取28-30
  • 3.3 文本預(yù)處理30-34
  • 3.3.1 中文分詞31
  • 3.3.2 停用詞處理31-32
  • 3.3.3 特征詞抽取及權(quán)重處理32-33
  • 3.3.4 稀疏向量壓縮矩陣及相似度計算33-34
  • 3.4 本章小結(jié)34-35
  • 第4章 熱點信息發(fā)現(xiàn)35-52
  • 4.1 熱點信息發(fā)現(xiàn)功能劃分35
  • 4.2 熱點詞語發(fā)現(xiàn)35-46
  • 4.2.1 熱點命名實體抽取36-39
  • 4.2.2 熱點非實體串識別39-46
  • 4.3 熱點話題發(fā)現(xiàn)與跟蹤46-51
  • 4.3.1 熱點話題定義46
  • 4.3.2 話題檢測與跟蹤的設(shè)計與實現(xiàn)46-49
  • 4.3.3 話題的熱度分析49
  • 4.3.4 話題發(fā)現(xiàn)與跟蹤的類圖49-51
  • 4.4 本章小結(jié)51-52
  • 第5章 熱點信息分析及測試52-64
  • 5.1 軟件測試方法52
  • 5.2 測試流程52-53
  • 5.3 測試用例53
  • 5.4 熱點話題分析與測試結(jié)果53-61
  • 5.4.1 話題標(biāo)題抽取與測試54-59
  • 5.4.2 話題趨勢圖分析與測試59-60
  • 5.4.3 話題信息島圖分析與測試60-61
  • 5.5 熱點詞語分析與測試結(jié)果61-63
  • 5.5.1 熱點詞語分析與測試61-62
  • 5.5.2 熱點詞語趨勢與測試62
  • 5.5.3 熱點詞語頻率分析與測試62-63
  • 5.6 本章小結(jié)63-64
  • 結(jié)論64-66
  • 參考文獻66-70
  • 致謝70

【相似文獻】

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 徐慧;Web熱點信息發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];湖南大學(xué);2014年


  本文關(guān)鍵詞:Web熱點信息發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:381591

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/381591.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b1e0d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com