基于改進Single-Pass算法的熱點話題發(fā)現系統的設計與實現
發(fā)布時間:2017-08-18 13:37
本文關鍵詞:基于改進Single-Pass算法的熱點話題發(fā)現系統的設計與實現
更多相關文章: 特征選擇 相似度計算 文本聚類 Single-Pass算法 熱點發(fā)現系統
【摘要】:互聯網從出現到蓬勃發(fā)展至今在人們的經濟社會生活中發(fā)揮著越來越重要的作用與影響,這是一個前所未有的時代,我們可以在這里享受到海量的信息。然而,在當前情況下,一方面我們能在這種大數據的情況下獲取到更多的信息,而另一方面正是因為這種大數據的背景使得網絡上的信息多而繁雜,不僅使得信息難以管理,更加大了我們管理和發(fā)現有價值的信息的難度。因此,擁有一種能讓用戶迅速獲取自己所需信息的工具已成為了人們的急切需求。近幾年來搜索引擎的快速發(fā)展,減輕了信息過載的壓力,在此項技術中我們一般通過輸入一些關鍵字來獲取到對自己有用的信息,但是正因為他采用的是關鍵字匹配的技術,并且沒有對結果進行過濾,所以返回的信息必將有很高的信息冗余度,一般只要包含有部分關鍵字的網頁就作為結果被進行了返回,這使得結果中會包含很多實際不相關的網頁,最后我們還不得不入工去篩選自己所需的信息造成人力時間的浪費。而對于熱點問題,搜索引擎就變的更無能為力,現在的熱點話題或事件一般通過網上投票或者一些業(yè)界人士的人工篩選產生,因此具有一定的主觀性。針對以上的問題,通過分析現有的技術和成果,本文設計和實現了以下內容:(1)本文通過對熱點話題發(fā)現的需求分析,結合相關知識構建了熱點話題發(fā)現系統的整體系統框架,對系統在結構設計及處理流程方面遇到的問題進行了有效的解決。(2)在熱點話題發(fā)現系統的構建實現過程中本文結合了國內外的相關技術和研究,分別對信息采集、信息預處理、話題發(fā)現、熱點話題熱度計算以及用戶管理等模塊進行了設計與實現,其中為了更好地提高系統性能,本文對其所運用的文本挖掘算法Single-Pass聚類算法在聚類策略、文本向量表示以及相似度計算等方面進行了改進,最后利用熱度計算公式將發(fā)現的話題按照熱度進行排序并利用web技術將相關信息進行了展示,最后表明本文經過這一系列的方法設計的系統可以抽取并發(fā)現一些熱點話題。
【關鍵詞】:特征選擇 相似度計算 文本聚類 Single-Pass算法 熱點發(fā)現系統
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-10
- 第一章 緒論10-14
- 1.1 引言10-11
- 1.2 國內外研究現狀11-13
- 1.3 本文的主要工作13
- 1.4 本文結構安排13-14
- 第二章 相關理論和技術14-26
- 2.1 TDT相關知識14-17
- 2.1.1 TDT中的基本概念14-15
- 2.1.2 TDT的主要任務15-16
- 2.1.3 TDT的評測方法16-17
- 2.2 熱點話題發(fā)現模型17-22
- 2.3 文本聚類22-25
- 2.4 本章小結25-26
- 第三章 熱點話題發(fā)現26-44
- 3.1 熱點發(fā)現的整體框架26-28
- 3.2 信息采集28-33
- 3.2.1 網絡爬蟲28-31
- 3.2.2 內容抽取31-33
- 3.3 信息預處理33-37
- 3.3.1 中文分詞技術33
- 3.3.2 分詞、詞性標注33-35
- 3.3.3 特征選擇35-36
- 3.3.4 文本的向量表示36-37
- 3.4 信息挖掘37-43
- 3.4.1 Single-Pass聚類算法38-39
- 3.4.2 改進的Single-Pass算法39-41
- 3.4.3 熱度計算41-43
- 3.5 抽取案例43
- 3.6 本章小結43-44
- 第四章 熱點話題發(fā)現系統44-50
- 4.1 系統概述44-45
- 4.2 系統的開發(fā)平臺與開發(fā)環(huán)境45-46
- 4.3 系統數據庫表設計46
- 4.4 系統演示46-49
- 4.5 本章小結49-50
- 第五章 總結與展望50-52
- 5.1 總結50
- 5.2 展望50-52
- 參考文獻52-56
- 致謝56-57
【參考文獻】
中國期刊全文數據庫 前3條
1 李保利,俞士汶;話題識別與跟蹤研究[J];計算機工程與應用;2003年17期
2 洪宇;張宇;劉挺;李生;;話題檢測與跟蹤的評測及研究綜述[J];中文信息學報;2007年06期
3 馬國棟;李慧;;基于改進Single-Pass算法的BBS熱點話題發(fā)現[J];首都師范大學學報(自然科學版);2014年06期
中國碩士學位論文全文數據庫 前1條
1 羅暉霞;網絡輿情監(jiān)測系統研究與開發(fā)[D];中北大學;2010年
,本文編號:694872
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/694872.html
教材專著