互聯(lián)網(wǎng)熱點話題聚類研究與實現(xiàn)
本文關(guān)鍵詞:互聯(lián)網(wǎng)熱點話題聚類研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)不斷的發(fā)展,計算機網(wǎng)絡(luò)給我們帶來豐富多彩的信息資源,但隨之而來的是獲取信息的難度在不斷增加。當(dāng)前信息日益膨脹的原因,主要是由網(wǎng)絡(luò)信息的兩個特征造成的:(1)網(wǎng)絡(luò)信息規(guī)模不斷增加(2)網(wǎng)絡(luò)信息結(jié)構(gòu)雜亂無章。因此,快速便捷的從互聯(lián)網(wǎng)中獲取所需相關(guān)信息的技術(shù)將有助于幫助人們擺脫這個困境。目前,搜索引擎已經(jīng)成為人們獲取信息的主要來源的手段之一,但其一般是采用關(guān)鍵詞匹配來查找信息,未能體現(xiàn)文章間的相關(guān)性。盡管現(xiàn)在新聞媒體在作專題性的新聞報道是能讓人們了解整個新聞事件的來龍去脈,然而,新聞專題報道都是通過人工歸類總結(jié)到一起。針對以上存在問題,本文設(shè)計一個基于互聯(lián)網(wǎng)熱點話題的搜索模型及實現(xiàn)方案,具體總體設(shè)計如下:首先,設(shè)計定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲,針對定向主題爬尋網(wǎng)頁信息,通過網(wǎng)頁去標(biāo)簽化,頁面內(nèi)容重排等手段,使處理過的文檔滿足系統(tǒng)需要。然后,對文檔進行中文分詞,提取特征值,權(quán)重計算等一系列預(yù)處理工作,構(gòu)建文檔向量空間模型。最后,利用話題偵測的研究技術(shù),針對互聯(lián)網(wǎng)信息的特點對話題偵測進行設(shè)計。通過測試對比各種文本相似度算法和文本聚類算法,從中選出合適的算法進而獲取互聯(lián)網(wǎng)熱點話題。驗證測試表明:本文利用相關(guān)的各項技術(shù),通過實驗測試和展示基本上完成了本論文的設(shè)計目的,能針對互聯(lián)網(wǎng)熱點話題自動發(fā)現(xiàn),話題相關(guān)文本聚類關(guān)聯(lián)度高。
【關(guān)鍵詞】:話題偵測與追蹤(TDT) 文本聚類分析 自然語言處理(NLP) 網(wǎng)絡(luò)爬蟲
【學(xué)位授予單位】:武漢郵電科學(xué)研究院
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要3-4
- ABSTRACT4-8
- 第1章 緒論8-13
- 1.1 課題背景及研究意義8-9
- 1.2 相關(guān)技術(shù)的研究情況9-11
- 1.3 論文的主要內(nèi)容11-13
- 第2章 相關(guān)技術(shù)介紹13-31
- 2.1 文本采集技術(shù)——網(wǎng)絡(luò)爬蟲13-14
- 2.2 文本語料預(yù)處理——中文分詞14-22
- 2.2.1 中文分詞系統(tǒng)概述14-15
- 2.2.2 中文分詞算法介紹15-19
- 2.2.3 本論文分詞器采用的中文分詞算法19-22
- 2.3 話題/報道模型22-28
- 2.3.1 語言模型和空間向量模型22-24
- 2.3.2 特征值提取法24-27
- 2.3.3 特征值權(quán)重計算27-28
- 2.4 相似度算法28-29
- 2.4.1 語言模型相似度計算29
- 2.4.2 向量空間模型相似度計算29
- 2.5 文本聚類算法29-30
- 2.6 本章小結(jié)30-31
- 第3章 系統(tǒng)設(shè)計框架31-45
- 3.1 整體設(shè)計思路31-32
- 3.2 系統(tǒng)設(shè)計流程圖32-33
- 3.3 系統(tǒng)設(shè)計詳解33-44
- 3.3.1 網(wǎng)絡(luò)爬蟲的設(shè)計33-35
- 3.3.2 中文分詞的系統(tǒng)的選擇35-37
- 3.3.3 熱點話題發(fā)現(xiàn)設(shè)計37-39
- 3.3.4 相關(guān)試驗數(shù)據(jù)測試39-44
- 3.4 本章小結(jié)44-45
- 第4章 熱點話題聚類實現(xiàn)與驗證45-52
- 4.1 測試數(shù)據(jù)采集與預(yù)處理工作45-48
- 4.2 文本聚類工作48-51
- 4.3 本章小結(jié)51-52
- 第5章 結(jié)束語52-54
- 5.1 全文總結(jié)52
- 5.2 工作不足與展望52-54
- 參考文獻54-56
- 致謝56-57
- 附錄1 攻讀碩士學(xué)位期間發(fā)表的論文57
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 梁喜濤;顧磊;;中文分詞與詞性標(biāo)注研究[J];計算機技術(shù)與發(fā)展;2015年02期
2 路永和;李焰鋒;;改進TF-IDF算法的文本特征項權(quán)值計算方法[J];圖書情報工作;2013年03期
3 朱恒民;朱衛(wèi)未;;基于Single-Pass的網(wǎng)絡(luò)話題在線聚類方法研究[J];現(xiàn)代圖書情報技術(shù);2011年12期
4 付年鈞;彭昌水;王慰;;中文分詞技術(shù)及其實現(xiàn)[J];軟件導(dǎo)刊;2011年01期
5 Mohamed Farouk Abdel Hady;Friedhelm Schwenker;;Combining Committee-Based Semi-Supervised Learning and Active Learning[J];Journal of Computer Science & Technology;2010年04期
6 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術(shù);2009年10期
7 劉華婷;郭仁祥;姜浩;;關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進[J];計算機應(yīng)用與軟件;2009年01期
8 劉海娟;張佳驥;陳勇;;語言模型在話題跟蹤中的應(yīng)用[J];無線電工程;2008年09期
9 周建梁;;聚焦爬蟲原理及關(guān)鍵技術(shù)研究[J];科技資訊;2008年22期
10 魏曉寧;;基于隱馬爾科夫模型的中文分詞研究[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年21期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 王寶龍;面向新聞領(lǐng)域的文本數(shù)據(jù)獲取系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2010年
2 段明秀;層次聚類算法的研究及應(yīng)用[D];中南大學(xué);2009年
3 曹衛(wèi)峰;中文分詞關(guān)鍵技術(shù)研究[D];南京理工大學(xué);2009年
本文關(guān)鍵詞:互聯(lián)網(wǎng)熱點話題聚類研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:323876
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/323876.html