新聞類信息的組織和話題監(jiān)控
發(fā)布時間:2017-04-01 10:00
本文關(guān)鍵詞:新聞類信息的組織和話題監(jiān)控,由筆耕文化傳播整理發(fā)布。
【摘要】:論文針對網(wǎng)絡(luò)新聞的平臺,提出利用自然語言處理和機器學(xué)習(xí)等算法進行內(nèi)容組織和話題監(jiān)控,從而提供用戶便捷地定位“興趣信息”的瀏覽體驗。通過這套文本處理系統(tǒng),用戶可以采集實時新聞,定制喜歡的新聞,以及按類別細化查找想看的文章。此外,用戶還可以發(fā)現(xiàn)實時熱點話題,跟蹤感興趣話題的動態(tài)。 論文工作首先用傳統(tǒng)的文本處理手段進行新聞組織、用戶頻道定制和話題發(fā)現(xiàn),主要有:基于文本分類器自動劃分用戶感興趣的新聞;基于Single-pass、NMF和LDA等文本處理算法對歷史新聞進行話題發(fā)現(xiàn)。然后提出了一系列創(chuàng)新的新聞平臺解決方案,主要有:基于HFTC算法進行新聞組織,自動構(gòu)建出具有層次性的新聞聚類結(jié)構(gòu),幫助用戶按帶有語義描述信息的類別進行新聞查找;基于WBN-FTC進行話題發(fā)現(xiàn),克服了FTC算法支持度閾值難以選擇的缺點,不僅可以像LDA那樣有效發(fā)現(xiàn)話題,而且擺脫了VSM模型的限制,在海量數(shù)據(jù)上的時間性能更好,此外,還可以通過調(diào)整參數(shù)來設(shè)置話題發(fā)現(xiàn)的粒度;在工程實踐方面,本文提出基于搜索引擎技術(shù)實現(xiàn)挖掘算法,不僅提高系統(tǒng)運行效率,而且降低編程成本。 同時,論文提出兩套話題跟蹤方案,分別基于查詢擴展和組合分類器,并提出利用時序特征進行話題預(yù)測和模式識別。這些都為話題監(jiān)控領(lǐng)域提供了更廣闊的應(yīng)用前景。
【關(guān)鍵詞】:新聞組織 話題發(fā)現(xiàn) HFTC算法 WBN-FTC算法 話題動態(tài)跟蹤
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1;TP181
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 概述9-11
- 1.1 論文研究的背景和意義9-10
- 1.2 論文研究內(nèi)容10
- 1.3 論文組織結(jié)構(gòu)10-11
- 第二章 相關(guān)背景知識11-15
- 2.1 內(nèi)容組織的現(xiàn)狀11-13
- 2.1.1 信息采集技術(shù)11-12
- 2.1.2 聚類技術(shù)12
- 2.1.3 分類技術(shù)12-13
- 2.2 話題監(jiān)控研究現(xiàn)狀13-14
- 2.2.1 話題檢測13-14
- 2.2.2 話題跟蹤14
- 2.2.3 時序傳播14
- 2.3 新聞平臺挖掘的研究現(xiàn)狀14-15
- 第三章 應(yīng)用環(huán)境分析15-17
- 3.1 新聞內(nèi)容概述15
- 3.2 話題分布特點15-16
- 3.3 話題傳播特點16-17
- 第四章 話題信息采集17-20
- 4.1 新聞來源17
- 4.2 爬蟲模塊17-18
- 4.3 預(yù)處理模塊18-19
- 4.4 存儲模塊19-20
- 第五章 新聞內(nèi)容組織20-33
- 5.1 基于HFTC算法的文本聚類組織20-24
- 5.1.1 傳統(tǒng)文本聚類算法20
- 5.1.2 基于頻繁詞條集的文本聚類算法20-23
- 5.1.3 引入索引23-24
- 5.2 文章分類組織24-26
- 5.3 實驗測評26-33
- 5.3.1 HFTC聚類組織26-29
- 5.3.2 樸素貝葉斯分類器進行分類組織29-33
- 第六章 話題發(fā)現(xiàn)33-53
- 6.1 話題發(fā)現(xiàn)基本技術(shù)33-36
- 6.1.1 Single Pass算法33-35
- 6.1.2 NMF/LDA算法35-36
- 6.2 基于WBN-FTC的話題發(fā)現(xiàn)36-41
- 6.2.1 新算法優(yōu)勢36-37
- 6.2.2 小世界模型37-38
- 6.2.3 詞的置信網(wǎng)絡(luò)(Word Belief Network)38-40
- 6.2.4 圖切割策略40-41
- 6.3 針對發(fā)現(xiàn)話題進行推薦41-43
- 6.3.1 協(xié)同過濾推薦引擎41-42
- 6.3.2 矩陣分解對協(xié)同過濾的優(yōu)化42-43
- 6.4 話題摘要的生成43
- 6.5 實驗測評43-53
- 6.5.1 傳統(tǒng)方法43-46
- 6.5.2 WBN-FTC46-53
- 第七章 話題跟蹤及其動態(tài)特征53-62
- 7.1 話題跟蹤53-56
- 7.1.1 傳統(tǒng)思路53-54
- 7.1.2 利用分類器組合方法進行話題跟蹤54-56
- 7.2 話題的時間特征56-59
- 7.2.1 在線新聞話題發(fā)現(xiàn)的三個階段56-57
- 7.2.2 將時間特征引入話題監(jiān)控范疇57
- 7.2.3 基于時間維度上的特征進行話題走勢預(yù)測57-58
- 7.2.4 通過分析時間特征進行模式識別58-59
- 7.3 實驗測評59-62
- 第八章 結(jié)論62-63
- 參考文獻63-65
- 致謝65-66
- 作者攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄66
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前8條
1 顧益軍,樊孝忠,王建華,汪濤,黃維金;中文停用詞表的自動選取[J];北京理工大學(xué)學(xué)報;2005年04期
2 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計算機研究與發(fā)展;2000年05期
3 高茂庭;王正歐;;幾種文本特征降維方法的比較分析[J];計算機工程與應(yīng)用;2006年30期
4 陳景年;黃厚寬;田鳳占;瞿有利;;一種用于貝葉斯分類器的文本特征選擇方法[J];計算機工程與應(yīng)用;2008年13期
5 黃鋼石,陸建江,張亞非;基于NMF的文本聚類方法[J];計算機工程;2004年11期
6 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機應(yīng)用;2005年09期
7 單斌;李芳;;基于LDA話題演化研究方法綜述[J];中文信息學(xué)報;2010年06期
8 王永恒;賈焰;楊樹強;;基于頻繁詞集聚類的海量短文分類方法[J];計算機工程與設(shè)計;2007年08期
本文關(guān)鍵詞:新聞類信息的組織和話題監(jiān)控,由筆耕文化傳播整理發(fā)布。
,本文編號:280395
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/280395.html
最近更新
教材專著