天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

新聞類信息的組織和話題監(jiān)控

發(fā)布時間:2017-04-01 10:00

  本文關(guān)鍵詞:新聞類信息的組織和話題監(jiān)控,由筆耕文化傳播整理發(fā)布。


【摘要】:論文針對網(wǎng)絡(luò)新聞的平臺,提出利用自然語言處理和機器學(xué)習(xí)等算法進行內(nèi)容組織和話題監(jiān)控,從而提供用戶便捷地定位“興趣信息”的瀏覽體驗。通過這套文本處理系統(tǒng),用戶可以采集實時新聞,定制喜歡的新聞,以及按類別細化查找想看的文章。此外,用戶還可以發(fā)現(xiàn)實時熱點話題,跟蹤感興趣話題的動態(tài)。 論文工作首先用傳統(tǒng)的文本處理手段進行新聞組織、用戶頻道定制和話題發(fā)現(xiàn),主要有:基于文本分類器自動劃分用戶感興趣的新聞;基于Single-pass、NMF和LDA等文本處理算法對歷史新聞進行話題發(fā)現(xiàn)。然后提出了一系列創(chuàng)新的新聞平臺解決方案,主要有:基于HFTC算法進行新聞組織,自動構(gòu)建出具有層次性的新聞聚類結(jié)構(gòu),幫助用戶按帶有語義描述信息的類別進行新聞查找;基于WBN-FTC進行話題發(fā)現(xiàn),克服了FTC算法支持度閾值難以選擇的缺點,不僅可以像LDA那樣有效發(fā)現(xiàn)話題,而且擺脫了VSM模型的限制,在海量數(shù)據(jù)上的時間性能更好,此外,還可以通過調(diào)整參數(shù)來設(shè)置話題發(fā)現(xiàn)的粒度;在工程實踐方面,本文提出基于搜索引擎技術(shù)實現(xiàn)挖掘算法,不僅提高系統(tǒng)運行效率,而且降低編程成本。 同時,論文提出兩套話題跟蹤方案,分別基于查詢擴展和組合分類器,并提出利用時序特征進行話題預(yù)測和模式識別。這些都為話題監(jiān)控領(lǐng)域提供了更廣闊的應(yīng)用前景。
【關(guān)鍵詞】:新聞組織 話題發(fā)現(xiàn) HFTC算法 WBN-FTC算法 話題動態(tài)跟蹤
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1;TP181
【目錄】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 概述9-11
  • 1.1 論文研究的背景和意義9-10
  • 1.2 論文研究內(nèi)容10
  • 1.3 論文組織結(jié)構(gòu)10-11
  • 第二章 相關(guān)背景知識11-15
  • 2.1 內(nèi)容組織的現(xiàn)狀11-13
  • 2.1.1 信息采集技術(shù)11-12
  • 2.1.2 聚類技術(shù)12
  • 2.1.3 分類技術(shù)12-13
  • 2.2 話題監(jiān)控研究現(xiàn)狀13-14
  • 2.2.1 話題檢測13-14
  • 2.2.2 話題跟蹤14
  • 2.2.3 時序傳播14
  • 2.3 新聞平臺挖掘的研究現(xiàn)狀14-15
  • 第三章 應(yīng)用環(huán)境分析15-17
  • 3.1 新聞內(nèi)容概述15
  • 3.2 話題分布特點15-16
  • 3.3 話題傳播特點16-17
  • 第四章 話題信息采集17-20
  • 4.1 新聞來源17
  • 4.2 爬蟲模塊17-18
  • 4.3 預(yù)處理模塊18-19
  • 4.4 存儲模塊19-20
  • 第五章 新聞內(nèi)容組織20-33
  • 5.1 基于HFTC算法的文本聚類組織20-24
  • 5.1.1 傳統(tǒng)文本聚類算法20
  • 5.1.2 基于頻繁詞條集的文本聚類算法20-23
  • 5.1.3 引入索引23-24
  • 5.2 文章分類組織24-26
  • 5.3 實驗測評26-33
  • 5.3.1 HFTC聚類組織26-29
  • 5.3.2 樸素貝葉斯分類器進行分類組織29-33
  • 第六章 話題發(fā)現(xiàn)33-53
  • 6.1 話題發(fā)現(xiàn)基本技術(shù)33-36
  • 6.1.1 Single Pass算法33-35
  • 6.1.2 NMF/LDA算法35-36
  • 6.2 基于WBN-FTC的話題發(fā)現(xiàn)36-41
  • 6.2.1 新算法優(yōu)勢36-37
  • 6.2.2 小世界模型37-38
  • 6.2.3 詞的置信網(wǎng)絡(luò)(Word Belief Network)38-40
  • 6.2.4 圖切割策略40-41
  • 6.3 針對發(fā)現(xiàn)話題進行推薦41-43
  • 6.3.1 協(xié)同過濾推薦引擎41-42
  • 6.3.2 矩陣分解對協(xié)同過濾的優(yōu)化42-43
  • 6.4 話題摘要的生成43
  • 6.5 實驗測評43-53
  • 6.5.1 傳統(tǒng)方法43-46
  • 6.5.2 WBN-FTC46-53
  • 第七章 話題跟蹤及其動態(tài)特征53-62
  • 7.1 話題跟蹤53-56
  • 7.1.1 傳統(tǒng)思路53-54
  • 7.1.2 利用分類器組合方法進行話題跟蹤54-56
  • 7.2 話題的時間特征56-59
  • 7.2.1 在線新聞話題發(fā)現(xiàn)的三個階段56-57
  • 7.2.2 將時間特征引入話題監(jiān)控范疇57
  • 7.2.3 基于時間維度上的特征進行話題走勢預(yù)測57-58
  • 7.2.4 通過分析時間特征進行模式識別58-59
  • 7.3 實驗測評59-62
  • 第八章 結(jié)論62-63
  • 參考文獻63-65
  • 致謝65-66
  • 作者攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄66

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前8條

1 顧益軍,樊孝忠,王建華,汪濤,黃維金;中文停用詞表的自動選取[J];北京理工大學(xué)學(xué)報;2005年04期

2 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計算機研究與發(fā)展;2000年05期

3 高茂庭;王正歐;;幾種文本特征降維方法的比較分析[J];計算機工程與應(yīng)用;2006年30期

4 陳景年;黃厚寬;田鳳占;瞿有利;;一種用于貝葉斯分類器的文本特征選擇方法[J];計算機工程與應(yīng)用;2008年13期

5 黃鋼石,陸建江,張亞非;基于NMF的文本聚類方法[J];計算機工程;2004年11期

6 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機應(yīng)用;2005年09期

7 單斌;李芳;;基于LDA話題演化研究方法綜述[J];中文信息學(xué)報;2010年06期

8 王永恒;賈焰;楊樹強;;基于頻繁詞集聚類的海量短文分類方法[J];計算機工程與設(shè)計;2007年08期


  本文關(guān)鍵詞:新聞類信息的組織和話題監(jiān)控,由筆耕文化傳播整理發(fā)布。

,

本文編號:280395

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/280395.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶24aad***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
精品国产亚洲一区二区三区| 69久久精品亚洲一区二区| 中文文精品字幕一区二区| 厕所偷拍一区二区三区视频| 国产成人免费高潮激情电| 国产精品一区二区视频| 国产综合欧美日韩在线精品| 日韩不卡一区二区在线| 中文字幕在线五月婷婷| 婷婷开心五月亚洲综合| 久久久精品日韩欧美丰满| 男人把女人操得嗷嗷叫| 99久久精品午夜一区| 丝袜视频日本成人午夜视频| 日韩人妻一区中文字幕| 粗暴蹂躏中文一区二区三区| 黄男女激情一区二区三区| 国产成人一区二区三区久久| 国产欧美日韩在线精品一二区| 久久精品国产在热亚洲| 欧美日韩人妻中文一区二区| 久热在线视频这里只有精品| 国产一级片内射视频免费播放| 青青操日老女人的穴穴| 亚洲香艳网久久五月婷婷| 日本男人女人干逼视频| 国产av天堂一区二区三区粉嫩| 自拍偷女厕所拍偷区亚洲综合| 国产一区二区三区四区免费| 精品丝袜一区二区三区性色| 亚洲欧洲日韩综合二区| 亚洲国产av精品一区二区| 欧美一区二区三区播放| 国产精品欧美一区两区| 免费在线观看欧美喷水黄片| 中文字幕一二区在线观看| 中文字幕精品少妇人妻| 国产精品久久久久久久久久久痴汉| 日韩欧美综合在线播放| 亚洲熟妇熟女久久精品| 日韩欧美国产精品中文字幕|