天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

木棉教育新聞平臺的設(shè)計與實現(xiàn)

發(fā)布時間:2017-04-28 11:09

  本文關(guān)鍵詞:木棉教育新聞平臺的設(shè)計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。


【摘要】:互聯(lián)網(wǎng)的發(fā)展使得網(wǎng)絡(luò)新聞成了人們關(guān)注時事熱點的更好選擇。網(wǎng)絡(luò)新聞的顯著特征在于:數(shù)量多、種類多、報道源多、以及報道觀點不一。用戶的愿望是能快速地閱讀到自己感興趣的新聞,既能節(jié)省時間,也能提高閱讀的體驗,F(xiàn)有的新聞平臺,大多沒有對新聞做更精準(zhǔn)的處理,特別是教育領(lǐng)域的新聞,通常很少成為各個新聞平臺的熱點。因此,面向?qū)逃侣勌貏e感興趣的用戶,如學(xué)生、家長、教育工作者,設(shè)計和實現(xiàn)了教育新聞平臺,從互聯(lián)網(wǎng)上抓取教育類新聞進(jìn)行處理、挖掘和索引,提取教育類的熱點新聞話題,為用戶提供新聞檢索和熱點新聞閱讀等服務(wù)。本文先對木棉教育新聞平臺進(jìn)行了系統(tǒng)的體系結(jié)構(gòu)設(shè)計,并將系統(tǒng)劃分為六個功能模塊。新聞爬蟲實現(xiàn)教育新聞的抓取,信息抽取模塊實現(xiàn)新聞關(guān)鍵信息的抽取,文本去重模塊用于過濾大量被重復(fù)轉(zhuǎn)載的新聞,新聞索引模塊為新聞建立索引,分類模塊為新聞訓(xùn)練分類器,熱點話題識別模塊用于檢測教育類熱點新聞話題。本文針對教育新聞分類和熱點話題識別這兩個關(guān)鍵技術(shù)進(jìn)行了重點研究與實現(xiàn)。為了更精準(zhǔn)地處理教育新聞,設(shè)計了教育新聞的層次分類方法。考慮教育新聞的特性,通過調(diào)整特征權(quán)重和特征比例來提高分類效果。對教育新聞中的熱點檢測,分為話題檢測與跟蹤與熱點識別兩個步驟,在話題檢測中采用結(jié)合層次聚類和單通道(Single-Pass)聚類思想的兩階段聚類的方法,并選擇人名、地名及普通名詞作為聚類的特征空間,在計算話題熱度結(jié)合話題簇的純度、新聞文本數(shù)、媒體數(shù)量等因素。本文對分類及熱點檢測算法進(jìn)行了實驗測試,驗證了其有效性。本文詳細(xì)闡述了木棉教育新聞平臺的實現(xiàn)機(jī)制,系統(tǒng)支持增量更新數(shù)據(jù),即每次處理數(shù)據(jù)只需對當(dāng)前抓取的新聞數(shù)據(jù)進(jìn)行處理,不對系統(tǒng)已索引的數(shù)據(jù)造成影響。木棉教育新聞平臺的運(yùn)行及性能說明了設(shè)計的合理性以及系統(tǒng)實現(xiàn)的完整性。
【關(guān)鍵詞】:教育新聞 專題搜索 新聞分類 話題檢測 熱點話題
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3;TP393.09
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 第一章 緒論10-14
  • 1.1 項目背景10
  • 1.2 研究現(xiàn)狀10-13
  • 1.2.1 新聞平臺研究現(xiàn)狀10-12
  • 1.2.2 話題檢測與跟蹤現(xiàn)狀12-13
  • 1.3 研究目標(biāo)13
  • 1.4 論文組織13-14
  • 第二章 相關(guān)理論與技術(shù)14-24
  • 2.1 搜索引擎技術(shù)14-17
  • 2.1.1 網(wǎng)頁爬蟲14
  • 2.1.2 信息抽取14-15
  • 2.1.3 文本去重15-16
  • 2.1.4 索引與Lucene16-17
  • 2.2 分類與聚類17-21
  • 2.2.0 分類算法17-19
  • 2.2.1 特性選擇方法19-20
  • 2.2.2 聚類算法20-21
  • 2.3 話題檢測與跟蹤21-23
  • 2.3.1 話題定義21
  • 2.3.2 檢測與跟蹤步驟21-23
  • 2.3.3 話題的表示23
  • 2.4 本章小結(jié)23-24
  • 第三章 教育新聞平臺的設(shè)計24-36
  • 3.1 設(shè)計原則24
  • 3.2 系統(tǒng)整體設(shè)計24-25
  • 3.3 網(wǎng)頁采集模塊25-27
  • 3.3.1 網(wǎng)頁采集流程25
  • 3.3.2 多線程結(jié)構(gòu)25-26
  • 3.3.3 主題限制26
  • 3.3.4 網(wǎng)頁下載26-27
  • 3.3.5 圖片抓取27
  • 3.4 信息抽取模塊27-32
  • 3.4.1 信息抽取流程27-29
  • 3.4.2 關(guān)鍵信息抽取29-31
  • 3.4.3 新聞時間選擇31-32
  • 3.4.4 圖片信息抽取32
  • 3.5 新聞去重模塊32-33
  • 3.6 新聞索引模塊33-34
  • 3.7 新聞分類模塊34
  • 3.8 熱點話題檢測模塊34-35
  • 3.9 本章小結(jié)35-36
  • 第四章 平臺關(guān)鍵技術(shù)的實現(xiàn)36-49
  • 4.1 教育新聞分類36-38
  • 4.1.1 新聞分類策略36
  • 4.1.2 特征比例選擇36-37
  • 4.1.3 新聞標(biāo)題加權(quán)37
  • 4.1.4 分類器的使用37-38
  • 4.2 熱點話題檢測38-41
  • 4.2.1 話題檢測策略38-39
  • 4.2.2 相似度計算39
  • 4.2.3 特征空間選擇39-40
  • 4.2.4 兩階段聚類40
  • 4.2.5 熱點話題排序40-41
  • 4.3 實驗及實驗結(jié)果分析41-48
  • 4.3.1 實驗數(shù)據(jù)集構(gòu)建41-42
  • 4.3.2 新聞分類實驗42-45
  • 4.3.3 新聞話題發(fā)現(xiàn)實驗45-46
  • 4.3.4 新聞熱點檢測46-48
  • 4.4 本章小結(jié)48-49
  • 第五章 教育新聞平臺的實現(xiàn)49-60
  • 5.1 系統(tǒng)整體實現(xiàn)方案49-51
  • 5.1.1 系統(tǒng)組成49-50
  • 5.1.2 采用方法與工具50
  • 5.1.3 數(shù)據(jù)存儲與訪問50-51
  • 5.2 系統(tǒng)的具體實現(xiàn)51-56
  • 5.2.1 關(guān)鍵功能模塊的實現(xiàn)51-55
  • 5.2.2 用戶接口的實現(xiàn)55-56
  • 5.3 系統(tǒng)部署與運(yùn)行56-59
  • 5.3.1 系統(tǒng)部署56-57
  • 5.3.2 運(yùn)行與結(jié)果57-58
  • 5.3.3 系統(tǒng)性能58-59
  • 5.4 本章小結(jié)59-60
  • 結(jié)論和展望60-61
  • 參考文獻(xiàn)61-64
  • 攻讀碩士學(xué)位期間取得的研究成果64-65
  • 致謝65-66
  • 附件66

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前8條

1 萬小軍,楊建武;在線新聞主題檢測系統(tǒng)的設(shè)計與應(yīng)用[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2004年S1期

2 賈自艷 ,何清 ,張? ,李嘉佑 ,史忠植;一種基于動態(tài)進(jìn)化模型的事件探測和追蹤算法[J];計算機(jī)研究與發(fā)展;2004年07期

3 劉志剛,李德仁,秦前清,史文中;支持向量機(jī)在多類分類問題中的推廣[J];計算機(jī)工程與應(yīng)用;2004年07期

4 錢哲怡;李芳;;基于關(guān)鍵詞和命名實體識別的新聞話題線索抽取[J];計算機(jī)應(yīng)用與軟件;2011年12期

5 鄧愛萍;;網(wǎng)絡(luò)熱點發(fā)現(xiàn)與跟蹤算法研究[J];計算機(jī)與現(xiàn)代化;2009年12期

6 楊靖韜;陳會果;;對網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];科技創(chuàng)業(yè)月刊;2010年10期

7 李渝勤,孫麗華;基于規(guī)則的自動分類在文本分類中的應(yīng)用[J];中文信息學(xué)報;2004年04期

8 洪宇;張宇;劉挺;李生;;話題檢測與跟蹤的評測及研究綜述[J];中文信息學(xué)報;2007年06期

中國重要會議論文全文數(shù)據(jù)庫 前1條

1 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網(wǎng)絡(luò)新聞熱點發(fā)現(xiàn)[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 王海潮;基于網(wǎng)頁結(jié)構(gòu)的信息抽取關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年

2 謝林燕;話題檢測與跟蹤關(guān)鍵技術(shù)研究[D];華北電力大學(xué);2012年

3 史純侃;基于木棉教育新聞平臺的圖片檢索子系統(tǒng)設(shè)計與實現(xiàn)[D];華南理工大學(xué);2014年


  本文關(guān)鍵詞:木棉教育新聞平臺的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:332705

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/332705.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶03d57***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com