木棉教育新聞平臺的設(shè)計與實現(xiàn)
本文關(guān)鍵詞:木棉教育新聞平臺的設(shè)計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)的發(fā)展使得網(wǎng)絡(luò)新聞成了人們關(guān)注時事熱點的更好選擇。網(wǎng)絡(luò)新聞的顯著特征在于:數(shù)量多、種類多、報道源多、以及報道觀點不一。用戶的愿望是能快速地閱讀到自己感興趣的新聞,既能節(jié)省時間,也能提高閱讀的體驗,F(xiàn)有的新聞平臺,大多沒有對新聞做更精準(zhǔn)的處理,特別是教育領(lǐng)域的新聞,通常很少成為各個新聞平臺的熱點。因此,面向?qū)逃侣勌貏e感興趣的用戶,如學(xué)生、家長、教育工作者,設(shè)計和實現(xiàn)了教育新聞平臺,從互聯(lián)網(wǎng)上抓取教育類新聞進(jìn)行處理、挖掘和索引,提取教育類的熱點新聞話題,為用戶提供新聞檢索和熱點新聞閱讀等服務(wù)。本文先對木棉教育新聞平臺進(jìn)行了系統(tǒng)的體系結(jié)構(gòu)設(shè)計,并將系統(tǒng)劃分為六個功能模塊。新聞爬蟲實現(xiàn)教育新聞的抓取,信息抽取模塊實現(xiàn)新聞關(guān)鍵信息的抽取,文本去重模塊用于過濾大量被重復(fù)轉(zhuǎn)載的新聞,新聞索引模塊為新聞建立索引,分類模塊為新聞訓(xùn)練分類器,熱點話題識別模塊用于檢測教育類熱點新聞話題。本文針對教育新聞分類和熱點話題識別這兩個關(guān)鍵技術(shù)進(jìn)行了重點研究與實現(xiàn)。為了更精準(zhǔn)地處理教育新聞,設(shè)計了教育新聞的層次分類方法。考慮教育新聞的特性,通過調(diào)整特征權(quán)重和特征比例來提高分類效果。對教育新聞中的熱點檢測,分為話題檢測與跟蹤與熱點識別兩個步驟,在話題檢測中采用結(jié)合層次聚類和單通道(Single-Pass)聚類思想的兩階段聚類的方法,并選擇人名、地名及普通名詞作為聚類的特征空間,在計算話題熱度結(jié)合話題簇的純度、新聞文本數(shù)、媒體數(shù)量等因素。本文對分類及熱點檢測算法進(jìn)行了實驗測試,驗證了其有效性。本文詳細(xì)闡述了木棉教育新聞平臺的實現(xiàn)機(jī)制,系統(tǒng)支持增量更新數(shù)據(jù),即每次處理數(shù)據(jù)只需對當(dāng)前抓取的新聞數(shù)據(jù)進(jìn)行處理,不對系統(tǒng)已索引的數(shù)據(jù)造成影響。木棉教育新聞平臺的運(yùn)行及性能說明了設(shè)計的合理性以及系統(tǒng)實現(xiàn)的完整性。
【關(guān)鍵詞】:教育新聞 專題搜索 新聞分類 話題檢測 熱點話題
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3;TP393.09
【目錄】:
- 摘要5-6
- Abstract6-10
- 第一章 緒論10-14
- 1.1 項目背景10
- 1.2 研究現(xiàn)狀10-13
- 1.2.1 新聞平臺研究現(xiàn)狀10-12
- 1.2.2 話題檢測與跟蹤現(xiàn)狀12-13
- 1.3 研究目標(biāo)13
- 1.4 論文組織13-14
- 第二章 相關(guān)理論與技術(shù)14-24
- 2.1 搜索引擎技術(shù)14-17
- 2.1.1 網(wǎng)頁爬蟲14
- 2.1.2 信息抽取14-15
- 2.1.3 文本去重15-16
- 2.1.4 索引與Lucene16-17
- 2.2 分類與聚類17-21
- 2.2.0 分類算法17-19
- 2.2.1 特性選擇方法19-20
- 2.2.2 聚類算法20-21
- 2.3 話題檢測與跟蹤21-23
- 2.3.1 話題定義21
- 2.3.2 檢測與跟蹤步驟21-23
- 2.3.3 話題的表示23
- 2.4 本章小結(jié)23-24
- 第三章 教育新聞平臺的設(shè)計24-36
- 3.1 設(shè)計原則24
- 3.2 系統(tǒng)整體設(shè)計24-25
- 3.3 網(wǎng)頁采集模塊25-27
- 3.3.1 網(wǎng)頁采集流程25
- 3.3.2 多線程結(jié)構(gòu)25-26
- 3.3.3 主題限制26
- 3.3.4 網(wǎng)頁下載26-27
- 3.3.5 圖片抓取27
- 3.4 信息抽取模塊27-32
- 3.4.1 信息抽取流程27-29
- 3.4.2 關(guān)鍵信息抽取29-31
- 3.4.3 新聞時間選擇31-32
- 3.4.4 圖片信息抽取32
- 3.5 新聞去重模塊32-33
- 3.6 新聞索引模塊33-34
- 3.7 新聞分類模塊34
- 3.8 熱點話題檢測模塊34-35
- 3.9 本章小結(jié)35-36
- 第四章 平臺關(guān)鍵技術(shù)的實現(xiàn)36-49
- 4.1 教育新聞分類36-38
- 4.1.1 新聞分類策略36
- 4.1.2 特征比例選擇36-37
- 4.1.3 新聞標(biāo)題加權(quán)37
- 4.1.4 分類器的使用37-38
- 4.2 熱點話題檢測38-41
- 4.2.1 話題檢測策略38-39
- 4.2.2 相似度計算39
- 4.2.3 特征空間選擇39-40
- 4.2.4 兩階段聚類40
- 4.2.5 熱點話題排序40-41
- 4.3 實驗及實驗結(jié)果分析41-48
- 4.3.1 實驗數(shù)據(jù)集構(gòu)建41-42
- 4.3.2 新聞分類實驗42-45
- 4.3.3 新聞話題發(fā)現(xiàn)實驗45-46
- 4.3.4 新聞熱點檢測46-48
- 4.4 本章小結(jié)48-49
- 第五章 教育新聞平臺的實現(xiàn)49-60
- 5.1 系統(tǒng)整體實現(xiàn)方案49-51
- 5.1.1 系統(tǒng)組成49-50
- 5.1.2 采用方法與工具50
- 5.1.3 數(shù)據(jù)存儲與訪問50-51
- 5.2 系統(tǒng)的具體實現(xiàn)51-56
- 5.2.1 關(guān)鍵功能模塊的實現(xiàn)51-55
- 5.2.2 用戶接口的實現(xiàn)55-56
- 5.3 系統(tǒng)部署與運(yùn)行56-59
- 5.3.1 系統(tǒng)部署56-57
- 5.3.2 運(yùn)行與結(jié)果57-58
- 5.3.3 系統(tǒng)性能58-59
- 5.4 本章小結(jié)59-60
- 結(jié)論和展望60-61
- 參考文獻(xiàn)61-64
- 攻讀碩士學(xué)位期間取得的研究成果64-65
- 致謝65-66
- 附件66
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前8條
1 萬小軍,楊建武;在線新聞主題檢測系統(tǒng)的設(shè)計與應(yīng)用[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2004年S1期
2 賈自艷 ,何清 ,張? ,李嘉佑 ,史忠植;一種基于動態(tài)進(jìn)化模型的事件探測和追蹤算法[J];計算機(jī)研究與發(fā)展;2004年07期
3 劉志剛,李德仁,秦前清,史文中;支持向量機(jī)在多類分類問題中的推廣[J];計算機(jī)工程與應(yīng)用;2004年07期
4 錢哲怡;李芳;;基于關(guān)鍵詞和命名實體識別的新聞話題線索抽取[J];計算機(jī)應(yīng)用與軟件;2011年12期
5 鄧愛萍;;網(wǎng)絡(luò)熱點發(fā)現(xiàn)與跟蹤算法研究[J];計算機(jī)與現(xiàn)代化;2009年12期
6 楊靖韜;陳會果;;對網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];科技創(chuàng)業(yè)月刊;2010年10期
7 李渝勤,孫麗華;基于規(guī)則的自動分類在文本分類中的應(yīng)用[J];中文信息學(xué)報;2004年04期
8 洪宇;張宇;劉挺;李生;;話題檢測與跟蹤的評測及研究綜述[J];中文信息學(xué)報;2007年06期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網(wǎng)絡(luò)新聞熱點發(fā)現(xiàn)[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 王海潮;基于網(wǎng)頁結(jié)構(gòu)的信息抽取關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年
2 謝林燕;話題檢測與跟蹤關(guān)鍵技術(shù)研究[D];華北電力大學(xué);2012年
3 史純侃;基于木棉教育新聞平臺的圖片檢索子系統(tǒng)設(shè)計與實現(xiàn)[D];華南理工大學(xué);2014年
本文關(guān)鍵詞:木棉教育新聞平臺的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:332705
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/332705.html