木棉教育新聞平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:木棉教育新聞平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)的發(fā)展使得網(wǎng)絡(luò)新聞成了人們關(guān)注時(shí)事熱點(diǎn)的更好選擇。網(wǎng)絡(luò)新聞的顯著特征在于:數(shù)量多、種類多、報(bào)道源多、以及報(bào)道觀點(diǎn)不一。用戶的愿望是能快速地閱讀到自己感興趣的新聞,既能節(jié)省時(shí)間,也能提高閱讀的體驗(yàn),F(xiàn)有的新聞平臺(tái),大多沒(méi)有對(duì)新聞做更精準(zhǔn)的處理,特別是教育領(lǐng)域的新聞,通常很少成為各個(gè)新聞平臺(tái)的熱點(diǎn)。因此,面向?qū)逃侣勌貏e感興趣的用戶,如學(xué)生、家長(zhǎng)、教育工作者,設(shè)計(jì)和實(shí)現(xiàn)了教育新聞平臺(tái),從互聯(lián)網(wǎng)上抓取教育類新聞進(jìn)行處理、挖掘和索引,提取教育類的熱點(diǎn)新聞話題,為用戶提供新聞檢索和熱點(diǎn)新聞閱讀等服務(wù)。本文先對(duì)木棉教育新聞平臺(tái)進(jìn)行了系統(tǒng)的體系結(jié)構(gòu)設(shè)計(jì),并將系統(tǒng)劃分為六個(gè)功能模塊。新聞爬蟲(chóng)實(shí)現(xiàn)教育新聞的抓取,信息抽取模塊實(shí)現(xiàn)新聞關(guān)鍵信息的抽取,文本去重模塊用于過(guò)濾大量被重復(fù)轉(zhuǎn)載的新聞,新聞索引模塊為新聞建立索引,分類模塊為新聞?dòng)?xùn)練分類器,熱點(diǎn)話題識(shí)別模塊用于檢測(cè)教育類熱點(diǎn)新聞話題。本文針對(duì)教育新聞分類和熱點(diǎn)話題識(shí)別這兩個(gè)關(guān)鍵技術(shù)進(jìn)行了重點(diǎn)研究與實(shí)現(xiàn)。為了更精準(zhǔn)地處理教育新聞,設(shè)計(jì)了教育新聞的層次分類方法?紤]教育新聞的特性,通過(guò)調(diào)整特征權(quán)重和特征比例來(lái)提高分類效果。對(duì)教育新聞中的熱點(diǎn)檢測(cè),分為話題檢測(cè)與跟蹤與熱點(diǎn)識(shí)別兩個(gè)步驟,在話題檢測(cè)中采用結(jié)合層次聚類和單通道(Single-Pass)聚類思想的兩階段聚類的方法,并選擇人名、地名及普通名詞作為聚類的特征空間,在計(jì)算話題熱度結(jié)合話題簇的純度、新聞文本數(shù)、媒體數(shù)量等因素。本文對(duì)分類及熱點(diǎn)檢測(cè)算法進(jìn)行了實(shí)驗(yàn)測(cè)試,驗(yàn)證了其有效性。本文詳細(xì)闡述了木棉教育新聞平臺(tái)的實(shí)現(xiàn)機(jī)制,系統(tǒng)支持增量更新數(shù)據(jù),即每次處理數(shù)據(jù)只需對(duì)當(dāng)前抓取的新聞數(shù)據(jù)進(jìn)行處理,不對(duì)系統(tǒng)已索引的數(shù)據(jù)造成影響。木棉教育新聞平臺(tái)的運(yùn)行及性能說(shuō)明了設(shè)計(jì)的合理性以及系統(tǒng)實(shí)現(xiàn)的完整性。
【關(guān)鍵詞】:教育新聞 專題搜索 新聞分類 話題檢測(cè) 熱點(diǎn)話題
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3;TP393.09
【目錄】:
- 摘要5-6
- Abstract6-10
- 第一章 緒論10-14
- 1.1 項(xiàng)目背景10
- 1.2 研究現(xiàn)狀10-13
- 1.2.1 新聞平臺(tái)研究現(xiàn)狀10-12
- 1.2.2 話題檢測(cè)與跟蹤現(xiàn)狀12-13
- 1.3 研究目標(biāo)13
- 1.4 論文組織13-14
- 第二章 相關(guān)理論與技術(shù)14-24
- 2.1 搜索引擎技術(shù)14-17
- 2.1.1 網(wǎng)頁(yè)爬蟲(chóng)14
- 2.1.2 信息抽取14-15
- 2.1.3 文本去重15-16
- 2.1.4 索引與Lucene16-17
- 2.2 分類與聚類17-21
- 2.2.0 分類算法17-19
- 2.2.1 特性選擇方法19-20
- 2.2.2 聚類算法20-21
- 2.3 話題檢測(cè)與跟蹤21-23
- 2.3.1 話題定義21
- 2.3.2 檢測(cè)與跟蹤步驟21-23
- 2.3.3 話題的表示23
- 2.4 本章小結(jié)23-24
- 第三章 教育新聞平臺(tái)的設(shè)計(jì)24-36
- 3.1 設(shè)計(jì)原則24
- 3.2 系統(tǒng)整體設(shè)計(jì)24-25
- 3.3 網(wǎng)頁(yè)采集模塊25-27
- 3.3.1 網(wǎng)頁(yè)采集流程25
- 3.3.2 多線程結(jié)構(gòu)25-26
- 3.3.3 主題限制26
- 3.3.4 網(wǎng)頁(yè)下載26-27
- 3.3.5 圖片抓取27
- 3.4 信息抽取模塊27-32
- 3.4.1 信息抽取流程27-29
- 3.4.2 關(guān)鍵信息抽取29-31
- 3.4.3 新聞時(shí)間選擇31-32
- 3.4.4 圖片信息抽取32
- 3.5 新聞去重模塊32-33
- 3.6 新聞索引模塊33-34
- 3.7 新聞分類模塊34
- 3.8 熱點(diǎn)話題檢測(cè)模塊34-35
- 3.9 本章小結(jié)35-36
- 第四章 平臺(tái)關(guān)鍵技術(shù)的實(shí)現(xiàn)36-49
- 4.1 教育新聞分類36-38
- 4.1.1 新聞分類策略36
- 4.1.2 特征比例選擇36-37
- 4.1.3 新聞標(biāo)題加權(quán)37
- 4.1.4 分類器的使用37-38
- 4.2 熱點(diǎn)話題檢測(cè)38-41
- 4.2.1 話題檢測(cè)策略38-39
- 4.2.2 相似度計(jì)算39
- 4.2.3 特征空間選擇39-40
- 4.2.4 兩階段聚類40
- 4.2.5 熱點(diǎn)話題排序40-41
- 4.3 實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果分析41-48
- 4.3.1 實(shí)驗(yàn)數(shù)據(jù)集構(gòu)建41-42
- 4.3.2 新聞分類實(shí)驗(yàn)42-45
- 4.3.3 新聞話題發(fā)現(xiàn)實(shí)驗(yàn)45-46
- 4.3.4 新聞熱點(diǎn)檢測(cè)46-48
- 4.4 本章小結(jié)48-49
- 第五章 教育新聞平臺(tái)的實(shí)現(xiàn)49-60
- 5.1 系統(tǒng)整體實(shí)現(xiàn)方案49-51
- 5.1.1 系統(tǒng)組成49-50
- 5.1.2 采用方法與工具50
- 5.1.3 數(shù)據(jù)存儲(chǔ)與訪問(wèn)50-51
- 5.2 系統(tǒng)的具體實(shí)現(xiàn)51-56
- 5.2.1 關(guān)鍵功能模塊的實(shí)現(xiàn)51-55
- 5.2.2 用戶接口的實(shí)現(xiàn)55-56
- 5.3 系統(tǒng)部署與運(yùn)行56-59
- 5.3.1 系統(tǒng)部署56-57
- 5.3.2 運(yùn)行與結(jié)果57-58
- 5.3.3 系統(tǒng)性能58-59
- 5.4 本章小結(jié)59-60
- 結(jié)論和展望60-61
- 參考文獻(xiàn)61-64
- 攻讀碩士學(xué)位期間取得的研究成果64-65
- 致謝65-66
- 附件66
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前8條
1 萬(wàn)小軍,楊建武;在線新聞主題檢測(cè)系統(tǒng)的設(shè)計(jì)與應(yīng)用[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期
2 賈自艷 ,何清 ,張海俊 ,李嘉佑 ,史忠植;一種基于動(dòng)態(tài)進(jìn)化模型的事件探測(cè)和追蹤算法[J];計(jì)算機(jī)研究與發(fā)展;2004年07期
3 劉志剛,李德仁,秦前清,史文中;支持向量機(jī)在多類分類問(wèn)題中的推廣[J];計(jì)算機(jī)工程與應(yīng)用;2004年07期
4 錢哲怡;李芳;;基于關(guān)鍵詞和命名實(shí)體識(shí)別的新聞話題線索抽取[J];計(jì)算機(jī)應(yīng)用與軟件;2011年12期
5 鄧愛(ài)萍;;網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)與跟蹤算法研究[J];計(jì)算機(jī)與現(xiàn)代化;2009年12期
6 楊靖韜;陳會(huì)果;;對(duì)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J];科技創(chuàng)業(yè)月刊;2010年10期
7 李渝勤,孫麗華;基于規(guī)則的自動(dòng)分類在文本分類中的應(yīng)用[J];中文信息學(xué)報(bào);2004年04期
8 洪宇;張宇;劉挺;李生;;話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J];中文信息學(xué)報(bào);2007年06期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網(wǎng)絡(luò)新聞熱點(diǎn)發(fā)現(xiàn)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 王海潮;基于網(wǎng)頁(yè)結(jié)構(gòu)的信息抽取關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年
2 謝林燕;話題檢測(cè)與跟蹤關(guān)鍵技術(shù)研究[D];華北電力大學(xué);2012年
3 史純侃;基于木棉教育新聞平臺(tái)的圖片檢索子系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2014年
本文關(guān)鍵詞:木棉教育新聞平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):332705
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/332705.html