網(wǎng)絡(luò)新聞熱點(diǎn)發(fā)現(xiàn)研究
發(fā)布時(shí)間:2017-09-19 06:29
本文關(guān)鍵詞:網(wǎng)絡(luò)新聞熱點(diǎn)發(fā)現(xiàn)研究
更多相關(guān)文章: 自動(dòng)摘要 關(guān)聯(lián)規(guī)則 互信息 熱度計(jì)算 top-N
【摘要】:隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)用戶(hù)數(shù)量不斷增加,互聯(lián)網(wǎng)成為人們關(guān)注新聞動(dòng)態(tài)、時(shí)事政治和發(fā)表觀點(diǎn)的重要平臺(tái)。與傳統(tǒng)媒體相比較,網(wǎng)絡(luò)新聞內(nèi)容涉及更全面,更新速度更快,所以網(wǎng)絡(luò)輿論也就成為社會(huì)輿論的一種重要表現(xiàn)形式。通過(guò)了解網(wǎng)絡(luò)熱點(diǎn)話題,及時(shí)掌握流行觀點(diǎn)具有十分重要的意義。本文針對(duì)網(wǎng)絡(luò)新聞?wù)Z料進(jìn)行熱點(diǎn)發(fā)現(xiàn)研究,主要工作如下:新詞發(fā)現(xiàn)是中文自然語(yǔ)言處理的基礎(chǔ),本文利用改進(jìn)的關(guān)聯(lián)規(guī)則算法對(duì)網(wǎng)絡(luò)新聞進(jìn)行挖掘,相鄰、有序地輸出頻繁字符串集合,能有效地發(fā)現(xiàn)詞典中未登錄詞以及當(dāng)前網(wǎng)絡(luò)中流行的熱詞。本文針對(duì)復(fù)合式新詞的問(wèn)題給出了一種支持度比對(duì)的方法。在熱點(diǎn)新聞挖掘中,給出了根據(jù)互信息計(jì)算字符串的相似度,形成熱點(diǎn)新聞的關(guān)鍵詞集合,再進(jìn)行熱度計(jì)算的方法。在選取新聞?wù)Z料進(jìn)行處理時(shí),由于新聞具有很強(qiáng)的時(shí)效性,同一時(shí)間關(guān)于同一主題的不同報(bào)道會(huì)陳述某些相同的信息。本文改進(jìn)傳統(tǒng)的自動(dòng)摘要算法,首先利用二元分類(lèi)器對(duì)事件句與非事件句進(jìn)行初步判定,把事件句作為摘要句的候選集合,降低了運(yùn)算的時(shí)間。由于新聞數(shù)據(jù)量較大,逐一進(jìn)行分詞和關(guān)聯(lián)規(guī)則計(jì)算效率太低。于是針對(duì)爬蟲(chóng)技術(shù)提取到的網(wǎng)絡(luò)新聞的特點(diǎn),本文對(duì)新聞內(nèi)容進(jìn)行自動(dòng)摘要處理,選取一定比例的摘要句與新聞標(biāo)題作為語(yǔ)料集進(jìn)行實(shí)驗(yàn)。為了解決多新聞網(wǎng)站新聞數(shù)據(jù)量大且不易處理的問(wèn)題,本文給出了一種新聞熱點(diǎn)快速查找的方法。先找出單個(gè)新聞網(wǎng)站的新聞熱點(diǎn)排名,再利用top-N算法對(duì)排名結(jié)果進(jìn)行綜合快速排名。本文選取網(wǎng)易、搜狐和新浪三大新聞網(wǎng)站從2013年2月25日到2015年3月31日的數(shù)據(jù)為語(yǔ)料源對(duì)本文的方法進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文的方法能有效地發(fā)現(xiàn)網(wǎng)絡(luò)新聞的熱點(diǎn)新聞。
【關(guān)鍵詞】:自動(dòng)摘要 關(guān)聯(lián)規(guī)則 互信息 熱度計(jì)算 top-N
【學(xué)位授予單位】:河北大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.1;TP393.092
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 緒論9-15
- 1.1 研究背景和意義9
- 1.2 熱點(diǎn)發(fā)現(xiàn)研究現(xiàn)狀9-11
- 1.3 熱點(diǎn)發(fā)現(xiàn)存在的問(wèn)題11-12
- 1.4 本文主要研究?jī)?nèi)容與論文組織結(jié)構(gòu)12-14
- 1.4.1 主要研究?jī)?nèi)容12-13
- 1.4.2 論文組織結(jié)構(gòu)13-14
- 1.5 本章小結(jié)14-15
- 第2章 相關(guān)知識(shí)15-22
- 2.1 網(wǎng)絡(luò)新聞特點(diǎn)15-17
- 2.1.1 新聞文本特征15
- 2.1.2 網(wǎng)絡(luò)新聞概念15-16
- 2.1.3 網(wǎng)絡(luò)熱詞概念16-17
- 2.2 自動(dòng)摘要技術(shù)17-21
- 2.2.1 自動(dòng)摘要技術(shù)分類(lèi)17-18
- 2.2.2 自動(dòng)摘要特征項(xiàng)18-20
- 2.2.3 新聞文本特征表示20-21
- 2.2.4 語(yǔ)句平滑處理21
- 2.3 本章小結(jié)21-22
- 第3章 頻繁模式挖掘22-29
- 3.1 數(shù)據(jù)預(yù)處理22-24
- 3.1.1 新聞?wù)Z料的預(yù)處理22
- 3.1.2 事件句篩選22-23
- 3.1.3 摘要生成23-24
- 3.2 關(guān)聯(lián)規(guī)則的思想24-25
- 3.3 基于改進(jìn)的頻繁模式的新詞識(shí)別算法25-28
- 3.3.1 IFP算法25-27
- 3.3.2 復(fù)合式新詞判定27-28
- 3.4 本章小結(jié)28-29
- 第4章 新聞熱點(diǎn)發(fā)現(xiàn)29-35
- 4.1 詞共現(xiàn)模型29-30
- 4.2 事件關(guān)聯(lián)建模30-31
- 4.2.1 事件熱詞提取30
- 4.2.2 事件熱詞關(guān)聯(lián)建模30-31
- 4.3 熱點(diǎn)新聞排名31-32
- 4.4 基于top-N新聞熱點(diǎn)快速查找32-33
- 4.5 本章小結(jié)33-35
- 第5章 實(shí)驗(yàn)數(shù)據(jù)與結(jié)果分析35-44
- 5.1 實(shí)驗(yàn)設(shè)計(jì)35
- 5.2 實(shí)驗(yàn)結(jié)果及分析35-43
- 5.2.1 新詞發(fā)現(xiàn)35-37
- 5.2.2 自動(dòng)摘要37-38
- 5.2.3 熱點(diǎn)排名38-42
- 5.2.4 基于top-N新聞熱點(diǎn)快速查找實(shí)驗(yàn)結(jié)果42-43
- 5.3 本章小結(jié)43-44
- 第6章 總結(jié)與展望44-46
- 6.1 論文工作總結(jié)44
- 6.2 工作展望44-46
- 參考文獻(xiàn)46-48
- 致謝48-49
- 攻讀學(xué)位期間取得的科研成果49
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條
1 李鈍;曹元大;萬(wàn)月亮;;Internet中的新詞識(shí)別[J];北京郵電大學(xué)學(xué)報(bào);2008年01期
2 崔世起;劉群;孟遙;于浩;西野文人;;基于大規(guī)模語(yǔ)料庫(kù)的新詞檢測(cè)[J];計(jì)算機(jī)研究與發(fā)展;2006年05期
3 常鵬;馮楠;;基于詞共現(xiàn)的文檔表示模型[J];中文信息學(xué)報(bào);2012年01期
4 郭沖;;基于新聞標(biāo)題的網(wǎng)絡(luò)熱詞發(fā)現(xiàn)算法[J];計(jì)算機(jī)與現(xiàn)代化;2013年03期
5 劉哲;黃永峰;羅芳;陳躋;王丙坤;;網(wǎng)絡(luò)新詞識(shí)別算法研究[J];計(jì)算機(jī)工程與科學(xué);2013年09期
6 趙文清;侯小可;;基于詞共現(xiàn)圖的中文微博新聞話題識(shí)別[J];智能系統(tǒng)學(xué)報(bào);2012年05期
,本文編號(hào):880045
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/880045.html
最近更新
教材專(zhuān)著