新聞熱點(diǎn)話題發(fā)現(xiàn)及趨勢(shì)分析研究
發(fā)布時(shí)間:2022-12-06 22:43
隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)新聞逐漸成為網(wǎng)絡(luò)民眾最為關(guān)注的信息來源。網(wǎng)絡(luò)輿情是不可忽視的力量,它需要監(jiān)控與引導(dǎo)。對(duì)于熱門話題發(fā)現(xiàn)與趨勢(shì)分析的研究可以及時(shí)發(fā)現(xiàn)社會(huì)熱點(diǎn)話題,分析話題的趨勢(shì),有利于把握輿情走向,從而進(jìn)行正確引導(dǎo),維護(hù)社會(huì)穩(wěn)定。本文對(duì)新聞熱點(diǎn)話題發(fā)現(xiàn)及趨勢(shì)分析進(jìn)行了研究,主要內(nèi)容包括以下幾個(gè)方面:1.針對(duì)新聞文本聚類中存在的文本語義缺失、聚類精度不高的問題提出了一種改進(jìn)DPC(密度峰值聚類,Density Peak Clustering)的話題聚類方法。該方法首先對(duì)新聞文本進(jìn)行向量化,經(jīng)過文本預(yù)處理之后使用Word2Vec計(jì)算詞向量,然后根據(jù)新聞標(biāo)題與正文的詞頻等因素提取核心詞,使用核心詞的詞向量來表示一篇新聞文本。接著,基于加權(quán)K近鄰思想提出了一種改進(jìn)的密度峰值算法,在局部密度計(jì)算、初始聚類中心自動(dòng)選擇、離群點(diǎn)識(shí)別以及樣本分配策略方面進(jìn)行改進(jìn)。最后,在8個(gè)基準(zhǔn)數(shù)據(jù)集以及搜狐新聞數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明提出的算法能有效提高新聞話題發(fā)現(xiàn)的準(zhǔn)確度。2.針對(duì)熱點(diǎn)話題發(fā)現(xiàn)困難的問題,提出了基于復(fù)合關(guān)注度模型的熱點(diǎn)話題發(fā)現(xiàn)算法。從媒體關(guān)注度和用戶關(guān)注度兩個(gè)方面度量話題的熱度,并采...
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及目的
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 話題檢測(cè)與跟蹤
1.2.2 熱點(diǎn)話題趨勢(shì)分析
1.3 本文主要工作
1.4 本文結(jié)構(gòu)安排
2 基于改進(jìn)DPC的話題聚類算法
2.1 新聞的分布式表示
2.1.1 向量空間模型
2.1.2 LDA主題模型
2.1.3 Word2Vec模型
2.1.4 基于Word2Vec的新聞文本表示方法
2.2 改進(jìn)的密度峰值聚類算法
2.2.1 密度峰值聚類算法概述
2.2.2 現(xiàn)有改進(jìn)方法及在文本挖掘方面的應(yīng)用
2.2.3 基于加權(quán)K近鄰的改進(jìn)DPC算法
2.3 實(shí)驗(yàn)結(jié)果與分析
2.3.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集
2.3.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
2.3.3 基準(zhǔn)數(shù)據(jù)集聚類
2.3.4 搜狐新聞數(shù)據(jù)集聚類
2.4 本章小結(jié)
3 熱點(diǎn)話題發(fā)現(xiàn)
3.1 熱點(diǎn)話題概念
3.2 熱點(diǎn)話題發(fā)現(xiàn)模型
3.3 熱點(diǎn)話題發(fā)現(xiàn)算法
3.4 實(shí)驗(yàn)與結(jié)果
3.5 本章小結(jié)
4 熱點(diǎn)話題生命周期階段識(shí)別
4.1 生命周期原理
4.2 生命周期階段識(shí)別相關(guān)工作
4.3 熱點(diǎn)話題生命周期發(fā)展曲線
4.4 基于DTW的生命周期階段識(shí)別算法
4.4.1 DTW算法簡(jiǎn)介
4.4.2 生命周期階段識(shí)別算法
4.5 實(shí)驗(yàn)及結(jié)果分析
4.5.1 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
4.5.2 生命周期階段識(shí)別實(shí)驗(yàn)
4.6 本章小結(jié)
5 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
5.1 系統(tǒng)整體架構(gòu)
5.2 核心模塊設(shè)計(jì)
5.2.1 新聞數(shù)據(jù)采集模塊
5.2.2 新聞?lì)A(yù)處理模塊
5.2.3 熱點(diǎn)話題發(fā)現(xiàn)及趨勢(shì)分析模塊
5.3 本章小結(jié)
6 總結(jié)與展望
6.1 本文總結(jié)
6.2 未來工作展望
致謝
參考文獻(xiàn)
附錄
【參考文獻(xiàn)】:
期刊論文
[1]基于動(dòng)態(tài)時(shí)間歸整距的地震動(dòng)特性分析及合成精度評(píng)價(jià)[J]. 何浩祥,解鑫,王文濤. 振動(dòng)與沖擊. 2018(12)
[2]基于自動(dòng)編碼器的句子語義特征提取及相似度計(jì)算[J]. 馬建紅,楊浩,姚爽. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版). 2018(02)
[3]結(jié)合語義和結(jié)構(gòu)的短文本相似度計(jì)算[J]. 倪高偉,李濤,劉崢. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(08)
[4]基于MFIHC聚類和TOPSIS的微博熱點(diǎn)發(fā)現(xiàn)方法[J]. 魏德志,陳福集,林麗娜. 計(jì)算機(jī)應(yīng)用研究. 2018(04)
[5]多特征融合文本聚類的新聞話題發(fā)現(xiàn)模型[J]. 車?yán)?楊小平. 國防科技大學(xué)學(xué)報(bào). 2017(03)
[6]基于動(dòng)態(tài)時(shí)間規(guī)整距離指紋匹配的Wi-Fi網(wǎng)絡(luò)室內(nèi)定位算法[J]. 張明洋,陳劍,聞?dòng)⒂?趙宏,王玉剛. 計(jì)算機(jī)應(yīng)用. 2017(06)
[7]一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類算法[J]. 田曉艷. 科技創(chuàng)新與應(yīng)用. 2017(06)
[8]一種基于簇中心點(diǎn)自動(dòng)選擇策略的密度峰值聚類算法[J]. 馬春來,單洪,馬濤. 計(jì)算機(jī)科學(xué). 2016(07)
[9]基于事件卷積特征的新聞文本分類[J]. 夏從零,錢濤,姬東鴻. 計(jì)算機(jī)應(yīng)用研究. 2017(04)
[10]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計(jì)算機(jī)科學(xué). 2016(06)
博士論文
[1]網(wǎng)絡(luò)用戶偏好分析及話題趨勢(shì)預(yù)測(cè)方法研究[D]. 程輝.北京交通大學(xué) 2013
碩士論文
[1]網(wǎng)絡(luò)熱點(diǎn)話題趨勢(shì)分析及預(yù)測(cè)研究[D]. 楊艷.哈爾濱工業(yè)大學(xué) 2017
[2]基于密度峰值的一種文本聚類優(yōu)化算法的研究與實(shí)現(xiàn)[D]. 蘭旭.國防科學(xué)技術(shù)大學(xué) 2016
[3]微博生命周期分析與預(yù)測(cè)[D]. 馬星環(huán).華中科技大學(xué) 2015
[4]網(wǎng)絡(luò)新聞生命周期及提升策略研究[D]. 羅奧.重慶師范大學(xué) 2015
[5]網(wǎng)絡(luò)突發(fā)事件預(yù)警研究[D]. 趙滿坤.天津大學(xué) 2014
[6]微博熱點(diǎn)話題檢測(cè)與趨勢(shì)預(yù)測(cè)研究[D]. 姚海波.華南理工大學(xué) 2013
[7]網(wǎng)絡(luò)熱點(diǎn)話題自動(dòng)發(fā)現(xiàn)技術(shù)研究[D]. 龔海軍.華中師范大學(xué) 2008
本文編號(hào):3711760
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及目的
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 話題檢測(cè)與跟蹤
1.2.2 熱點(diǎn)話題趨勢(shì)分析
1.3 本文主要工作
1.4 本文結(jié)構(gòu)安排
2 基于改進(jìn)DPC的話題聚類算法
2.1 新聞的分布式表示
2.1.1 向量空間模型
2.1.2 LDA主題模型
2.1.3 Word2Vec模型
2.1.4 基于Word2Vec的新聞文本表示方法
2.2 改進(jìn)的密度峰值聚類算法
2.2.1 密度峰值聚類算法概述
2.2.2 現(xiàn)有改進(jìn)方法及在文本挖掘方面的應(yīng)用
2.2.3 基于加權(quán)K近鄰的改進(jìn)DPC算法
2.3 實(shí)驗(yàn)結(jié)果與分析
2.3.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集
2.3.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
2.3.3 基準(zhǔn)數(shù)據(jù)集聚類
2.3.4 搜狐新聞數(shù)據(jù)集聚類
2.4 本章小結(jié)
3 熱點(diǎn)話題發(fā)現(xiàn)
3.1 熱點(diǎn)話題概念
3.2 熱點(diǎn)話題發(fā)現(xiàn)模型
3.3 熱點(diǎn)話題發(fā)現(xiàn)算法
3.4 實(shí)驗(yàn)與結(jié)果
3.5 本章小結(jié)
4 熱點(diǎn)話題生命周期階段識(shí)別
4.1 生命周期原理
4.2 生命周期階段識(shí)別相關(guān)工作
4.3 熱點(diǎn)話題生命周期發(fā)展曲線
4.4 基于DTW的生命周期階段識(shí)別算法
4.4.1 DTW算法簡(jiǎn)介
4.4.2 生命周期階段識(shí)別算法
4.5 實(shí)驗(yàn)及結(jié)果分析
4.5.1 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
4.5.2 生命周期階段識(shí)別實(shí)驗(yàn)
4.6 本章小結(jié)
5 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
5.1 系統(tǒng)整體架構(gòu)
5.2 核心模塊設(shè)計(jì)
5.2.1 新聞數(shù)據(jù)采集模塊
5.2.2 新聞?lì)A(yù)處理模塊
5.2.3 熱點(diǎn)話題發(fā)現(xiàn)及趨勢(shì)分析模塊
5.3 本章小結(jié)
6 總結(jié)與展望
6.1 本文總結(jié)
6.2 未來工作展望
致謝
參考文獻(xiàn)
附錄
【參考文獻(xiàn)】:
期刊論文
[1]基于動(dòng)態(tài)時(shí)間歸整距的地震動(dòng)特性分析及合成精度評(píng)價(jià)[J]. 何浩祥,解鑫,王文濤. 振動(dòng)與沖擊. 2018(12)
[2]基于自動(dòng)編碼器的句子語義特征提取及相似度計(jì)算[J]. 馬建紅,楊浩,姚爽. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版). 2018(02)
[3]結(jié)合語義和結(jié)構(gòu)的短文本相似度計(jì)算[J]. 倪高偉,李濤,劉崢. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(08)
[4]基于MFIHC聚類和TOPSIS的微博熱點(diǎn)發(fā)現(xiàn)方法[J]. 魏德志,陳福集,林麗娜. 計(jì)算機(jī)應(yīng)用研究. 2018(04)
[5]多特征融合文本聚類的新聞話題發(fā)現(xiàn)模型[J]. 車?yán)?楊小平. 國防科技大學(xué)學(xué)報(bào). 2017(03)
[6]基于動(dòng)態(tài)時(shí)間規(guī)整距離指紋匹配的Wi-Fi網(wǎng)絡(luò)室內(nèi)定位算法[J]. 張明洋,陳劍,聞?dòng)⒂?趙宏,王玉剛. 計(jì)算機(jī)應(yīng)用. 2017(06)
[7]一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類算法[J]. 田曉艷. 科技創(chuàng)新與應(yīng)用. 2017(06)
[8]一種基于簇中心點(diǎn)自動(dòng)選擇策略的密度峰值聚類算法[J]. 馬春來,單洪,馬濤. 計(jì)算機(jī)科學(xué). 2016(07)
[9]基于事件卷積特征的新聞文本分類[J]. 夏從零,錢濤,姬東鴻. 計(jì)算機(jī)應(yīng)用研究. 2017(04)
[10]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計(jì)算機(jī)科學(xué). 2016(06)
博士論文
[1]網(wǎng)絡(luò)用戶偏好分析及話題趨勢(shì)預(yù)測(cè)方法研究[D]. 程輝.北京交通大學(xué) 2013
碩士論文
[1]網(wǎng)絡(luò)熱點(diǎn)話題趨勢(shì)分析及預(yù)測(cè)研究[D]. 楊艷.哈爾濱工業(yè)大學(xué) 2017
[2]基于密度峰值的一種文本聚類優(yōu)化算法的研究與實(shí)現(xiàn)[D]. 蘭旭.國防科學(xué)技術(shù)大學(xué) 2016
[3]微博生命周期分析與預(yù)測(cè)[D]. 馬星環(huán).華中科技大學(xué) 2015
[4]網(wǎng)絡(luò)新聞生命周期及提升策略研究[D]. 羅奧.重慶師范大學(xué) 2015
[5]網(wǎng)絡(luò)突發(fā)事件預(yù)警研究[D]. 趙滿坤.天津大學(xué) 2014
[6]微博熱點(diǎn)話題檢測(cè)與趨勢(shì)預(yù)測(cè)研究[D]. 姚海波.華南理工大學(xué) 2013
[7]網(wǎng)絡(luò)熱點(diǎn)話題自動(dòng)發(fā)現(xiàn)技術(shù)研究[D]. 龔海軍.華中師范大學(xué) 2008
本文編號(hào):3711760
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3711760.html
最近更新
教材專著