面向網(wǎng)絡(luò)新聞的熱點話題挖掘技術(shù)研究
發(fā)布時間:2021-01-31 21:57
隨著移動互聯(lián)網(wǎng)快速地發(fā)展,人們習(xí)慣于瀏覽網(wǎng)絡(luò)新聞頁面獲取相關(guān)資訊,各大網(wǎng)絡(luò)新聞平臺隨時隨地報道社會新聞,使得人們面臨著新聞內(nèi)容交叉重復(fù)、話題多樣廣泛、熱門話題篩選比較復(fù)雜等問題。人們很難獲取熱點話題或興趣話題,無法了解話題的趨勢變化過程,熱點話題可能會因新的新聞產(chǎn)生而被淹沒。因此,如何從網(wǎng)絡(luò)新聞中發(fā)現(xiàn)熱點話題和分析熱點話題的趨勢變化已成為亟待解決的重要問題,本文重點研究熱點話題的挖掘和分析熱點話題的趨勢變化過程,向用戶展示不同時間粒度內(nèi)的熱點話題,分析熱點話題的趨勢,主要的研究工作如下:1、提出了復(fù)合模型的新聞話題挖掘算法。首先,本文引入三元組的存儲結(jié)構(gòu)改進凝聚型層次聚類算法,減少算法的運行時間。在此基礎(chǔ)上,將改進凝聚型層次聚類算法和K-means算法相結(jié)合。先對文本集采用改進凝聚型層次聚類算法,根據(jù)聚類有效性評估指標和改進最大最小距離算法,自動發(fā)現(xiàn)新聞話題數(shù)和初始聚類中心。然后使用K-means算法對文本集進行聚類,獲得最終的新聞話題。通過對比實驗結(jié)果表明,復(fù)合模型聚類算法的效果優(yōu)于傳統(tǒng)單一聚類算法。2、提出了一種話題熱度的評估方法。鑒于傳統(tǒng)TF-PDF熱度評估算法只考慮了媒體關(guān)注度...
【文章來源】:南京理工大學(xué)江蘇省 211工程院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
“央視315晚會”話題詞云
碩士學(xué)位論文面向網(wǎng)絡(luò)新聞的熱點話題挖掘技術(shù)研究45為了更加形象地描述該模塊的功能,本文展示一篇文本處理的過程來說明該模塊,原始新聞文本見圖5.6所示。圖5.6“改革開放40年”的相關(guān)新聞文本上述文本經(jīng)過NLRPIR分詞后的結(jié)果如圖5.7所示圖5.7文本分詞后的結(jié)果所示根據(jù)上述右邊圖中顯示的詞權(quán)重,過濾掉停用詞和權(quán)重小的詞,最后得到的文本
碩士學(xué)位論文面向網(wǎng)絡(luò)新聞的熱點話題挖掘技術(shù)研究45為了更加形象地描述該模塊的功能,本文展示一篇文本處理的過程來說明該模塊,原始新聞文本見圖5.6所示。圖5.6“改革開放40年”的相關(guān)新聞文本上述文本經(jīng)過NLRPIR分詞后的結(jié)果如圖5.7所示圖5.7文本分詞后的結(jié)果所示根據(jù)上述右邊圖中顯示的詞權(quán)重,過濾掉停用詞和權(quán)重小的詞,最后得到的文本
本文編號:3011646
【文章來源】:南京理工大學(xué)江蘇省 211工程院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
“央視315晚會”話題詞云
碩士學(xué)位論文面向網(wǎng)絡(luò)新聞的熱點話題挖掘技術(shù)研究45為了更加形象地描述該模塊的功能,本文展示一篇文本處理的過程來說明該模塊,原始新聞文本見圖5.6所示。圖5.6“改革開放40年”的相關(guān)新聞文本上述文本經(jīng)過NLRPIR分詞后的結(jié)果如圖5.7所示圖5.7文本分詞后的結(jié)果所示根據(jù)上述右邊圖中顯示的詞權(quán)重,過濾掉停用詞和權(quán)重小的詞,最后得到的文本
碩士學(xué)位論文面向網(wǎng)絡(luò)新聞的熱點話題挖掘技術(shù)研究45為了更加形象地描述該模塊的功能,本文展示一篇文本處理的過程來說明該模塊,原始新聞文本見圖5.6所示。圖5.6“改革開放40年”的相關(guān)新聞文本上述文本經(jīng)過NLRPIR分詞后的結(jié)果如圖5.7所示圖5.7文本分詞后的結(jié)果所示根據(jù)上述右邊圖中顯示的詞權(quán)重,過濾掉停用詞和權(quán)重小的詞,最后得到的文本
本文編號:3011646
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3011646.html
最近更新
教材專著