面向網(wǎng)絡(luò)新聞的熱點(diǎn)話題挖掘技術(shù)研究
發(fā)布時(shí)間:2021-01-31 21:57
隨著移動(dòng)互聯(lián)網(wǎng)快速地發(fā)展,人們習(xí)慣于瀏覽網(wǎng)絡(luò)新聞頁面獲取相關(guān)資訊,各大網(wǎng)絡(luò)新聞平臺(tái)隨時(shí)隨地報(bào)道社會(huì)新聞,使得人們面臨著新聞內(nèi)容交叉重復(fù)、話題多樣廣泛、熱門話題篩選比較復(fù)雜等問題。人們很難獲取熱點(diǎn)話題或興趣話題,無法了解話題的趨勢(shì)變化過程,熱點(diǎn)話題可能會(huì)因新的新聞產(chǎn)生而被淹沒。因此,如何從網(wǎng)絡(luò)新聞中發(fā)現(xiàn)熱點(diǎn)話題和分析熱點(diǎn)話題的趨勢(shì)變化已成為亟待解決的重要問題,本文重點(diǎn)研究熱點(diǎn)話題的挖掘和分析熱點(diǎn)話題的趨勢(shì)變化過程,向用戶展示不同時(shí)間粒度內(nèi)的熱點(diǎn)話題,分析熱點(diǎn)話題的趨勢(shì),主要的研究工作如下:1、提出了復(fù)合模型的新聞話題挖掘算法。首先,本文引入三元組的存儲(chǔ)結(jié)構(gòu)改進(jìn)凝聚型層次聚類算法,減少算法的運(yùn)行時(shí)間。在此基礎(chǔ)上,將改進(jìn)凝聚型層次聚類算法和K-means算法相結(jié)合。先對(duì)文本集采用改進(jìn)凝聚型層次聚類算法,根據(jù)聚類有效性評(píng)估指標(biāo)和改進(jìn)最大最小距離算法,自動(dòng)發(fā)現(xiàn)新聞話題數(shù)和初始聚類中心。然后使用K-means算法對(duì)文本集進(jìn)行聚類,獲得最終的新聞話題。通過對(duì)比實(shí)驗(yàn)結(jié)果表明,復(fù)合模型聚類算法的效果優(yōu)于傳統(tǒng)單一聚類算法。2、提出了一種話題熱度的評(píng)估方法。鑒于傳統(tǒng)TF-PDF熱度評(píng)估算法只考慮了媒體關(guān)注度...
【文章來源】:南京理工大學(xué)江蘇省 211工程院校
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
“央視315晚會(huì)”話題詞云
碩士學(xué)位論文面向網(wǎng)絡(luò)新聞的熱點(diǎn)話題挖掘技術(shù)研究45為了更加形象地描述該模塊的功能,本文展示一篇文本處理的過程來說明該模塊,原始新聞文本見圖5.6所示。圖5.6“改革開放40年”的相關(guān)新聞文本上述文本經(jīng)過NLRPIR分詞后的結(jié)果如圖5.7所示圖5.7文本分詞后的結(jié)果所示根據(jù)上述右邊圖中顯示的詞權(quán)重,過濾掉停用詞和權(quán)重小的詞,最后得到的文本
碩士學(xué)位論文面向網(wǎng)絡(luò)新聞的熱點(diǎn)話題挖掘技術(shù)研究45為了更加形象地描述該模塊的功能,本文展示一篇文本處理的過程來說明該模塊,原始新聞文本見圖5.6所示。圖5.6“改革開放40年”的相關(guān)新聞文本上述文本經(jīng)過NLRPIR分詞后的結(jié)果如圖5.7所示圖5.7文本分詞后的結(jié)果所示根據(jù)上述右邊圖中顯示的詞權(quán)重,過濾掉停用詞和權(quán)重小的詞,最后得到的文本
本文編號(hào):3011646
【文章來源】:南京理工大學(xué)江蘇省 211工程院校
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
“央視315晚會(huì)”話題詞云
碩士學(xué)位論文面向網(wǎng)絡(luò)新聞的熱點(diǎn)話題挖掘技術(shù)研究45為了更加形象地描述該模塊的功能,本文展示一篇文本處理的過程來說明該模塊,原始新聞文本見圖5.6所示。圖5.6“改革開放40年”的相關(guān)新聞文本上述文本經(jīng)過NLRPIR分詞后的結(jié)果如圖5.7所示圖5.7文本分詞后的結(jié)果所示根據(jù)上述右邊圖中顯示的詞權(quán)重,過濾掉停用詞和權(quán)重小的詞,最后得到的文本
碩士學(xué)位論文面向網(wǎng)絡(luò)新聞的熱點(diǎn)話題挖掘技術(shù)研究45為了更加形象地描述該模塊的功能,本文展示一篇文本處理的過程來說明該模塊,原始新聞文本見圖5.6所示。圖5.6“改革開放40年”的相關(guān)新聞文本上述文本經(jīng)過NLRPIR分詞后的結(jié)果如圖5.7所示圖5.7文本分詞后的結(jié)果所示根據(jù)上述右邊圖中顯示的詞權(quán)重,過濾掉停用詞和權(quán)重小的詞,最后得到的文本
本文編號(hào):3011646
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3011646.html
最近更新
教材專著