天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

網(wǎng)絡(luò)新聞熱點(diǎn)話題檢測分析與趨勢研究

發(fā)布時(shí)間:2020-06-13 21:10
【摘要】:隨著“互聯(lián)網(wǎng)+”時(shí)代的到來,網(wǎng)絡(luò)逐漸成為人們獲取信息、傳播信息的重要渠道,大量網(wǎng)絡(luò)新聞在豐富人民生活的同時(shí),也蘊(yùn)藏了大量的價(jià)值,比如網(wǎng)絡(luò)新聞在輿情、股市預(yù)測等方面都有著重要應(yīng)用。但是網(wǎng)絡(luò)新聞交錯(cuò)紛雜、雜亂無章,人們往往無法獲取及時(shí)有效的信息,網(wǎng)絡(luò)新聞話題檢測以及趨勢研究則能很好地解決的這一問題,網(wǎng)絡(luò)新聞話題檢測主要是為了從海量的網(wǎng)絡(luò)新聞中檢測熱點(diǎn)話題,方便人們關(guān)注社會(huì)焦點(diǎn)。本文在傳統(tǒng)的話題檢測方法基礎(chǔ)上進(jìn)行了一些改進(jìn)。首先本文的數(shù)據(jù)來源于爬取的2018年1月份各大門戶網(wǎng)站八個(gè)類別下的網(wǎng)絡(luò)新聞數(shù)據(jù),然后本文在話題模型的選取上采用Word2vec與LDA聯(lián)合建模的方式;其次本文在對(duì)文本聚類前采用文本分類的方式進(jìn)行預(yù)處理,從而可以得到不同類別的網(wǎng)絡(luò)新聞;然后本文設(shè)計(jì)了一種雙層SinglePass聚類進(jìn)行話題發(fā)現(xiàn);最后本文對(duì)話題的趨勢進(jìn)行了研究,通過話題熱度以及話題指數(shù)的計(jì)算公式獲取話題的趨勢。根據(jù)研究結(jié)果表明,本文采用的Word2vec與LDA聯(lián)合建模方式效果優(yōu)異,實(shí)驗(yàn)表明在與單模型的比較中效果上有明顯提升;而本文構(gòu)建的基于Word2vec與卷積神經(jīng)網(wǎng)絡(luò)的分類模型取得了良好的效果,分類準(zhǔn)確率達(dá)到90%以上,根據(jù)此算法可以得到八個(gè)類別下的新聞;其次本文設(shè)計(jì)的雙層Single-Pass聚類的聚類效果優(yōu)異,并且能夠處理連續(xù)時(shí)間的網(wǎng)絡(luò)新聞,具有較強(qiáng)的靈活性,根據(jù)本文算法給出了2018年1月2日以及2018年第一周的各類別熱點(diǎn)話題;最后本文提出的熱點(diǎn)話題趨勢研究的方法在實(shí)際的話題案例分析中,與權(quán)威的搜索引擎百度指數(shù)的對(duì)比,發(fā)現(xiàn)效果大致相同,側(cè)面印證了本文話題的趨勢研究的有效性。所以通過本文的模型可以從海量的網(wǎng)絡(luò)新聞中檢測出熱點(diǎn)話題,并對(duì)話題趨勢進(jìn)行研究,這對(duì)用戶、企業(yè)還是政府都有較強(qiáng)的應(yīng)用價(jià)值。
【圖文】:

流程圖,流程圖,網(wǎng)絡(luò)新聞,熱門話題


圖 1.1 本文話題檢測與趨勢研究流程圖1.3 本文的創(chuàng)新之處本文具體的創(chuàng)新點(diǎn)從研究內(nèi)容以及研究方法上分別闡述。1.3.1 研究內(nèi)容上的創(chuàng)新國內(nèi)外研究在熱門話題檢測過程中基本采用聚類算法,并沒有將分類考慮進(jìn)去,本文則在話題聚類之前對(duì)網(wǎng)絡(luò)新聞進(jìn)行分類,從而將網(wǎng)絡(luò)新聞按照不同類別劃分,這樣不僅可以減少話題檢測時(shí)聚類的計(jì)算量,并且還可以得到不同類別下的熱門話題。1.3.2 研究方法上的創(chuàng)新研究方法的創(chuàng)新主要體現(xiàn)在 2 個(gè)方面。(1)新聞話題模型的創(chuàng)新新聞話題模型是話題檢測的核心之一,目前廣泛使用的方法有向量空間模型與主題模型,本文引入 Word2vec 模型,并與傳統(tǒng)的主題模型 LDA 聯(lián)合建模的方式應(yīng)用到話題

文本數(shù)據(jù),格式


第 2 章 文本表示模型及相似度算法話題檢測的前提在于話題模型的構(gòu)建,而構(gòu)建話題模型則需要對(duì)文本預(yù)處理。本章首先對(duì)爬取下來的數(shù)據(jù)進(jìn)行預(yù)處理,采用 Word2vec 與 LDA 模型對(duì)文本建模,,以及嘗試?yán)?Word2vec 與 LDA 模型聯(lián)合建模的方式來計(jì)算文本相似度。2.1 文本預(yù)處理文本預(yù)處理階段是將文本數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)的過程,首先本文采用 python 網(wǎng)絡(luò)爬蟲技術(shù)將爬取的下來的網(wǎng)絡(luò)新聞形成一個(gè)數(shù)據(jù)集,進(jìn)而對(duì)文本進(jìn)行中文分詞,將文本切割成分散的獨(dú)立詞集,并對(duì)各詞語進(jìn)行詞性標(biāo)注,并構(gòu)建停用詞表去除無關(guān)的干擾詞。本文數(shù)據(jù)來源于 2018 年 1 月份全月的新浪、搜狐、網(wǎng)易等門戶網(wǎng)站的新聞數(shù)據(jù),主要包括:國內(nèi)、國際、社會(huì)、娛樂、科技、軍事、體育、財(cái)經(jīng)八個(gè)類別。采用 python的爬蟲框架進(jìn)行爬取。爬取新聞網(wǎng)頁鏈接的四個(gè)字段:新聞標(biāo)題、新聞發(fā)布時(shí)間、新聞?lì)悇e、新聞內(nèi)容。爬取的數(shù)據(jù)格式如圖 2.1 所示,
【學(xué)位授予單位】:首都經(jīng)濟(jì)貿(mào)易大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:F724.6;F274

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李躍鵬;金翠;及俊川;;基于word2vec的關(guān)鍵詞提取算法[J];科研信息化技術(shù)與應(yīng)用;2015年04期

2 賀敏;杜攀;張瑾;劉悅;程學(xué)旗;;基于動(dòng)量模型的微博突發(fā)話題檢測方法[J];計(jì)算機(jī)研究與發(fā)展;2015年05期

3 賈璦瑋;;基于劃分的聚類算法研究綜述[J];電子設(shè)計(jì)工程;2014年23期

4 方星星;呂永強(qiáng);;基于改進(jìn)的single-pass網(wǎng)絡(luò)輿情話題發(fā)現(xiàn)研究[J];計(jì)算機(jī)與數(shù)字工程;2014年07期

5 何躍;帥馬戀;馮韻;;中文微博熱點(diǎn)話題挖掘研究[J];統(tǒng)計(jì)與信息論壇;2014年06期

6 張小明;李舟軍;巢文涵;;基于增量型聚類的自動(dòng)話題檢測研究[J];軟件學(xué)報(bào);2012年06期

7 單斌;李芳;;基于LDA話題演化研究方法綜述[J];中文信息學(xué)報(bào);2010年06期

8 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;主題模型LDA的多文檔自動(dòng)文摘[J];智能系統(tǒng)學(xué)報(bào);2010年02期

9 俞輝;;基于PLSA模型的Web用戶聚類算法研究[J];計(jì)算機(jī)工程與科學(xué);2008年07期

10 王煜;王正歐;白石;;用于文本分類的改進(jìn)KNN算法[J];中文信息學(xué)報(bào);2007年03期

相關(guān)碩士學(xué)位論文 前2條

1 程嘉暉;基于深度卷積神經(jīng)網(wǎng)絡(luò)的飛行器圖像識(shí)別算法研究[D];浙江大學(xué);2017年

2 馬曉姝;基于LDA模型的新聞話題發(fā)現(xiàn)研究[D];東北師范大學(xué);2014年



本文編號(hào):2711748

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2711748.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c6a48***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com