基于深度學(xué)習(xí)的“教育公平”網(wǎng)絡(luò)輿情分析
發(fā)布時(shí)間:2021-07-02 20:45
[目的/意義]旨在構(gòu)建一個(gè)網(wǎng)絡(luò)輿情系統(tǒng),及時(shí)準(zhǔn)確地挖掘海量網(wǎng)絡(luò)數(shù)據(jù),分析社會熱點(diǎn)事件的網(wǎng)絡(luò)輿情。[方法/過程]結(jié)合深度學(xué)習(xí)技術(shù),構(gòu)建了一個(gè)基于內(nèi)容與結(jié)構(gòu)的輿情分析模型,其中利用Bi LSTM-CNN深度模型對輿情內(nèi)容進(jìn)行情感分析,利用社會網(wǎng)絡(luò)分析法對輿情網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)分析。[結(jié)果/結(jié)論]實(shí)證分析表明了該模型在公共事件輿情分析上的有效性和優(yōu)越性。從結(jié)構(gòu)和內(nèi)容兩方面分析,能為公共事件網(wǎng)絡(luò)輿情分析提供新思路。
【文章來源】:情報(bào)探索. 2020,(06)
【文章頁數(shù)】:8 頁
【部分圖文】:
輿情信息分析模型思路圖
本文利用網(wǎng)絡(luò)爬蟲技術(shù)[6]進(jìn)行輿情信息的爬取解析,使用爬蟲程序或現(xiàn)有爬蟲工具自動爬取互聯(lián)網(wǎng)上輿情信息源(天涯論壇)的網(wǎng)頁信息,基本流程(見圖2)是從某一網(wǎng)頁開始,遍歷該網(wǎng)頁中的全部URL放入U(xiǎn)RL集中,然后按照URL集中的順序讀取每個(gè)網(wǎng)頁中的內(nèi)容,直到將所有網(wǎng)頁抓取完為止。本文爬取兩個(gè)數(shù)據(jù)庫表:數(shù)據(jù)源表(存儲文本數(shù)據(jù)情況,包括URL、標(biāo)題、內(nèi)容、作者、時(shí)間)、評論表(存儲帖子的跟評情況,包括評論者、評論內(nèi)容、評論時(shí)間)。
(1)文本預(yù)處理。由于中文文本對象為不能被計(jì)算機(jī)所識別的非結(jié)構(gòu)化信息,因此需對文本進(jìn)行預(yù)處理(見圖3),將非結(jié)構(gòu)化文本轉(zhuǎn)換為能被計(jì)算機(jī)所識別的結(jié)構(gòu)化信息。(1)文本分詞。文本分詞是將文檔中的句子按照一定規(guī)則拆分轉(zhuǎn)換為詞,是語義理解的基礎(chǔ)和關(guān)鍵,其處理效果直接影響后續(xù)步驟。以分詞的速度和準(zhǔn)確性為標(biāo)準(zhǔn),選擇python的開源分詞庫Jieba[7]工具進(jìn)行中文分詞,得到分詞后的數(shù)據(jù)集。
【參考文獻(xiàn)】:
期刊論文
[1]淺談Python爬蟲技術(shù)的網(wǎng)頁數(shù)據(jù)抓取與分析[J]. 吳永聰. 計(jì)算機(jī)時(shí)代. 2019(08)
[2]21世紀(jì)以來我國教育公平研究的熱點(diǎn)與未來趨勢——基于共詞矩陣的知識圖譜分析[J]. 丁雪陽,程天君. 中國遠(yuǎn)程教育. 2019(01)
[3]重大公共熱點(diǎn)事件中媒體微信公眾號的輿情傳播研究[J]. 翟欣. 出版廣角. 2018(08)
[4]基于社會網(wǎng)絡(luò)分析的新媒體網(wǎng)絡(luò)輿情傳播監(jiān)管研究[J]. 李菲,柯平,高海濤,張丹紅,宋佳. 情報(bào)科學(xué). 2017(10)
本文編號:3261197
【文章來源】:情報(bào)探索. 2020,(06)
【文章頁數(shù)】:8 頁
【部分圖文】:
輿情信息分析模型思路圖
本文利用網(wǎng)絡(luò)爬蟲技術(shù)[6]進(jìn)行輿情信息的爬取解析,使用爬蟲程序或現(xiàn)有爬蟲工具自動爬取互聯(lián)網(wǎng)上輿情信息源(天涯論壇)的網(wǎng)頁信息,基本流程(見圖2)是從某一網(wǎng)頁開始,遍歷該網(wǎng)頁中的全部URL放入U(xiǎn)RL集中,然后按照URL集中的順序讀取每個(gè)網(wǎng)頁中的內(nèi)容,直到將所有網(wǎng)頁抓取完為止。本文爬取兩個(gè)數(shù)據(jù)庫表:數(shù)據(jù)源表(存儲文本數(shù)據(jù)情況,包括URL、標(biāo)題、內(nèi)容、作者、時(shí)間)、評論表(存儲帖子的跟評情況,包括評論者、評論內(nèi)容、評論時(shí)間)。
(1)文本預(yù)處理。由于中文文本對象為不能被計(jì)算機(jī)所識別的非結(jié)構(gòu)化信息,因此需對文本進(jìn)行預(yù)處理(見圖3),將非結(jié)構(gòu)化文本轉(zhuǎn)換為能被計(jì)算機(jī)所識別的結(jié)構(gòu)化信息。(1)文本分詞。文本分詞是將文檔中的句子按照一定規(guī)則拆分轉(zhuǎn)換為詞,是語義理解的基礎(chǔ)和關(guān)鍵,其處理效果直接影響后續(xù)步驟。以分詞的速度和準(zhǔn)確性為標(biāo)準(zhǔn),選擇python的開源分詞庫Jieba[7]工具進(jìn)行中文分詞,得到分詞后的數(shù)據(jù)集。
【參考文獻(xiàn)】:
期刊論文
[1]淺談Python爬蟲技術(shù)的網(wǎng)頁數(shù)據(jù)抓取與分析[J]. 吳永聰. 計(jì)算機(jī)時(shí)代. 2019(08)
[2]21世紀(jì)以來我國教育公平研究的熱點(diǎn)與未來趨勢——基于共詞矩陣的知識圖譜分析[J]. 丁雪陽,程天君. 中國遠(yuǎn)程教育. 2019(01)
[3]重大公共熱點(diǎn)事件中媒體微信公眾號的輿情傳播研究[J]. 翟欣. 出版廣角. 2018(08)
[4]基于社會網(wǎng)絡(luò)分析的新媒體網(wǎng)絡(luò)輿情傳播監(jiān)管研究[J]. 李菲,柯平,高海濤,張丹紅,宋佳. 情報(bào)科學(xué). 2017(10)
本文編號:3261197
本文鏈接:http://sikaile.net/tushudanganlunwen/3261197.html