基于深度學(xué)習(xí)的“教育公平”網(wǎng)絡(luò)輿情分析
發(fā)布時(shí)間:2021-07-02 20:45
[目的/意義]旨在構(gòu)建一個(gè)網(wǎng)絡(luò)輿情系統(tǒng),及時(shí)準(zhǔn)確地挖掘海量網(wǎng)絡(luò)數(shù)據(jù),分析社會(huì)熱點(diǎn)事件的網(wǎng)絡(luò)輿情。[方法/過(guò)程]結(jié)合深度學(xué)習(xí)技術(shù),構(gòu)建了一個(gè)基于內(nèi)容與結(jié)構(gòu)的輿情分析模型,其中利用Bi LSTM-CNN深度模型對(duì)輿情內(nèi)容進(jìn)行情感分析,利用社會(huì)網(wǎng)絡(luò)分析法對(duì)輿情網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)分析。[結(jié)果/結(jié)論]實(shí)證分析表明了該模型在公共事件輿情分析上的有效性和優(yōu)越性。從結(jié)構(gòu)和內(nèi)容兩方面分析,能為公共事件網(wǎng)絡(luò)輿情分析提供新思路。
【文章來(lái)源】:情報(bào)探索. 2020,(06)
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
輿情信息分析模型思路圖
本文利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)[6]進(jìn)行輿情信息的爬取解析,使用爬蟲(chóng)程序或現(xiàn)有爬蟲(chóng)工具自動(dòng)爬取互聯(lián)網(wǎng)上輿情信息源(天涯論壇)的網(wǎng)頁(yè)信息,基本流程(見(jiàn)圖2)是從某一網(wǎng)頁(yè)開(kāi)始,遍歷該網(wǎng)頁(yè)中的全部URL放入U(xiǎn)RL集中,然后按照URL集中的順序讀取每個(gè)網(wǎng)頁(yè)中的內(nèi)容,直到將所有網(wǎng)頁(yè)抓取完為止。本文爬取兩個(gè)數(shù)據(jù)庫(kù)表:數(shù)據(jù)源表(存儲(chǔ)文本數(shù)據(jù)情況,包括URL、標(biāo)題、內(nèi)容、作者、時(shí)間)、評(píng)論表(存儲(chǔ)帖子的跟評(píng)情況,包括評(píng)論者、評(píng)論內(nèi)容、評(píng)論時(shí)間)。
(1)文本預(yù)處理。由于中文文本對(duì)象為不能被計(jì)算機(jī)所識(shí)別的非結(jié)構(gòu)化信息,因此需對(duì)文本進(jìn)行預(yù)處理(見(jiàn)圖3),將非結(jié)構(gòu)化文本轉(zhuǎn)換為能被計(jì)算機(jī)所識(shí)別的結(jié)構(gòu)化信息。(1)文本分詞。文本分詞是將文檔中的句子按照一定規(guī)則拆分轉(zhuǎn)換為詞,是語(yǔ)義理解的基礎(chǔ)和關(guān)鍵,其處理效果直接影響后續(xù)步驟。以分詞的速度和準(zhǔn)確性為標(biāo)準(zhǔn),選擇python的開(kāi)源分詞庫(kù)Jieba[7]工具進(jìn)行中文分詞,得到分詞后的數(shù)據(jù)集。
【參考文獻(xiàn)】:
期刊論文
[1]淺談Python爬蟲(chóng)技術(shù)的網(wǎng)頁(yè)數(shù)據(jù)抓取與分析[J]. 吳永聰. 計(jì)算機(jī)時(shí)代. 2019(08)
[2]21世紀(jì)以來(lái)我國(guó)教育公平研究的熱點(diǎn)與未來(lái)趨勢(shì)——基于共詞矩陣的知識(shí)圖譜分析[J]. 丁雪陽(yáng),程天君. 中國(guó)遠(yuǎn)程教育. 2019(01)
[3]重大公共熱點(diǎn)事件中媒體微信公眾號(hào)的輿情傳播研究[J]. 翟欣. 出版廣角. 2018(08)
[4]基于社會(huì)網(wǎng)絡(luò)分析的新媒體網(wǎng)絡(luò)輿情傳播監(jiān)管研究[J]. 李菲,柯平,高海濤,張丹紅,宋佳. 情報(bào)科學(xué). 2017(10)
本文編號(hào):3261197
【文章來(lái)源】:情報(bào)探索. 2020,(06)
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
輿情信息分析模型思路圖
本文利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)[6]進(jìn)行輿情信息的爬取解析,使用爬蟲(chóng)程序或現(xiàn)有爬蟲(chóng)工具自動(dòng)爬取互聯(lián)網(wǎng)上輿情信息源(天涯論壇)的網(wǎng)頁(yè)信息,基本流程(見(jiàn)圖2)是從某一網(wǎng)頁(yè)開(kāi)始,遍歷該網(wǎng)頁(yè)中的全部URL放入U(xiǎn)RL集中,然后按照URL集中的順序讀取每個(gè)網(wǎng)頁(yè)中的內(nèi)容,直到將所有網(wǎng)頁(yè)抓取完為止。本文爬取兩個(gè)數(shù)據(jù)庫(kù)表:數(shù)據(jù)源表(存儲(chǔ)文本數(shù)據(jù)情況,包括URL、標(biāo)題、內(nèi)容、作者、時(shí)間)、評(píng)論表(存儲(chǔ)帖子的跟評(píng)情況,包括評(píng)論者、評(píng)論內(nèi)容、評(píng)論時(shí)間)。
(1)文本預(yù)處理。由于中文文本對(duì)象為不能被計(jì)算機(jī)所識(shí)別的非結(jié)構(gòu)化信息,因此需對(duì)文本進(jìn)行預(yù)處理(見(jiàn)圖3),將非結(jié)構(gòu)化文本轉(zhuǎn)換為能被計(jì)算機(jī)所識(shí)別的結(jié)構(gòu)化信息。(1)文本分詞。文本分詞是將文檔中的句子按照一定規(guī)則拆分轉(zhuǎn)換為詞,是語(yǔ)義理解的基礎(chǔ)和關(guān)鍵,其處理效果直接影響后續(xù)步驟。以分詞的速度和準(zhǔn)確性為標(biāo)準(zhǔn),選擇python的開(kāi)源分詞庫(kù)Jieba[7]工具進(jìn)行中文分詞,得到分詞后的數(shù)據(jù)集。
【參考文獻(xiàn)】:
期刊論文
[1]淺談Python爬蟲(chóng)技術(shù)的網(wǎng)頁(yè)數(shù)據(jù)抓取與分析[J]. 吳永聰. 計(jì)算機(jī)時(shí)代. 2019(08)
[2]21世紀(jì)以來(lái)我國(guó)教育公平研究的熱點(diǎn)與未來(lái)趨勢(shì)——基于共詞矩陣的知識(shí)圖譜分析[J]. 丁雪陽(yáng),程天君. 中國(guó)遠(yuǎn)程教育. 2019(01)
[3]重大公共熱點(diǎn)事件中媒體微信公眾號(hào)的輿情傳播研究[J]. 翟欣. 出版廣角. 2018(08)
[4]基于社會(huì)網(wǎng)絡(luò)分析的新媒體網(wǎng)絡(luò)輿情傳播監(jiān)管研究[J]. 李菲,柯平,高海濤,張丹紅,宋佳. 情報(bào)科學(xué). 2017(10)
本文編號(hào):3261197
本文鏈接:http://sikaile.net/tushudanganlunwen/3261197.html
最近更新
教材專(zhuān)著