基于聚類與LDA的新聞評(píng)論主題挖掘研究
本文關(guān)鍵詞:基于聚類與LDA的新聞評(píng)論主題挖掘研究,由筆耕文化傳播整理發(fā)布。
【摘要】:新聞評(píng)論反映民眾對(duì)新聞事件的觀點(diǎn),挖掘評(píng)論主題,對(duì)用戶、企業(yè)、政府都具有很高的情報(bào)分析價(jià)值。我們經(jīng)常對(duì)新聞及其評(píng)論有這些需求,第一:如何用簡(jiǎn)單的語(yǔ)言提取新聞評(píng)論,進(jìn)行研究。第二,對(duì)于一系列新聞,提取新聞的評(píng)論主題與比例可以幫助人們了解新聞媒體及普通民眾的態(tài)度傾向。我們還想獲得各個(gè)主題隨著事態(tài)的發(fā)展會(huì)如何變化,例如何時(shí)開始,變強(qiáng),衰弱,結(jié)束或者變異成其他的主題。對(duì)于第一個(gè)問題。這篇論文提出了基于Python的動(dòng)態(tài)網(wǎng)頁(yè)爬蟲算法,解決了采集動(dòng)態(tài)網(wǎng)頁(yè)評(píng)論的問題。其中,這篇論文使用靜態(tài)網(wǎng)頁(yè)信息構(gòu)造動(dòng)態(tài)鏈接,根據(jù)基于Python的動(dòng)態(tài)網(wǎng)頁(yè)評(píng)論爬蟲算法實(shí)現(xiàn)了評(píng)論收集程序。最后將它與通用爬蟲算法進(jìn)行比較,證實(shí)了該算法具有針對(duì)性強(qiáng)、數(shù)據(jù)采集速度快、易嵌入開發(fā)、簡(jiǎn)單等優(yōu)點(diǎn),為不善于編程的新聞、文學(xué)、管理等學(xué)科的研究者提供了快速獲取評(píng)論信息的方法。對(duì)于第二個(gè)需求:這篇論文提出了基于LDA的主題挖掘改進(jìn)算法,它可以改善原有LDA算法應(yīng)用在評(píng)論數(shù)據(jù)中的弊端;贚DA的主題挖掘算法應(yīng)用到新聞評(píng)論這些短文本中時(shí),會(huì)出現(xiàn)精度不高,效率降低等現(xiàn)象。而且評(píng)論文本矩陣由于維度過高,還會(huì)造成程序溢出,速度過慢等問題。所以,改進(jìn)模型根據(jù)LDA對(duì)文本順序不敏感的特點(diǎn),把相同時(shí)間段的評(píng)論化為一個(gè)文本塊。接著,為解決同一文本塊的內(nèi)的相同評(píng)論重復(fù)率過高的問題,改進(jìn)模型對(duì)各文本塊進(jìn)行簡(jiǎn)化。最后,改進(jìn)算法的優(yōu)良特性有利于管理者和政策制定者利用評(píng)論情報(bào)信息進(jìn)行決策。然而,由于基于LDA的算法不便于理解主題,這篇論文提出了基于改進(jìn)K-均值聚類的主題挖掘算法,它可以有效的抽取評(píng)論主題及對(duì)應(yīng)比例,并作主題演化分析。其中,基于K-均值聚類的主題挖掘算法直接應(yīng)用到新聞評(píng)論中時(shí),在歐氏距離下,如果使用最大距離法選初始點(diǎn)則會(huì)聚成一大類。為解決這個(gè)問題,論文首先在預(yù)處理階段增加同義詞替換和自動(dòng)構(gòu)建領(lǐng)域詞典的部分,改善了數(shù)據(jù)稀疏性和高維性。其次,提出了K-均值聚類改進(jìn)算法,用隱藏長(zhǎng)評(píng)論-最大距離法選初始點(diǎn),解決了初始點(diǎn)多為離群點(diǎn)的問題,用方差拐點(diǎn)確定K值,解決了預(yù)先設(shè)定聚類個(gè)數(shù)的問題,實(shí)驗(yàn)發(fā)現(xiàn)了先用BW權(quán)重選初始點(diǎn),再用新提出的BW-DF權(quán)重聚類的效果最好。最后,將改進(jìn)算法與原算法的聚類效果比較,實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法準(zhǔn)確率高,挖掘新聞評(píng)論主題的效果明顯。
【關(guān)鍵詞】:Python語(yǔ)言 動(dòng)態(tài)網(wǎng)頁(yè)評(píng)論爬蟲 改進(jìn)K均值聚類 LDA改進(jìn)模型 主體挖掘
【學(xué)位授予單位】:武漢紡織大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-10
- 1 緒論10-14
- 1.1 研究背景及意義10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-12
- 1.3 本文研究?jī)?nèi)容12-13
- 1.4 本文組織結(jié)構(gòu)13
- 1.5 本章小節(jié)13-14
- 2 相關(guān)理論與技術(shù)14-31
- 2.1 爬取評(píng)論信息14-19
- 2.1.1 網(wǎng)絡(luò)爬蟲概念及簡(jiǎn)介15-16
- 2.1.2 采用的爬蟲語(yǔ)言16-19
- 2.1.3 評(píng)論文本的保存19
- 2.2 評(píng)論文本預(yù)處理19-21
- 2.2.1 簡(jiǎn)繁體轉(zhuǎn)換20
- 2.2.2 同義詞替換20
- 2.2.3 數(shù)據(jù)清理20
- 2.2.4 分詞20-21
- 2.2.5 刪除停用詞21
- 2.3 評(píng)論文本特征表示21-24
- 2.3.1 文檔表示模型21-22
- 2.3.2 特征項(xiàng)權(quán)重計(jì)算22
- 2.3.3 特征降維22-24
- 2.4 評(píng)論文本聚類24-27
- 2.4.1 常用聚類算法25
- 2.4.2 K均值聚類及面臨的問題25-27
- 2.5 概率主體模型27-28
- 2.5.1 常用主題模型算法27-28
- 2.5.2 LDA模型及面臨的問題28
- 2.6 主題挖掘28-30
- 2.6.1 主題挖掘定義28-29
- 2.6.2 主題挖掘的分類29
- 2.6.3 基于聚類和LDA的主題挖掘算法對(duì)比29-30
- 2.7 本章小結(jié)30-31
- 3 基于Python的動(dòng)態(tài)評(píng)論網(wǎng)頁(yè)爬蟲31-40
- 3.1 評(píng)論網(wǎng)頁(yè)爬蟲的相關(guān)問題31-32
- 3.1.1 動(dòng)態(tài)評(píng)論網(wǎng)頁(yè)特點(diǎn)31
- 3.1.2 python語(yǔ)言的爬取特性31
- 3.1.3 聚焦爬蟲算法31-32
- 3.2 基于Python的動(dòng)態(tài)網(wǎng)頁(yè)爬蟲算法32
- 3.3 動(dòng)態(tài)網(wǎng)頁(yè)評(píng)論爬蟲算法操作流程與爬蟲程序32-38
- 3.3.1 靜態(tài)URL構(gòu)造動(dòng)態(tài)URL32-34
- 3.3.2 獲取該Ajax請(qǐng)求返回的Json數(shù)據(jù)34
- 3.3.3 解析Json數(shù)據(jù)并保存結(jié)果34-36
- 3.3.4 停止條件36
- 3.3.5 程序及結(jié)果36-37
- 3.3.6 特殊情況37-38
- 3.4 對(duì)比分析38-39
- 3.5 本章小結(jié)39-40
- 4 基于改進(jìn)LDA的新聞評(píng)論主題挖掘40-59
- 4.1 新聞評(píng)論40-43
- 4.1.1 新聞評(píng)論相關(guān)概念40-41
- 4.1.2 針對(duì)LDA新聞評(píng)論數(shù)據(jù)特點(diǎn)41-43
- 4.1.3 基于LDA的新聞評(píng)論主題挖掘43
- 4.2 基于LDA的主題挖掘改進(jìn)算法43-45
- 4.2.1 原LDA主題挖掘算法在新聞評(píng)論中的不足43-44
- 4.2.2 基于LDA的主題挖掘改進(jìn)算法44-45
- 4.3 基于LDA的新聞評(píng)論主題挖掘改進(jìn)算法的過程及程序45-52
- 4.3.1 系列新聞評(píng)論文本的爬取47
- 4.3.2 語(yǔ)料標(biāo)記47-48
- 4.3.3 插入的過程(合并同段的評(píng)論并對(duì)它簡(jiǎn)化)48
- 4.3.4 文檔建模處理(l_1,l_2,...l_m )48-51
- 4.3.5 評(píng)論主題挖掘分析51-52
- 4.3.6 可視化分析52
- 4.4 實(shí)驗(yàn)結(jié)果52-57
- 4.4.1 對(duì)新聞評(píng)論用原lda算法聚類52-56
- 4.4.2 對(duì)新聞評(píng)論用lda改進(jìn)模型算法56-57
- 4.5 改進(jìn)LDA與原LDA主題演化算法的比較57-58
- 4.6 本章小結(jié)58-59
- 5 基于改進(jìn)K均值聚類的在線新聞評(píng)論主題挖掘59-86
- 5.1 新聞評(píng)論59-61
- 5.1.1 新聞評(píng)論針對(duì)聚類的新聞評(píng)論數(shù)據(jù)特點(diǎn)59-60
- 5.1.2 基于K均值聚類的主題挖掘算法60-61
- 5.2 基于改進(jìn)K均值聚類的主題挖掘算法61-65
- 5.2.1 K均值聚類在新聞評(píng)論數(shù)據(jù)上的不足61
- 5.2.2 K均值聚類改進(jìn)61-65
- 5.2.3 基于改進(jìn)K均值聚類主題挖掘算法65
- 5.3 基于改進(jìn)K均值聚類的新聞評(píng)論主題挖掘的過程及程序65-74
- 5.3.1 系列新聞評(píng)論文本的爬取68-69
- 5.3.2 語(yǔ)料標(biāo)記69
- 5.3.3 文檔建模69-73
- 5.3.4 評(píng)論主題挖掘分析73-74
- 5.3.5 可視化分析74
- 5.4 實(shí)驗(yàn)結(jié)果74-83
- 5.4.1 爬取新聞評(píng)論文本并轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)74-76
- 5.4.2 在余弦距離下用原K-means算法聚類76
- 5.4.3 在歐式距離下用原K-means算法聚類76-77
- 5.4.4 在歐式距離下用改進(jìn)的K-means聚類77-81
- 5.4.5 基于改進(jìn)的K-means聚類的主題挖掘81-83
- 5.5 改進(jìn)的K-means聚類算法與原K-means聚類算法結(jié)果比較83-84
- 5.5.1 改進(jìn)算法與在歐式距離下用原K-means算法比較聚類效果83
- 5.5.2 在歐氏距離下的改進(jìn)算法與在余弦距離下用原算法聚類83-84
- 5.6 本章小結(jié)84-86
- 6 結(jié)論86-87
- 參考文獻(xiàn)87-90
- 附錄90-120
- 致謝120
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 魏天真;試論新聞評(píng)論的特殊價(jià)值[J];華中師范大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版);2000年04期
2 程道杰;試論新時(shí)期新聞評(píng)論的發(fā)展走勢(shì)[J];新聞愛好者;2000年02期
3 ;新聞評(píng)論中的“亮點(diǎn)”[J];新聞與寫作;2000年08期
4 王明生;聯(lián)想:新聞評(píng)論與讀者的橋梁[J];廣西大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2000年S3期
5 李一軍;營(yíng)造新聞評(píng)論的事趣[J];聲屏世界;2000年03期
6 李曉峰;試論新聞評(píng)論中的“亮點(diǎn)”[J];新聞前哨;2000年01期
7 陳曦;高擎旗幟 鑄造靈魂——對(duì)新時(shí)期新聞評(píng)論地位作用的再認(rèn)識(shí)[J];揚(yáng)州大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版);2000年06期
8 貝莉莉;;新聞評(píng)論的平民化與旗幟意識(shí)[J];新聞三昧;2000年10期
9 錢國(guó)宏;;擦亮新聞評(píng)論的“眼睛”[J];記者搖籃;2000年07期
10 吳震華;新聞評(píng)論說(shuō)理的幽默技巧[J];新聞愛好者;2001年07期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 肖鴻波;唐敦?fù)?婁本峰;;體育新聞評(píng)論的發(fā)展趨勢(shì)研究[A];第八屆全國(guó)體育科學(xué)大會(huì)論文摘要匯編(一)[C];2007年
2 覃信源;賴宏達(dá);;《談網(wǎng)民新聞評(píng)論心理》[A];第五屆全國(guó)新聞與傳播心理研討會(huì)暨中國(guó)心理學(xué)會(huì)新聞與傳播心理專業(yè)委員會(huì)第二屆年會(huì)論文集[C];2005年
3 曹光煜;;當(dāng)前報(bào)紙政論性新聞評(píng)論在輿論監(jiān)督中的特點(diǎn)及問題[A];中國(guó)傳媒大學(xué)第六屆全國(guó)新聞學(xué)與傳播學(xué)博士生學(xué)術(shù)研討會(huì)論文集[C];2012年
4 胡沈明;;新聞定義新考——關(guān)于新聞定義中到底該不該包含評(píng)述的思辨[A];中國(guó)傳媒大學(xué)第三屆全國(guó)新聞學(xué)與傳播學(xué)博士生學(xué)術(shù)研討會(huì)論文集[C];2009年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 胡運(yùn)熾;新聞評(píng)論的輿論引導(dǎo)功能[N];中華新聞報(bào);2003年
2 亢振洲;試論新聞評(píng)論的新聞性[N];中華新聞報(bào);2006年
3 楊冶青;新聞評(píng)論的取舍原則[N];甘肅日?qǐng)?bào);2007年
4 復(fù)旦新聞學(xué)院院長(zhǎng)、教授 趙凱;新聞評(píng)論要謹(jǐn)防評(píng)多論少[N];嘉興日?qǐng)?bào);2007年
5 李家連;新聞評(píng)論的地域指導(dǎo)性[N];中華新聞報(bào);2008年
6 喬新生;新聞評(píng)論中的定性與定量分析[N];中華新聞報(bào);2008年
7 龔立堂;媒體的影響力離不開新聞評(píng)論[N];中華新聞報(bào);2008年
8 楊恒;新聞評(píng)論引導(dǎo)輿論的原則[N];甘肅日?qǐng)?bào);2010年
9 孫宏波;如何增強(qiáng)新聞評(píng)論的可讀性[N];吉林日?qǐng)?bào);2010年
10 王廷昕 貴州電視臺(tái);新聞評(píng)論也應(yīng)與時(shí)俱進(jìn)[N];經(jīng)濟(jì)信息時(shí)報(bào);2009年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條
1 胡沈明;現(xiàn)代新聞評(píng)論寬容意識(shí)研究[D];華中科技大學(xué);2011年
2 董育寧;新聞評(píng)論語(yǔ)篇的語(yǔ)言研究[D];復(fù)旦大學(xué);2007年
3 尚媛媛;法治認(rèn)同建構(gòu)中的新聞評(píng)論作用機(jī)制與表現(xiàn)[D];華中科技大學(xué);2014年
4 張瑩;在線新聞評(píng)論的情感分析研究[D];南開大學(xué);2013年
5 翁玉蓮;報(bào)刊新聞評(píng)論話語(yǔ)的功能語(yǔ)法分析[D];福建師范大學(xué);2007年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 肖雪;博客新聞評(píng)論的特點(diǎn)及功能研究[D];河北大學(xué);2007年
2 成瑞艷;博客新聞評(píng)論研究[D];重慶師范大學(xué);2011年
3 要清華;比喻在新聞評(píng)論中的應(yīng)用研究[D];河北大學(xué);2005年
4 趙強(qiáng);古代論辯藝術(shù)對(duì)新聞評(píng)論改革創(chuàng)新的借鑒意義[D];河北大學(xué);2005年
5 藍(lán)暉焰;中美新聞評(píng)論比較研究[D];華中科技大學(xué);2005年
6 齊亞寧;網(wǎng)絡(luò)體育新聞評(píng)論及其疏導(dǎo)研究[D];西北大學(xué);2007年
7 唐琳;論報(bào)紙新聞評(píng)論風(fēng)格[D];湖南大學(xué);2007年
8 周宇;新聞評(píng)論在當(dāng)代的發(fā)展研究[D];湖南大學(xué);2007年
9 陳博宇;我國(guó)網(wǎng)絡(luò)體育新聞評(píng)論發(fā)展現(xiàn)狀及其對(duì)策研究[D];武漢體育學(xué)院;2012年
10 李玉蓮;中國(guó)市場(chǎng)經(jīng)濟(jì)條件下新聞評(píng)論的變革與創(chuàng)新[D];湖北大學(xué);2013年
本文關(guān)鍵詞:基于聚類與LDA的新聞評(píng)論主題挖掘研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):371106
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/371106.html