基于LDA模型和AP聚類(lèi)算法的主題演化研究
本文關(guān)鍵詞:基于LDA模型和AP聚類(lèi)算法的主題演化研究
更多相關(guān)文章: 多主題演化 時(shí)間衰減 LDA模型 AP聚類(lèi)算法 新聞數(shù)據(jù)
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)信息都呈現(xiàn)爆炸性增長(zhǎng)趨勢(shì),而互聯(lián)網(wǎng)新聞?dòng)捎诟采w面廣、傳播速度快和親和力強(qiáng)等特點(diǎn),成為人們獲取信息的主要途徑。因此,建立新聞的主題演化分析體系可以幫助用戶從海量的互聯(lián)網(wǎng)新聞數(shù)據(jù)中獲取更有價(jià)值的信息。分析新聞事件的演化發(fā)展軌跡,對(duì)于政府進(jìn)行輿情監(jiān)控以及企業(yè)進(jìn)行商情挖掘都有著十分重要的作用。論文首先分析了新聞主題演化的背景意義,對(duì)目前的主題檢測(cè)及演化模型研究現(xiàn)狀進(jìn)行了深入的探討與研究;其次探討了基于共現(xiàn)詞理論的主題建模分析和LDA主題模型在新聞演化檢測(cè)上的應(yīng)用;然后針對(duì)LDA主題演化模型中的單主題演化和閾值設(shè)定的缺點(diǎn),結(jié)合主題演化理論和聚類(lèi)思想,構(gòu)建ILDA-AP主題演化模型。最后介紹了自適應(yīng)主題演化模型的背景和目前的研究情況,結(jié)合時(shí)間衰減的自適應(yīng)調(diào)整策略提出基于時(shí)間衰減的LDA-AP模型,并利用此模型來(lái)挖掘不同時(shí)間窗口內(nèi)的新聞主題之間的演化關(guān)系。在此基礎(chǔ)上,從新浪、網(wǎng)易等網(wǎng)站中搜集新聞數(shù)據(jù)完成主題演化實(shí)驗(yàn),通過(guò)與基準(zhǔn)方法的實(shí)驗(yàn)對(duì)比,驗(yàn)證了基于時(shí)間衰減的LDA-AP模型在主題演化上的可行性。通過(guò)本文的實(shí)驗(yàn)研究發(fā)現(xiàn),基于時(shí)間衰減的LDA-AP模型的主題演化分析方法,不僅可以挖掘多個(gè)新聞主題事件隨時(shí)間的演化趨勢(shì),而且提高了主題演化的準(zhǔn)確率,有效改善了主題演化的性能。
【關(guān)鍵詞】:多主題演化 時(shí)間衰減 LDA模型 AP聚類(lèi)算法 新聞數(shù)據(jù)
【學(xué)位授予單位】:合肥工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.1;G210.7
【目錄】:
- 致謝7-8
- 摘要8-9
- ABSTRACT9-14
- 第一章 緒論14-20
- 1.1 研究背景及研究意義14-15
- 1.2 國(guó)內(nèi)外相關(guān)研究綜述15-19
- 1.2.1 國(guó)外研究現(xiàn)狀16-17
- 1.2.2 國(guó)內(nèi)研究現(xiàn)狀17-19
- 1.3 本文的組織結(jié)構(gòu)19-20
- 第二章 相關(guān)理論概述20-33
- 2.1 主題建模概述20-22
- 2.1.1 潛在語(yǔ)義索引20-21
- 2.1.2 概率主題模型21-22
- 2.2 LDA模型22-25
- 2.2.1 LDA模型簡(jiǎn)介22-23
- 2.2.2 參數(shù)估計(jì)23-24
- 2.2.3 最優(yōu)話題數(shù)目選擇24-25
- 2.3 主題聚類(lèi)算法25-29
- 2.3.1 共現(xiàn)主題詞提取25-26
- 2.3.2 常用的聚類(lèi)算法26-29
- 2.4 主題演化29-33
- 2.4.1 主題演化簡(jiǎn)介29-30
- 2.4.2 主題演化模式30-31
- 2.4.3 自適應(yīng)主題演化31-33
- 第三章 基于LDA-AP的主題演化模型33-40
- 3.1 主題演化模型框架33-34
- 3.2 基于LDA-AP主題演化模型實(shí)施步驟34-38
- 3.2.1 文本預(yù)處理34-35
- 3.2.2 主題檢測(cè)35-36
- 3.2.3 主題演化分析方法36-38
- 3.3 基于時(shí)間衰減的LDA-AP主題演化模型38-40
- 3.3.1 權(quán)重調(diào)整38
- 3.3.2 時(shí)間衰減函數(shù)38-40
- 第四章 實(shí)驗(yàn)結(jié)果與分析40-51
- 4.1 實(shí)驗(yàn)設(shè)計(jì)40-43
- 4.1.1 數(shù)據(jù)采集40
- 4.1.2 文本預(yù)處理40-41
- 4.1.3 主題建模41-43
- 4.1.4 參數(shù)選擇43
- 4.2 實(shí)驗(yàn)結(jié)果及對(duì)比43-51
- 4.2.1 主題演化改進(jìn)模型實(shí)驗(yàn)設(shè)計(jì)43-44
- 4.2.2 主題內(nèi)容演化結(jié)果對(duì)比44-47
- 4.2.3 主題強(qiáng)度演化結(jié)果47-49
- 4.2.4 主題演化評(píng)測(cè)結(jié)果對(duì)比49-51
- 第五章 結(jié)論與展望51-53
- 5.1 總結(jié)51-52
- 5.2 展望52-53
- 參考文獻(xiàn)53-56
- 攻讀碩士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況56
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 ;智能玩具——AP人性化機(jī)器人[J];電子制作;2003年10期
2 常潘;;瘦AP網(wǎng)管為無(wú)線校園覆蓋鋪路[J];中國(guó)教育網(wǎng)絡(luò);2010年04期
3 范少?zèng)_;彭進(jìn)業(yè);馮曉毅;閻坤;;基于多核學(xué)習(xí)和AP聚類(lèi)的圖像摘要選取方法[J];計(jì)算機(jī)應(yīng)用研究;2011年06期
4 陳美華;徐蘇;吳君卓;;0LAP中多維數(shù)組的一種改進(jìn)壓縮算法[J];計(jì)算機(jī)與現(xiàn)代化;2008年10期
5 楊傳慧;吉根林;章志剛;;AP算法在圖像聚類(lèi)中的應(yīng)用研究[J];計(jì)算機(jī)與數(shù)字工程;2012年10期
6 徐浩;;無(wú)線網(wǎng)絡(luò)傳統(tǒng)AP與現(xiàn)代AP性能探討[J];價(jià)值工程;2013年28期
7 王蔚,龐治華 ,劉乃安;在嵌入式Linux系統(tǒng)上對(duì)無(wú)線接入點(diǎn)AP的實(shí)現(xiàn)[J];航空計(jì)算技術(shù);2001年04期
8 張劍;張巖;;超瘦AP技術(shù)在構(gòu)建醫(yī)院無(wú)線網(wǎng)中的應(yīng)用[J];中國(guó)衛(wèi)生信息管理雜志;2011年01期
9 陳永鑫;張啟軍;李驥業(yè);;AP實(shí)現(xiàn)無(wú)線網(wǎng)卡功能問(wèn)題研究及解決策略[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2013年19期
10 王美玲;張復(fù)春;楊承志;;基于AP密度聚類(lèi)方法的雷達(dá)輻射源信號(hào)識(shí)別[J];艦船電子對(duì)抗;2012年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前5條
1 尹士平;俞斌才;鄭安生;;計(jì)算機(jī)閉環(huán)控徑制備Φ2.0英寸<111>aP單晶[A];第四屆中國(guó)功能材料及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2001年
2 余貴成;;螯合樹(shù)脂AP富集火焰原子吸收法測(cè)定礦石中的金[A];中國(guó)地質(zhì)科學(xué)院南京地質(zhì)礦產(chǎn)研究所文集(40)[C];1989年
3 王愛(ài)琴;;急性胰腺炎(AP)并發(fā)ARDS 15例臨床分析[A];中華醫(yī)學(xué)會(huì)急診醫(yī)學(xué)學(xué)會(huì)第六次全國(guó)急診醫(yī)學(xué)學(xué)術(shù)會(huì)議論文匯編[C];1996年
4 劉緒望;黃輝;吳奎先;丁峰;;鈍化AP的制備及其安全性能研究[A];全國(guó)危險(xiǎn)物質(zhì)與安全應(yīng)急技術(shù)研討會(huì)論文集(上)[C];2011年
5 王曉飛;李勇宏;石小兵;李洋;冉秀倫;;高含量微米級(jí)AP對(duì)HTPB/IPDI推進(jìn)劑工藝性能及力學(xué)性能的影響[A];中國(guó)化學(xué)會(huì)第五屆全國(guó)化學(xué)推進(jìn)劑學(xué)術(shù)會(huì)議論文集[C];2011年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前7條
1 南宮;AP:廣告業(yè)界的新族群[N];中國(guó)工商報(bào);2000年
2 本報(bào)記者 姜業(yè)慶;國(guó)泰黃金ETF推AP模式[N];中國(guó)經(jīng)濟(jì)時(shí)報(bào);2013年
3 本報(bào)記者 徐勐;市領(lǐng)導(dǎo)會(huì)見(jiàn)美國(guó)AP公司客人[N];淄博日?qǐng)?bào);2011年
4 本報(bào)記者 宋辰;智能AP 無(wú)線網(wǎng)絡(luò)下一站[N];計(jì)算機(jī)世界;2013年
5 記者 張京科;綁定運(yùn)營(yíng)商 創(chuàng)博國(guó)際瞄準(zhǔn)AP模式[N];第一財(cái)經(jīng)日?qǐng)?bào);2011年
6 小豬S;讓你的AP天線活起來(lái)[N];中國(guó)電腦教育報(bào);2004年
7 張旭軍;選WLAN交換機(jī)還是選多臺(tái)AP?[N];網(wǎng)絡(luò)世界;2008年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 李曄;中動(dòng)類(lèi)“NP(被動(dòng)參與論元)+VP+起來(lái)+AP”結(jié)構(gòu)的語(yǔ)義限制研究[D];吉林大學(xué);2015年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 吳華月;下一代WiFi中多AP頻譜共享機(jī)制研究[D];東南大學(xué);2015年
2 劉小軍;基于LDA模型和AP聚類(lèi)算法的主題演化研究[D];合肥工業(yè)大學(xué);2016年
3 韓璐;漢語(yǔ)“S+V起來(lái)+AP”構(gòu)式對(duì)動(dòng)詞語(yǔ)義制約的實(shí)證研究[D];湖南大學(xué);2016年
4 王冬冬;數(shù)字礦山無(wú)線局域網(wǎng)AP接入點(diǎn)的規(guī)劃與應(yīng)用研究[D];北京交通大學(xué);2009年
5 李翠珍;美國(guó)AP課程實(shí)施成功因素分析[D];西北師范大學(xué);2013年
6 呂曉煒;美國(guó)大學(xué)先行計(jì)劃(AP計(jì)劃)研究[D];河北大學(xué);2007年
7 高徐栩;AP汽車(chē)零件公司ERP應(yīng)用中的物料管理研究[D];蘇州大學(xué);2013年
8 胡勇;玉溪市江川縣職業(yè)中學(xué)辦公區(qū)AP規(guī)劃設(shè)計(jì)與實(shí)現(xiàn)[D];云南大學(xué);2015年
9 彭偉;無(wú)線局域網(wǎng)AP中嵌入802.1x的研究[D];華東師范大學(xué);2004年
10 林川;基于“瘦”AP原理構(gòu)建農(nóng)村WLAN系統(tǒng)的研究與實(shí)現(xiàn)[D];吉林大學(xué);2014年
,本文編號(hào):613135
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/613135.html