基于聯(lián)合非負(fù)矩陣分解的話題檢測及變遷分析方法研究
本文關(guān)鍵詞:基于聯(lián)合非負(fù)矩陣分解的話題檢測及變遷分析方法研究
更多相關(guān)文章: 聯(lián)合非負(fù)矩陣分解 話題模型 時序性異同話題 優(yōu)質(zhì)話題 話題檢測及變遷分析
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的大力推廣與發(fā)展,互聯(lián)網(wǎng)新聞媒體如雨后春筍般興起,網(wǎng)絡(luò)新聞也逐漸成為人們獲取信息資訊的重要來源。但由于網(wǎng)絡(luò)新聞具有時序性和分散性等特點,同一新聞事件可能在一段時間內(nèi)被不同媒體重復(fù)報道,同時話題內(nèi)容的側(cè)重點也會隨時間遷移發(fā)生變化,因此人們往往難以迅速的從海量網(wǎng)絡(luò)新聞中獲得熱點話題。面對海量的新聞報道,如何快速準(zhǔn)確的獲取新聞事件的熱點話題,幫助人們了解整個新聞事件的來龍去脈是亟待解決的問題,也是話題檢測及變遷分析領(lǐng)域研究的重點和熱點。話題檢測及變遷分析的基本任務(wù)是:通過對大規(guī)模的文本數(shù)據(jù)集進行分析來檢測和追蹤其包含的潛在話題,同時進一步分析該話題隨時間變化的規(guī)律。目前大多數(shù)話題檢測方法僅考慮新聞報道的文本結(jié)構(gòu)信息,忽略了新聞報道在時間維度上的連續(xù)性,導(dǎo)致檢測出的熱點話題相異度較高,即針對同一新聞事件的熱點話題內(nèi)容在時間維度上不具有連貫性,難以滿足人們的需求。針對網(wǎng)絡(luò)新聞具有時序性這一重要特征,本文提出了一種新的話題檢測及變遷分析方法,即基于聯(lián)合非負(fù)矩陣分解的話題檢測及變遷分析方法(Joint-NMF Based Topic Detection and Evolution Analysis Approach,ToD)。本文研究的內(nèi)容主要包括:1)針對熱點話題會隨著時間發(fā)展而動態(tài)演變的特點,本文設(shè)計了一種新的聯(lián)合非負(fù)矩陣分解算法(Novel Joint Non-Negative Matrix Factorization,NJNMF)來發(fā)現(xiàn)網(wǎng)絡(luò)新聞中的時序性異同話題。該方法通過對不同時間下的時序性新聞文檔集進行聯(lián)合非負(fù)矩陣分解,發(fā)現(xiàn)不同的時序性新聞文檔集之間相似或者異同的話題,進而分析熱點話題隨著時間發(fā)展的變化趨勢。2)針對NJNMF方法需同時處理多個時序性新聞文檔集的特點,在該方法中添加了懲罰因子并定義新的迭代規(guī)則,使得該方法具有同時發(fā)現(xiàn)不同時序性新聞文檔集之間相似話題和異同話題的能力。3)針對非負(fù)矩陣分解在話題檢測過程中會引入噪聲數(shù)據(jù)的問題,本文利用話題熵的概念,提出了優(yōu)質(zhì)話題選取方法,有效的減少噪聲話題對話題檢測效果的影響。本文的實驗基于三個真實的數(shù)據(jù)集:20Newsgroups、LTN2011和LTN2014(墨西哥非法移民相關(guān)新聞報道)。為了驗證ToD方法的有效性和可用性,本文首先在20Newsgroups數(shù)據(jù)集上進行了對比實驗;然后,在LTN2011數(shù)據(jù)集上分析了墨西哥移民案例在不同時間內(nèi)的話題檢測結(jié)果;最后,在LTN2014數(shù)據(jù)集上分析了墨西哥移民案例在不同媒體之間的話題檢測結(jié)果。實驗結(jié)果表明,與現(xiàn)有的話題檢測方法相比,ToD方法的話題檢測準(zhǔn)確率更高,并且具有良好的話題變遷分析能力。
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前8條
1 舒振球;趙春霞;;基于局部學(xué)習(xí)的受限非負(fù)矩陣分解算法[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2015年07期
2 王鑫;李璐;王曉芳;;基于Nystr?m譜聚類的詞典學(xué)習(xí)[J];計算機工程與應(yīng)用;2014年06期
3 杜世強;石玉清;王維蘭;馬明;;基于圖正則化的半監(jiān)督非負(fù)矩陣分解[J];計算機工程與應(yīng)用;2012年36期
4 劉海峰;陳琦;張以皓;;一種基于互信息的改進文本特征選擇[J];計算機工程與應(yīng)用;2012年25期
5 楚克明;李芳;;基于LDA模型的新聞話題的演化[J];計算機應(yīng)用與軟件;2011年04期
6 崔凱;周斌;賈焰;梁政;;一種基于LDA的在線主題演化挖掘模型[J];計算機科學(xué);2010年11期
7 宦若虹;楊汝良;;基于小波域NMF特征提取的SAR圖像目標(biāo)識別方法[J];電子與信息學(xué)報;2009年03期
8 劉云峰,齊歡,代建民;基于潛在語義空間維度特性的多層文檔聚類[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年S1期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 管仁初;半監(jiān)督聚類算法的研究與應(yīng)用[D];吉林大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 李謙;非負(fù)矩陣分解及其在高維數(shù)據(jù)應(yīng)用中的研究[D];北京交通大學(xué);2014年
2 藍龍;半監(jiān)督非負(fù)矩陣分解算法及其在文本聚類中的應(yīng)用[D];國防科學(xué)技術(shù)大學(xué);2012年
3 劉玲玲;文本分類中的特征選擇研究[D];中國石油大學(xué);2011年
,本文編號:1275912
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1275912.html