基于滑動窗口的主題模型
本文關(guān)鍵詞:基于滑動窗口的主題模型
更多相關(guān)文章: 潛在狄利克雷分配 主題模型 滑動窗口
【摘要】:LDA(Latent Dirichlet Allocation)是一個分層的概率主題模型,目前被廣泛地應(yīng)用于文本挖掘。這種模型既不考慮文檔與文檔之間的順序關(guān)系,也不考慮同一篇文檔中詞與詞之間的順序關(guān)系,簡化了問題的復(fù)雜性,同時也為模型的改進(jìn)提供了契機(jī)。針對此問題提出了基于滑動窗口的主題模型,該模型的基本思想是文檔中的一個單詞的主題與其附近若干單詞的主題關(guān)系越緊密,受附近單詞主題的影響越大。根據(jù)窗口和滑動位移的大小,把文檔切割為粒度更小的片段。同時,針對大數(shù)據(jù)集和數(shù)據(jù)流問題,提出了在線滑動窗口主題模型。在4個數(shù)據(jù)集上的實驗表明,基于滑動窗口的主題模型訓(xùn)練出來的模型在數(shù)據(jù)集上有更好的泛化性能和精度。
【作者單位】: 蘇州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院;香港城市大學(xué)創(chuàng)意媒體學(xué)院;
【基金】:國家自然科學(xué)基金(61373092,61572339,61272449) 江蘇省科技支撐計劃重點項目(BE2014005)資助
【分類號】:TP391.1
【正文快照】: 到稿日期:2015-11-26返修日期:2016-03-08本文受國家自然科學(xué)基金(61373092,61572339,61272449),江蘇省科技支撐計劃重點項目(BE2014005)資助。1引言隨著信息技術(shù)的不斷發(fā)展,網(wǎng)上的信息呈爆炸式增長,尤其是以文本形式為主要格式的數(shù)據(jù)更是以指數(shù)的形式增長。面對如此龐大的信
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鐘穎莉;復(fù)合滑動窗口連接算法[J];哈爾濱商業(yè)大學(xué)學(xué)報(自然科學(xué)版);2004年03期
2 李峰;肖建華;;時間序列相似性分析中滑動窗口寬度的確定[J];計算機(jī)科學(xué)與探索;2009年01期
3 閆巧梅;;滑動窗口技術(shù)在電信中的應(yīng)用設(shè)計模型[J];電腦開發(fā)與應(yīng)用;2012年07期
4 王偉平,李建中,張冬冬,郭龍江;數(shù)據(jù)流上周期更新滑動窗口的連接算法[J];哈爾濱工業(yè)大學(xué)學(xué)報;2005年06期
5 裴麗鵲;;一種基于滑動窗口的時間序列異常檢測算法[J];巢湖學(xué)院學(xué)報;2011年03期
6 譚宏強;牛強;;基于滑動窗口及局部特征的時間序列符號化方法[J];計算機(jī)應(yīng)用研究;2013年03期
7 陳川,林亞平;滑動窗口協(xié)議分析及其在微機(jī)上的模擬實現(xiàn)[J];計算機(jī)應(yīng)用;2000年02期
8 李建中,張冬冬;滑動窗口規(guī)模的動態(tài)調(diào)整算法[J];軟件學(xué)報;2004年12期
9 伍紅茹,黃欣陽,劉雙根,藺大正;最佳滑動窗口編碼法及其在快速模冪乘中的應(yīng)用[J];南昌大學(xué)學(xué)報(工科版);2005年02期
10 劉陶剛;趙榮彩;姚遠(yuǎn);瞿進(jìn);;分塊存儲的滑動窗口數(shù)據(jù)重用技術(shù)[J];計算機(jī)應(yīng)用;2010年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 蘇東;宋寶燕;楊興華;歐征宇;于亞新;于戈;;基于滑動窗口語義的聚集計算方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
2 汪罕;趙加奎;陳立軍;;流和滑動窗口模型下的直徑計算(英文)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
3 賀冉冉;馬玲;;基于滑動窗口的非參數(shù)趨勢檢驗在氣候序列趨勢和波動分析中的應(yīng)用[A];促進(jìn)科技經(jīng)濟(jì)結(jié)合,服務(wù)創(chuàng)新驅(qū)動發(fā)展——蚌埠市科協(xié)2012年度學(xué)術(shù)年會論文集[C];2012年
4 楊宜東;孫志揮;周曉云;;滑動窗口中的變化檢測[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
5 王成江;冉兵;戴迪;吳磊;;基于滑動窗口的動態(tài)手寫簽名局部相關(guān)性研究[A];湖北省機(jī)械工程學(xué)會青年分會2006年年會暨第2屆機(jī)械學(xué)院院長(系主任)會議論文集(下)[C];2006年
6 王偉平;李建中;張冬冬;郭龍江;;數(shù)據(jù)流上基于時間滑動窗口的連接算法研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2003年
7 王栩;李建中;王偉平;;基于滑動窗口的數(shù)據(jù)流壓縮技術(shù)及連續(xù)查詢處理方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
8 閆朝升;李建中;李金寶;;數(shù)據(jù)流上滑動窗口技術(shù)的研究與實現(xiàn)[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
9 王秋棠;王鵬;周皓峰;汪衛(wèi);;基于滑動窗口的概率數(shù)據(jù)流上的聚集查詢[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年
10 沈偉;鄒建峰;;基于滑動窗口的語音混合算法[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第15屆中國多媒體學(xué)術(shù)會議(NCMT'06)論文集[C];2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 鐘陽;基于數(shù)據(jù)統(tǒng)計分析的變槳系統(tǒng)故障預(yù)警方法[D];華北電力大學(xué);2015年
2 閆冰;仿真平臺中基于滑動窗口的流數(shù)據(jù)處理策略研究[D];哈爾濱工程大學(xué);2011年
3 王秋棠;基于滑動窗口的概率數(shù)據(jù)流上的聚集查詢[D];復(fù)旦大學(xué);2009年
4 賀春亮;基于數(shù)據(jù)流滑動窗口的降載技術(shù)研究[D];燕山大學(xué);2009年
5 嚴(yán)澄;基于滑動窗口的數(shù)據(jù)流關(guān)聯(lián)規(guī)則挖掘研究[D];浙江大學(xué);2010年
6 閆巧梅;N-δ滑動窗口模型下的優(yōu)化數(shù)據(jù)流聚類算法[D];太原理工大學(xué);2008年
7 李俊;基于滑動窗口的數(shù)據(jù)流頻繁閉合項集挖掘研究[D];暨南大學(xué);2008年
8 龔云;基于滑動窗口的密度聚類算法研究[D];安徽大學(xué);2011年
9 范玉玲;基于可變滑動窗口的數(shù)據(jù)流閉合頻繁模式挖掘研究[D];江蘇科技大學(xué);2011年
10 王立波;基于滑動窗口的數(shù)據(jù)流頻繁模式挖掘算法研究[D];燕山大學(xué);2010年
,本文編號:1257343
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1257343.html