基于滑動窗口的主題模型
本文關鍵詞:基于滑動窗口的主題模型
【摘要】:LDA(Latent Dirichlet Allocation)是一個分層的概率主題模型,目前被廣泛地應用于文本挖掘。這種模型既不考慮文檔與文檔之間的順序關系,也不考慮同一篇文檔中詞與詞之間的順序關系,簡化了問題的復雜性,同時也為模型的改進提供了契機。針對此問題提出了基于滑動窗口的主題模型,該模型的基本思想是文檔中的一個單詞的主題與其附近若干單詞的主題關系越緊密,受附近單詞主題的影響越大。根據(jù)窗口和滑動位移的大小,把文檔切割為粒度更小的片段。同時,針對大數(shù)據(jù)集和數(shù)據(jù)流問題,提出了在線滑動窗口主題模型。在4個數(shù)據(jù)集上的實驗表明,基于滑動窗口的主題模型訓練出來的模型在數(shù)據(jù)集上有更好的泛化性能和精度。
【作者單位】: 蘇州大學計算機科學與技術學院;香港城市大學創(chuàng)意媒體學院;
【基金】:國家自然科學基金(61373092,61572339,61272449) 江蘇省科技支撐計劃重點項目(BE2014005)資助
【分類號】:TP391.1
【正文快照】: 到稿日期:2015-11-26返修日期:2016-03-08本文受國家自然科學基金(61373092,61572339,61272449),江蘇省科技支撐計劃重點項目(BE2014005)資助。1引言隨著信息技術的不斷發(fā)展,網(wǎng)上的信息呈爆炸式增長,尤其是以文本形式為主要格式的數(shù)據(jù)更是以指數(shù)的形式增長。面對如此龐大的信
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 鐘穎莉;復合滑動窗口連接算法[J];哈爾濱商業(yè)大學學報(自然科學版);2004年03期
2 李峰;肖建華;;時間序列相似性分析中滑動窗口寬度的確定[J];計算機科學與探索;2009年01期
3 閆巧梅;;滑動窗口技術在電信中的應用設計模型[J];電腦開發(fā)與應用;2012年07期
4 王偉平,李建中,張冬冬,郭龍江;數(shù)據(jù)流上周期更新滑動窗口的連接算法[J];哈爾濱工業(yè)大學學報;2005年06期
5 裴麗鵲;;一種基于滑動窗口的時間序列異常檢測算法[J];巢湖學院學報;2011年03期
6 譚宏強;牛強;;基于滑動窗口及局部特征的時間序列符號化方法[J];計算機應用研究;2013年03期
7 陳川,林亞平;滑動窗口協(xié)議分析及其在微機上的模擬實現(xiàn)[J];計算機應用;2000年02期
8 李建中,張冬冬;滑動窗口規(guī)模的動態(tài)調(diào)整算法[J];軟件學報;2004年12期
9 伍紅茹,黃欣陽,劉雙根,藺大正;最佳滑動窗口編碼法及其在快速模冪乘中的應用[J];南昌大學學報(工科版);2005年02期
10 劉陶剛;趙榮彩;姚遠;瞿進;;分塊存儲的滑動窗口數(shù)據(jù)重用技術[J];計算機應用;2010年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 蘇東;宋寶燕;楊興華;歐征宇;于亞新;于戈;;基于滑動窗口語義的聚集計算方法[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年
2 汪罕;趙加奎;陳立軍;;流和滑動窗口模型下的直徑計算(英文)[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
3 賀冉冉;馬玲;;基于滑動窗口的非參數(shù)趨勢檢驗在氣候序列趨勢和波動分析中的應用[A];促進科技經(jīng)濟結合,服務創(chuàng)新驅(qū)動發(fā)展——蚌埠市科協(xié)2012年度學術年會論文集[C];2012年
4 楊宜東;孫志揮;周曉云;;滑動窗口中的變化檢測[A];第二十二屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2005年
5 王成江;冉兵;戴迪;吳磊;;基于滑動窗口的動態(tài)手寫簽名局部相關性研究[A];湖北省機械工程學會青年分會2006年年會暨第2屆機械學院院長(系主任)會議論文集(下)[C];2006年
6 王偉平;李建中;張冬冬;郭龍江;;數(shù)據(jù)流上基于時間滑動窗口的連接算法研究[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2003年
7 王栩;李建中;王偉平;;基于滑動窗口的數(shù)據(jù)流壓縮技術及連續(xù)查詢處理方法[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年
8 閆朝升;李建中;李金寶;;數(shù)據(jù)流上滑動窗口技術的研究與實現(xiàn)[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年
9 王秋棠;王鵬;周皓峰;汪衛(wèi);;基于滑動窗口的概率數(shù)據(jù)流上的聚集查詢[A];第二十五屆中國數(shù)據(jù)庫學術會議論文集(二)[C];2008年
10 沈偉;鄒建峰;;基于滑動窗口的語音混合算法[A];第二屆和諧人機環(huán)境聯(lián)合學術會議(HHME2006)——第15屆中國多媒體學術會議(NCMT'06)論文集[C];2006年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 鐘陽;基于數(shù)據(jù)統(tǒng)計分析的變槳系統(tǒng)故障預警方法[D];華北電力大學;2015年
2 閆冰;仿真平臺中基于滑動窗口的流數(shù)據(jù)處理策略研究[D];哈爾濱工程大學;2011年
3 王秋棠;基于滑動窗口的概率數(shù)據(jù)流上的聚集查詢[D];復旦大學;2009年
4 賀春亮;基于數(shù)據(jù)流滑動窗口的降載技術研究[D];燕山大學;2009年
5 嚴澄;基于滑動窗口的數(shù)據(jù)流關聯(lián)規(guī)則挖掘研究[D];浙江大學;2010年
6 閆巧梅;N-δ滑動窗口模型下的優(yōu)化數(shù)據(jù)流聚類算法[D];太原理工大學;2008年
7 李俊;基于滑動窗口的數(shù)據(jù)流頻繁閉合項集挖掘研究[D];暨南大學;2008年
8 龔云;基于滑動窗口的密度聚類算法研究[D];安徽大學;2011年
9 范玉玲;基于可變滑動窗口的數(shù)據(jù)流閉合頻繁模式挖掘研究[D];江蘇科技大學;2011年
10 王立波;基于滑動窗口的數(shù)據(jù)流頻繁模式挖掘算法研究[D];燕山大學;2010年
,本文編號:1257343
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1257343.html