融合頻繁項(xiàng)集和潛在語(yǔ)義分析的股評(píng)論壇主題發(fā)現(xiàn)方法
【部分圖文】:
第4期張濤,等:融合頻繁項(xiàng)集和潛在語(yǔ)義分析的股評(píng)論壇主題發(fā)現(xiàn)方法2面向股評(píng)論壇的主題發(fā)現(xiàn)新框架為解決現(xiàn)有主題挖掘方法處理網(wǎng)絡(luò)股評(píng)論壇中短文本數(shù)據(jù)所存在的困難,構(gòu)建一種面向股評(píng)論壇主題發(fā)現(xiàn)的短文本聚類框架.利用頻繁項(xiàng)集與潛在語(yǔ)義相結(jié)合的STC_FL框架從在線股評(píng)抽取主題詞,再使用TSC-SN算法基于主題詞進(jìn)行文本檢索,從而實(shí)現(xiàn)特有的股評(píng)文本聚類,如圖1所示.知網(wǎng)(HowNet)是以揭示概念與概念之間和概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù).針對(duì)文本中所蘊(yùn)含的潛在語(yǔ)義關(guān)系,引入知網(wǎng)作為背景知識(shí)庫(kù)建立基于概念的向量空間,并在文本集相似度計(jì)算的基礎(chǔ)上,采用基于統(tǒng)計(jì)和潛在語(yǔ)義相結(jié)合的度量模式.通過(guò)較長(zhǎng)頻繁項(xiàng)集預(yù)估主題個(gè)數(shù),以解決聚類結(jié)果數(shù)目的最優(yōu)設(shè)定.針對(duì)融合頻繁項(xiàng)集與潛在語(yǔ)義關(guān)系的文本軟聚類,在文本檢索階段對(duì)TSC-SN算法設(shè)置短文本與主題簇間相似度閾值與簇間非重疊度參數(shù),靈活選擇和控制文本與主題間的對(duì)應(yīng)關(guān)系.采用頻繁項(xiàng)集和概念映射來(lái)降低向量空間維度,彌補(bǔ)基于向量空間的聚類所存在的語(yǔ)義缺失問(wèn)題;融合頻繁項(xiàng)集與潛在語(yǔ)義,有效降低特征空間維度的同時(shí)充分考慮潛在語(yǔ)義關(guān)系;在對(duì)主題詞相關(guān)文本進(jìn)行檢索時(shí)控制短文本與主題簇間相似度閾值,同時(shí)引入簇間非重疊度概念,利用新型文本集劃分策略實(shí)現(xiàn)文本軟聚類.圖1基于頻繁項(xiàng)集和潛在語(yǔ)義的短文本聚類基本框架Fig.1Basicframeworkofshorttextclusteringbasedonfrequentitem-setsan
特征空間的概念數(shù)為19075,特征空間維度縮減58.9%,有效緩解概念向量空間表示中所存在的高維度問(wèn)題.3.1重要參數(shù)設(shè)置3.1.1重要頻繁項(xiàng)集數(shù)的參數(shù)分析為通過(guò)頻繁項(xiàng)集過(guò)濾策略獲得比較完整與冗余性低的重要頻繁項(xiàng)集集合,特別分析最小支持度min_sup和頻繁項(xiàng)集間的Jaccard系數(shù)最大相似度α與重要頻繁項(xiàng)集個(gè)數(shù)的關(guān)系,分別設(shè)置α的不同取值,觀測(cè)每個(gè)取值下過(guò)濾后的重要頻繁項(xiàng)集數(shù)與最小支持度min_sup之間的變化規(guī)律,如圖4所示.由圖4可知,在α的不同設(shè)置中,過(guò)濾后的頻繁項(xiàng)集占頻繁項(xiàng)集總數(shù)的百分比均不超過(guò)20%,有利于提高頻繁項(xiàng)集聚類的效率.為挖掘出更多的頻繁項(xiàng)集,這里將min_sup設(shè)置較低,由此可得到大量包含主題信息的頻繁項(xiàng)集,再通過(guò)過(guò)濾策略得到高質(zhì)圖4過(guò)濾后頻繁項(xiàng)集所占百分比與最小支持度的關(guān)系Fig.4Relationshipbetweenfrequentitem-setsproportionandminimumsupportdegreeafterfiltering量的重要頻繁項(xiàng)集.過(guò)濾策略的方法復(fù)雜度低,不會(huì)增加過(guò)多的時(shí)間消耗.α設(shè)置越高,過(guò)濾后的重要頻繁項(xiàng)集所占百分比越高.當(dāng)α取值為0.4與0.5時(shí),重要頻繁項(xiàng)集的百分比相差較。划(dāng)α取值為0.6時(shí),重要頻繁項(xiàng)集的百分比顯著增大.這主要是因?yàn)榛冢疲校纾颍铮鳎簦杷惴ㄍ诰颢@取的頻繁項(xiàng)集中包含大量3-項(xiàng)集.當(dāng)α取值為0.4或0.5時(shí),兩個(gè)3-
藍(lán)籌、ETF、申購(gòu)、匯金藍(lán)籌、ETF、1200億、申購(gòu)藍(lán)籌、ETF、申購(gòu)、護(hù)盤(pán)7暫停IPO國(guó)務(wù)院、IPO、暫停、新股國(guó)務(wù)院、IPO、暫停、A股國(guó)務(wù)院、IPO、暫停、A股注:ETF為交易型開(kāi)放式指數(shù)基金;IPO為首次公開(kāi)募股.3.2.2文本聚類通過(guò)計(jì)算文本與頻繁項(xiàng)集簇中主題詞之間的相似度,將文本劃分至相似度最高的主題詞簇下,圍繞2015年股市大幅下跌前后的評(píng)論數(shù)據(jù)進(jìn)行文本聚類,部分聚類結(jié)果如圖5所示.圖5基于頻繁項(xiàng)集的短文本聚類部分結(jié)果Fig.5Resultsofshorttextclusteringbasedonfrequentitem-sets985
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 楊震;王來(lái)濤;賴英旭;;基于改進(jìn)語(yǔ)義距離的網(wǎng)絡(luò)評(píng)論聚類研究[J];軟件學(xué)報(bào);2014年12期
2 曹麗娜;唐錫晉;;基于主題模型的BBS話題演化趨勢(shì)分析[J];管理科學(xué)學(xué)報(bào);2014年11期
3 蔡淑琴;張靜;王旸;馬玉濤;林勇;;基于中心化的微博熱點(diǎn)發(fā)現(xiàn)方法[J];管理學(xué)報(bào);2012年06期
4 徐戈;王厚峰;;自然語(yǔ)言處理中主題模型的發(fā)展[J];計(jì)算機(jī)學(xué)報(bào);2011年08期
5 劉青磊;顧小豐;;基于《知網(wǎng)》的詞語(yǔ)相似度算法研究[J];中文信息學(xué)報(bào);2010年06期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 馮妍;徐浩;王以新;劉新橋;張佩雪;張淼淼;;不穩(wěn)定型心絞痛基于主題模型的不同兼癥及合并病中醫(yī)治療方案優(yōu)化方法研究[J];中國(guó)醫(yī)藥;2017年01期
2 孫國(guó)超;徐碩;喬曉東;;主題模型可視化研究綜述[J];情報(bào)工程;2015年06期
3 王小玉;董誠(chéng);曾文;;科技政策語(yǔ)義分析方法研究[J];情報(bào)工程;2015年06期
4 葉川;馬靜;;多媒體微博評(píng)論信息的主題發(fā)現(xiàn)算法研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2015年11期
5 杜海燕;葉光輝;;社交博客用戶分層與話題演化研究——以MetaFilter Music版塊為例[J];信息資源管理學(xué)報(bào);2015年04期
6 肖璐;唐曉波;;基于句子成分的微博熱點(diǎn)主題挖掘模型研究[J];情報(bào)科學(xué);2015年11期
7 王忠群;皇蘇斌;修宇;張義;;基于領(lǐng)域?qū)<液蜕唐诽卣鞲拍顦?shù)的在線商品評(píng)論深刻性度量[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2015年09期
8 唐曉波;肖璐;;基于依存句法分析的微博主題挖掘模型研究[J];情報(bào)科學(xué);2015年09期
9 吳曉娜;嚴(yán)建峰;劉曉升;;基于動(dòng)態(tài)先驗(yàn)的LDA模型消息傳遞算法[J];計(jì)算機(jī)應(yīng)用與軟件;2015年08期
10 趙陽(yáng);徐田華;;基于文本挖掘的高鐵信號(hào)系統(tǒng)車載設(shè)備故障診斷[J];鐵道學(xué)報(bào);2015年08期
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 尤薇佳;李紅;劉魯;;突發(fā)事件Web信息傳播渠道信任比較研究[J];管理科學(xué)學(xué)報(bào);2014年02期
2 石大文;張暉;;基于LDA模型的BBS話題演化[J];工業(yè)控制計(jì)算機(jī);2012年05期
3 胡艷麗;白亮;張維明;;網(wǎng)絡(luò)輿情中一種基于OLDA的在線話題演化方法[J];國(guó)防科技大學(xué)學(xué)報(bào);2012年01期
4 楊震;賴英旭;段立娟;李玉鑑;;基于上下文重構(gòu)的短文本情感極性判別研究[J];自動(dòng)化學(xué)報(bào);2012年01期
5 徐戈;王厚峰;;自然語(yǔ)言處理中主題模型的發(fā)展[J];計(jì)算機(jī)學(xué)報(bào);2011年08期
6 劉宇鵬;李生;趙鐵軍;;基于WordNet詞義消歧的系統(tǒng)融合[J];自動(dòng)化學(xué)報(bào);2010年11期
7 唐錫晉;;兩個(gè)定性綜合集成支持技術(shù)[J];系統(tǒng)工程理論與實(shí)踐;2010年09期
8 楊鋒;彭勤科;徐濤;;基于隨機(jī)網(wǎng)絡(luò)的在線評(píng)論情緒傾向性分類[J];自動(dòng)化學(xué)報(bào);2010年06期
9 馬旭;徐蔚然;郭軍;胡日勒;;SMS-2008標(biāo)注中文短信息庫(kù)[J];中文信息學(xué)報(bào);2009年04期
10 楊震;范科峰;雷建軍;郭軍;;基于語(yǔ)義的文本流形研究[J];電子學(xué)報(bào);2009年03期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李廣璞;黃妙華;;頻繁項(xiàng)集挖掘的研究進(jìn)展及主流方法[J];計(jì)算機(jī)科學(xué);2018年S2期
2 陳鳳娟;;不確定數(shù)據(jù)中的代表頻繁項(xiàng)集近似挖掘[J];計(jì)算機(jī)與數(shù)字工程;2017年02期
3 陳瑤;桂峰;盧超;王華;;基于頻繁項(xiàng)集挖掘算法的伴隨車應(yīng)用與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2017年04期
4 闞寶朋;崔利;;基于漸近取樣的頻繁項(xiàng)集挖掘近似算法[J];控制工程;2017年09期
5 翟悅;郭楊;王玉姣;;一種利用差集的加權(quán)頻繁項(xiàng)集挖掘算法[J];遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版);2016年03期
6 黃紅星;;挖掘完全頻繁項(xiàng)集的蟻群算法[J];微電子學(xué)與計(jì)算機(jī);2014年12期
7 李揮劍;;大數(shù)據(jù)環(huán)境下頻繁項(xiàng)集挖掘的研究[J];青島科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2015年02期
8 黃朝輝;;不確定數(shù)據(jù)頻繁項(xiàng)集挖掘方法探析[J];莆田學(xué)院學(xué)報(bào);2014年02期
9 吳建章;韓立新;曾曉勤;;一種基于多核微機(jī)的閉頻繁項(xiàng)集挖掘算法[J];計(jì)算機(jī)應(yīng)用與軟件;2013年03期
10 陳小玉;楊艷燕;劉克成;朱顥東;;基于改進(jìn)倒排表和集合的最頻繁項(xiàng)集挖掘算法[J];計(jì)算機(jī)應(yīng)用研究;2012年06期
相關(guān)博士學(xué)位論文 前10條
1 屈俊峰;頻繁項(xiàng)集與高可用項(xiàng)集挖掘算法及其性能研究[D];武漢大學(xué);2013年
2 溫磊;基于有向項(xiàng)集圖的關(guān)聯(lián)規(guī)則挖掘算法研究與應(yīng)用[D];天津大學(xué);2004年
3 賈彩燕;關(guān)聯(lián)規(guī)則挖掘的取樣復(fù)雜性分析[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年
4 鄭曉艷;頻繁模式挖掘技術(shù)研究及其在供應(yīng)鏈管理中的應(yīng)用[D];天津大學(xué);2010年
5 孫崇敬;面向?qū)傩耘c關(guān)系的隱私保護(hù)數(shù)據(jù)挖掘理論研究[D];電子科技大學(xué);2014年
6 譚軍;面向產(chǎn)品持續(xù)質(zhì)量控制的數(shù)據(jù)挖掘技術(shù)與應(yīng)用研究[D];中南大學(xué);2013年
7 陳湘;基于基集和概念格的數(shù)據(jù)挖掘方法研究[D];電子科技大學(xué);2011年
8 董杰;基于位表的關(guān)聯(lián)規(guī)則挖掘及關(guān)聯(lián)分類研究[D];大連理工大學(xué);2009年
9 吳學(xué)雁;金融時(shí)間序列模式挖掘方法的研究[D];華南理工大學(xué);2010年
10 毛伊敏;數(shù)據(jù)流頻繁模式挖掘關(guān)鍵算法及其應(yīng)用研究[D];中南大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 胡涵宇;基于動(dòng)態(tài)散列和事務(wù)壓縮的頻繁項(xiàng)集挖掘的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2018年
2 何鎮(zhèn)宏;并行頻繁項(xiàng)集挖掘算法研究[D];四川師范大學(xué);2018年
3 牛晨晨;數(shù)據(jù)流頻繁項(xiàng)集挖掘算法研究[D];蘭州財(cái)經(jīng)大學(xué);2018年
4 杜斐陽(yáng);基于Spark的并行頻繁項(xiàng)集挖掘算法研究及應(yīng)用[D];華中師范大學(xué);2018年
5 夏儒斐;基于頻繁項(xiàng)集關(guān)聯(lián)的海量中文文本聚類系統(tǒng)及其在Spark平臺(tái)的實(shí)現(xiàn)[D];華南理工大學(xué);2018年
6 梅建強(qiáng);析取空間中頻繁項(xiàng)集精簡(jiǎn)表示模型研究[D];合肥工業(yè)大學(xué);2018年
7 陳龍;支持差分隱私的頻繁項(xiàng)集挖掘算法研究[D];華中科技大學(xué);2017年
8 馬強(qiáng);基于Hadoop云平臺(tái)的頻繁項(xiàng)集算法的研究與實(shí)現(xiàn)[D];湖南大學(xué);2014年
9 王杰;數(shù)據(jù)智能分析及其應(yīng)用研究[D];江南大學(xué);2019年
10 劉朋;混合個(gè)性化推薦方法研究[D];北方工業(yè)大學(xué);2018年
本文編號(hào):2847028
本文鏈接:http://sikaile.net/guanlilunwen/zhqtouz/2847028.html