基于HLDA-IDF模型的網(wǎng)絡(luò)文本主題挖掘研究
本文關(guān)鍵詞: 熱度 模型 主題挖掘 網(wǎng)絡(luò)文本 文本挖掘 出處:《情報(bào)理論與實(shí)踐》2017年10期 論文類型:期刊論文
【摘要】:[目的/意義]為了彌補(bǔ)LDA模型建模過(guò)程中未考慮到網(wǎng)絡(luò)文本中文檔關(guān)注度和質(zhì)量度這一因素,并增強(qiáng)結(jié)果的語(yǔ)義可解釋性和主題表示能力,文章提出了一種熱度加權(quán)的HLDA-IDF的網(wǎng)絡(luò)文本主題挖掘模型。[方法/過(guò)程]本文首先是給出了較為準(zhǔn)確的熱度定義,并對(duì)LDA模型進(jìn)行熱度加權(quán),構(gòu)建出了HLDA模型,再依據(jù)詞匯的主題表示能力存在差異這一實(shí)際情況,引入TF-IDF算法并改進(jìn),構(gòu)建出HLDA-IDF模型,最后利用實(shí)際論壇數(shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果表明該模型的結(jié)果語(yǔ)義可解釋性和主題表示能力較強(qiáng)。
[Abstract]:[Objective / meaning] in order to make up for the fact that the document concern and quality in the network text were not taken into account in the process of modeling the LDA model, and to enhance the semantic interpretability and topic representation of the result. In this paper, a heat weighted HLDA-IDF model for web text topic mining is proposed. [Method / process: first of all, we give a more accurate definition of heat, and build a HLDA model by weighting the heat of LDA model. Then according to the fact that there are differences in the expression ability of the topic of the vocabulary, the TF-IDF algorithm is introduced and improved, and the HLDA-IDF model is constructed. Finally, the experimental results are verified by using the actual forum data. [Results / conclusions] the experimental results show that the results of the model are interpretable in semantic terms and strong in topic representation.
【作者單位】: 南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目“基于演化本體的網(wǎng)絡(luò)輿情自適應(yīng)跟蹤方法研究”(項(xiàng)目編號(hào):71373123) 江蘇高校哲學(xué)社會(huì)科學(xué)研究重點(diǎn)項(xiàng)目“基于超網(wǎng)絡(luò)的江蘇教育微博輿情多元意見(jiàn)演化模型及應(yīng)用研究”(項(xiàng)目編號(hào):2015ZDIXM007) 江蘇省普通高校研究生科研創(chuàng)新計(jì)劃項(xiàng)目“社交網(wǎng)絡(luò)上的輿情傳播模型及控制策略研究”(項(xiàng)目編號(hào):KYZZ15_0104)的成果
【分類號(hào)】:TP391.1
【正文快照】: 隨著互聯(lián)網(wǎng)上文本的不斷涌現(xiàn),如何從豐富的文本數(shù)據(jù)中提取出精簡(jiǎn)且有價(jià)值的關(guān)鍵信息是目前研究的一個(gè)難點(diǎn),而主題模型的提出則為解決該問(wèn)題提供了一個(gè)切實(shí)可行的研究方向。首個(gè)完全意義上的主題模型是隱狄利克雷分布(Latent Dirichlet Allocation,LDA)[1]主題模型,該模型認(rèn)為
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王小芳;王瑞芳;張樹(shù)功;;基于最優(yōu)化控制模型的文本主題域劃分[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2009年04期
2 高瑋軍;馬棟林;張其文;;一種基于本體的文本主題提取方法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2012年02期
3 王小華;徐寧;諶志群;;基于共詞分析的文本主題詞聚類與主題發(fā)現(xiàn)[J];情報(bào)科學(xué);2011年11期
4 張其文;李明;;文本主題的自動(dòng)提取方法研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年15期
5 侯風(fēng)巍;郭東軍;李世磊;徐釗峰;;基于信息反饋的文本主題分類過(guò)濾方法[J];通信學(xué)報(bào);2009年S1期
6 劉興林;彭宏;馬千里;;基于增量詞集頻率的文本主題詞提取算法研究[J];計(jì)算機(jī)應(yīng)用研究;2010年09期
7 康愷;林坤輝;周昌樂(lè);;基于主題詞頻數(shù)特征的文本主題劃分[J];計(jì)算機(jī)應(yīng)用;2006年08期
8 劉菲;黃萱菁;吳立德;;利用關(guān)聯(lián)規(guī)則挖掘文本主題詞的方法[J];計(jì)算機(jī)工程;2008年07期
9 禹龍;田生偉;黃俊;;維吾爾語(yǔ)評(píng)論文本主題抽取研究[J];中文信息學(xué)報(bào);2013年04期
10 李亞紅;王素格;李德玉;;使用多元語(yǔ)義特征的評(píng)論文本主題聚類[J];計(jì)算機(jī)工程與應(yīng)用;2013年02期
相關(guān)會(huì)議論文 前1條
1 丁秉公;黃昌寧;黃德根;;文本主題識(shí)別研究及應(yīng)用[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年
相關(guān)博士學(xué)位論文 前1條
1 常鵬;基于詞共現(xiàn)的文本主題挖掘模型和算法研究[D];天津大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 張文躍;基于改進(jìn)shark-search算法的主題爬蟲(chóng)的研究與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2015年
2 梁劍;基于LDA文本主題挖掘的個(gè)性化推送及其在Spark平臺(tái)的實(shí)現(xiàn)[D];華南理工大學(xué);2016年
3 吳敏;網(wǎng)絡(luò)短文本主題聚類研究[D];華中科技大學(xué);2015年
4 鄒遠(yuǎn)航;面向短文本主題發(fā)現(xiàn)及分類研究[D];南京大學(xué);2015年
5 蔡洋;基于詞三角的短文本主題模型算法[D];南京大學(xué);2017年
6 劉世群;基于詞向量的短文本主題建模研究[D];吉林大學(xué);2017年
7 梁文婷;漢語(yǔ)文本主題分析技術(shù)的研究與實(shí)現(xiàn)[D];重慶大學(xué);2008年
8 蔣建慧;文本主題段落內(nèi)部概念關(guān)系抽取技術(shù)研究[D];上海交通大學(xué);2009年
9 郭劍飛;基于LDA多模型中文短文本主題分類體系構(gòu)建與分類[D];哈爾濱工業(yè)大學(xué);2014年
10 田鈺琨;基于主題鏈的海量投訴文本主題抽取方法研究[D];東北師范大學(xué);2012年
,本文編號(hào):1442927
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1442927.html