天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

融合知識(shí)的主題模型研究及應(yīng)用

發(fā)布時(shí)間:2018-03-24 15:57

  本文選題:主題模型 切入點(diǎn):先驗(yàn)知識(shí) 出處:《南京理工大學(xué)》2017年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)信息的爆炸式發(fā)展,網(wǎng)絡(luò)上的資源和數(shù)據(jù)越來越豐富,使得人們理解這些動(dòng)態(tài)的海量文本變得非常困難。為了應(yīng)對(duì)這種挑戰(zhàn),我們需要從海量文本中抽取出關(guān)鍵概念,以便人們直觀、快速地理解和處理,因此主題模型就應(yīng)運(yùn)而生。主題模型算法通過對(duì)原始文本中詞匯的分析,挖掘隱含其中的主題,這些主題之間的關(guān)系,以及隨時(shí)間演變的情況。但是,近年來研究人員發(fā)現(xiàn),這些沒有融合任何人類知識(shí)的無監(jiān)督模型往往會(huì)導(dǎo)致生成的主題解釋性不強(qiáng),也就是說,無法生成語義連貫的主題。并且,這些傳統(tǒng)的主題模型通常需要大量訓(xùn)練數(shù)據(jù)。為了解決這些問題,本文進(jìn)行了融合知識(shí)的主題模型研究,并對(duì)其在微博話題發(fā)現(xiàn)上的應(yīng)用進(jìn)行了探索:(1)本文設(shè)計(jì)了一個(gè)融合先驗(yàn)知識(shí)的主題模型PLTM,通過對(duì)主題模型中兩個(gè)重要概率分布之一——主題-詞分布的改進(jìn),從人工提供先驗(yàn)知識(shí)和自動(dòng)挖掘兩方面擴(kuò)展了傳統(tǒng)主題模型。并且,針對(duì)實(shí)際應(yīng)用中的文本往往會(huì)以數(shù)據(jù)流形式出現(xiàn)的特點(diǎn),對(duì)PLTM模型進(jìn)行了在線擴(kuò)展,并設(shè)計(jì)了兩種在線方法。(2)在微博熱點(diǎn)話題發(fā)現(xiàn)的任務(wù)中,設(shè)計(jì)了增量PLTM模型與兩層k-均值聚類和層次聚類的混合聚類結(jié)合的方法。本文針對(duì)微博語料的特點(diǎn),采取了較為細(xì)致的文本預(yù)處理方法,將模型關(guān)注的數(shù)據(jù)對(duì)象規(guī)模大大減小,并且減少了數(shù)據(jù)噪音的干擾。與此同時(shí),利用融合知識(shí)的主題模型方法,有效地解決了微博短文本數(shù)據(jù)稀疏性的問題;使用兩層k-均值和層次聚類的混合聚類算法,可以快速地將微博聚集到相應(yīng)的話題下。(3)針對(duì)上述兩部分的研究工作,本文分別在亞馬遜評(píng)論數(shù)據(jù)集和微博數(shù)據(jù)集中進(jìn)行了實(shí)驗(yàn)分析,驗(yàn)證了模型的實(shí)用性和有效性,并且設(shè)計(jì)了一個(gè)用戶交互的系統(tǒng),可以直觀地體現(xiàn)模型在實(shí)際應(yīng)用中的效果。
[Abstract]:With the explosive development of Internet information, more and more resources and data are available on the Internet, which makes it very difficult for people to understand these dynamic massive texts. We need to extract the key concepts from the massive text so that people can understand and process them intuitively and quickly, so the topic model comes into being. But in recent years, researchers have found that these unsupervised models that do not integrate any human knowledge tend to lead to less explanatory topics generated, that is, These traditional topic models usually require a lot of training data. In order to solve these problems, the topic model of integrating knowledge is studied in this paper. In this paper, we design a topic model PLTMM, which combines prior knowledge, and improves the topic-word distribution, one of the two important probability distributions in the topic model. In this paper, the traditional topic model is extended from the aspects of manual prior knowledge and automatic mining, and the PLTM model is extended online in view of the fact that the text often appears in the form of data stream in practical applications. In the task of hot topic discovery of Weibo, we design an incremental PLTM model combined with mixed clustering of two-layer K-means clustering and hierarchical clustering. In this paper, we aim at the characteristics of Weibo corpus. A detailed text preprocessing method is adopted to reduce the size of the data object concerned by the model and reduce the interference of the data noise. At the same time, the topic model method of integrating knowledge is used. It effectively solves the problem of data sparsity in Weibo's short text. By using the mixed clustering algorithm based on two-layer k-means and hierarchical clustering, we can quickly gather Weibo under the corresponding topic. In this paper, an experimental analysis on Amazon comment dataset and Weibo dataset is carried out to verify the practicability and validity of the model, and a user interaction system is designed, which can directly reflect the effect of the model in practical application.
【學(xué)位授予單位】:南京理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動(dòng)收集與處理系統(tǒng)的研制[J];計(jì)算機(jī)應(yīng)用研究;2005年05期

2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期

3 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期

4 陳雄;都云程;李渝勤;施水才;;基于頁面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期

5 何利益;陸國(guó)鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期

6 關(guān)慧芬;師軍;;基于本體的主題爬蟲技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期

7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期

8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期

9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年12期

10 朱夢(mèng)麟;李光耀;周毅敏;;基于樹比較的Web頁面主題信息抽取[J];微型機(jī)與應(yīng)用;2011年19期

相關(guān)會(huì)議論文 前6條

1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識(shí)別及表示[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動(dòng)提取[A];第二十一屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國(guó)計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

相關(guān)博士學(xué)位論文 前4條

1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年

2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學(xué);2013年

3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年

4 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2013年

相關(guān)碩士學(xué)位論文 前10條

1 解琰;主題優(yōu)化過濾方法研究與應(yīng)用[D];大連海事大學(xué);2015年

2 楊春艷;基于語義和引用加權(quán)的文獻(xiàn)主題提取研究[D];浙江大學(xué);2015年

3 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學(xué);2014年

4 黃志;基于維基歧義頁的搜索結(jié)果聚類方法研究[D];北京理工大學(xué);2015年

5 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學(xué);2015年

6 任昱鳳;基于Hadoop的分布式主題爬蟲及其實(shí)現(xiàn)[D];陜西師范大學(xué);2015年

7 韓琳;基于貝葉斯主題爬蟲的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2015年

8 黎楠;面向?qū)@闹黝}挖掘技術(shù)研究及應(yīng)用[D];北京工業(yè)大學(xué);2015年

9 劉學(xué)江;超大規(guī)模社交網(wǎng)絡(luò)中基于結(jié)構(gòu)與主題的社團(tuán)挖掘[D];電子科技大學(xué);2015年

10 黃文強(qiáng);安卓技術(shù)信息的主題爬蟲技術(shù)研究與實(shí)現(xiàn)[D];東南大學(xué);2015年



本文編號(hào):1658998

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1658998.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9ee78***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com