天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

短文本流中主題模型及其應用研究

發(fā)布時間:2018-12-14 19:49
【摘要】:快速獲取文檔主題對于文本內容挖掘和語義理解有非常重要的作用。隨著計算機的快速發(fā)展和人工智能時代的來臨,人類對于機器理解自然語言的語義有著更深層次的需求,文檔主題建;蛘叻Q作主題挖掘在信息檢索、人工智能、自然語言理解、數(shù)據(jù)挖掘領域占據(jù)比較重要的地位。經典的狄利克雷主題模型主要針對相對較長的文本,這些經典的模型能夠方便的獲得文檔的主題和潛在的語義,但是在短文本流中并不能取得很好的效果。本文主要針對短文本流中的主題建模進行研究。隨著社交媒體的快速發(fā)展,有數(shù)以億計的用戶活躍在發(fā)布短文本的社交平臺上,包括臉書網,Twitter,新浪微博,微信等。這些平臺上每天都產生億級的短文本消息,我們通過分析挖掘這些短文本內容可以獲得大眾的興趣,輿論導向和個性化的用戶興趣。這項研究對于個性化的服務包括個性化推薦、搜索、精準廣告投放等有重要意義。本文的工作包括:結合外部知識的狄利克雷主題模型,該方法考慮改進經典的基于長文本內容的隱含語義模型,通過引入自媒體發(fā)布的內容,豐富短文本中詞與詞之間的共現(xiàn),以提高性能。其中,引入的自媒體內容則是用戶關注的一類高質量博主所發(fā)布的高質量內容,該方法的本質是給潛在語義模型提供了更多高質量的共現(xiàn)詞對,從而提高主題建模的質量。本文將該主題模型應用于短文本環(huán)境中用戶的興趣建模,并結合微博平臺的特征提出了個性化微博再排序框架。即通過分析用戶在某個時間段發(fā)布的文本內容來推斷用戶興趣,同時考慮用戶和微博發(fā)布者之間的互動信息及微博發(fā)布者的特征,將用戶一個時間段內接收到的微博根據(jù)用戶興趣進行再排序最終推送給用戶。實驗證明,結合外部知識的主題模型可以很好的挖掘用戶的興趣,推薦更多用戶感興趣的微博給用戶。動態(tài)狄利克雷多項混合用戶主題模型,考慮用戶興趣隨時間變化的特性和短文本本身的內容特征,本文進行用戶層面的動態(tài)主題建模。根據(jù)用戶當前時間段發(fā)布的短文本內容和上一時間段用戶的興趣,來追蹤用戶動態(tài)變化的興趣,其中用戶的興趣表示為混合主題多項分布。在短文本環(huán)境下為了更好的推斷的主題分布,針對短文本詞與詞之間共現(xiàn)的稀疏特性,改進狄利克雷生成模型及其吉布斯采樣過程。通過該模型,可以通過用戶在不同時間段的興趣分布(主題分布)。同時本文將該改進的主題模型應用于動態(tài)用戶聚類,使得用戶聚類的結果具有可解釋性。實驗結果表明,在短文本流中,我們的模型可以更好的推斷用戶隨時間變化的興趣,同時給出更合理動態(tài)變化的用戶群組結果。
[Abstract]:Getting document topics quickly is very important for text content mining and semantic understanding. With the rapid development of computer and the advent of the era of artificial intelligence, human beings have a deeper demand for machine understanding the semantics of natural language. Document topic modeling or topic mining in information retrieval, artificial intelligence, Natural language understanding, data mining field plays a more important role. The classical Delikley topic models are mainly for relatively long text. These classical models can easily obtain the topic and potential semantics of the document, but they can not achieve good results in the short text flow. This paper focuses on the topic modeling in the short text stream. With the rapid development of social media, hundreds of millions of users are active on short text publishing social platforms, including Facebook, Twitter, Sina Weibo, WeChat, etc. On these platforms, hundreds of millions of short text messages are generated every day. Through analyzing and mining these short text contents, we can gain public interest, public opinion orientation and personalized user interest. This research is of great significance for personalized services, including personalized recommendation, search, accurate advertising, and so on. The work of this paper includes: combining with the Delikley topic model of external knowledge, this method considers the improvement of the classical implicit semantic model based on long text content, and enriches the co-occurrence between words and words in the short text by introducing the content published by the media. To improve performance. The introduced self-media content is a kind of high-quality content published by a class of high-quality bloggers concerned by users. The essence of this method is to provide more high-quality co-occurrence pairs to the potential semantic model, thus improving the quality of topic modeling. In this paper, the topic model is applied to the modeling of user's interest in the short text environment, and the framework of individualized Weibo reordering is put forward according to the features of Weibo platform. That is, by analyzing the text content published by the user at a certain time to infer the interest of the user, and at the same time considering the interactive information between the user and Weibo publisher and the characteristics of Weibo publisher, Weibo received by the user within a period of time according to user interests to sort the final push to the user. Experimental results show that the topic model combined with external knowledge can well tap the interests of users and recommend Weibo, who is interested in more users, to give them. In this paper, the dynamic theme modeling at the user level is carried out by considering the characteristics of user interest over time and the content characteristics of the short text. According to the short text content published by the user in the current time period and the interest of the user in the previous period, the interest of the user is traced to the dynamic change of the user, where the interest of the user is expressed as a multi-item distribution of mixed topics. In order to better infer the topic distribution in short text environment, we improve the Delikley generation model and its Gibbs sampling process in view of the sparsity of cooccurrence between the short text and the word. Through this model, the distribution of interest (topic distribution) of users in different time periods can be obtained. At the same time, the improved topic model is applied to dynamic user clustering, which makes the result of user clustering interpretable. The experimental results show that our model can better infer the interest of users over time in short text flow, and give more reasonable dynamic change of user group results.
【學位授予單位】:山東大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1

【相似文獻】

相關期刊論文 前10條

1 陳敏,湯曉安;在Microsoft Access中引入文本文件[J];微型電腦應用;1995年02期

2 李盛瑜;何文;;一種對聊天文本進行特征選取的方法研究[J];計算機科學;2007年05期

3 蔣志方;祝翠玲;吳強;;一個對不帶類別標記文本進行分類的方法[J];計算機工程;2007年12期

4 趙鋼;;從復雜文本中導入數(shù)據(jù)的方法[J];中國審計;2007年18期

5 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機科學;2002年08期

6 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學學報;2004年09期

7 覃曉;元昌安;彭昱忠;丁超;;基于基因表達式編程的Web文本分類研究[J];網絡安全技術與應用;2009年03期

8 諶志群;;文本趨勢挖掘綜述[J];情報科學;2010年02期

9 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期

10 江偉;潘昊;;基于優(yōu)化的多核學習方法的Web文本分類的研究[J];計算機技術與發(fā)展;2013年10期

相關會議論文 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復制文本檢測[A];第29屆中國數(shù)據(jù)庫學術會議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學術年會論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關聯(lián)規(guī)則制導的遺傳算法在文本分類中的應用[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術研究的新進展[A];開創(chuàng)新世紀的通信技術——第七屆全國青年通信學術會議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年

相關重要報紙文章 前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年

相關博士學位論文 前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學;2014年

2 韓開旭;基于支持向量機的文本情感分析研究[D];東北石油大學;2014年

3 鄭立洲;短文本信息抽取若干技術研究[D];中國科學技術大學;2016年

4 韓磊;漢語句義結構模型分析及其文本表示方法研究[D];北京理工大學;2016年

5 劉林;面向論壇文本的大學生情緒識別研究[D];華中師范大學;2016年

6 張博宇;基于局部特征的場景文本分析方法研究[D];哈爾濱工業(yè)大學;2015年

7 胡明涵;面向領域的文本分類與挖掘關鍵技術研究[D];東北大學 ;2009年

8 孫曉華;基于聚類的文本機會發(fā)現(xiàn)關鍵問題研究[D];哈爾濱工程大學;2010年

9 尚文倩;文本分類及其相關技術研究[D];北京交通大學;2007年

10 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學;2010年

相關碩士學位論文 前10條

1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內蒙古大學;2015年

2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實現(xiàn)[D];南京信息工程大學;2015年

3 李少卿;不良文本及其變體信息的檢測過濾技術研究[D];復旦大學;2014年

4 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學;2015年

5 鐘文波;搜索引擎中關鍵詞分類方法評估及推薦應用[D];華南理工大學;2015年

6 黃晨;基于新詞識別和時間跨度的微博熱點研究[D];上海交通大學;2015年

7 陳紅陽;中文微博話題發(fā)現(xiàn)技術研究[D];重慶理工大學;2015年

8 王s,

本文編號:2379217


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2379217.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶126e3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com