面向中文微博的關(guān)鍵詞提取技術(shù)研究
本文選題:提取 + 中文微博。 參考:《中南大學(xué)》2014年碩士論文
【摘要】:摘要:面對中文微博文本書寫隨意,信息不完整,噪聲大,怎么在數(shù)量如此巨大又雜亂無序的微博信息中提取關(guān)鍵信息成為中文自然語言處理的重點(diǎn)。關(guān)鍵詞自動提取是文本挖掘領(lǐng)域的一個(gè)分支,也是文本檢索、文本比較、文本分類和聚類等文本內(nèi)容處理研究的基礎(chǔ)性工作。 本文研究的主要內(nèi)容就是如何從中文微博文本數(shù)據(jù)提取出能說明微博內(nèi)容的主題詞,即關(guān)鍵詞。傳統(tǒng)的人工方法在數(shù)據(jù)量如此巨大的微博信息中是不適用的。因此本文在將概率主題模型LDA應(yīng)用到中文關(guān)鍵詞提取的基礎(chǔ)上,借助統(tǒng)計(jì)學(xué)方法在“詞匯層次”引入外部語義庫,加大語義詞語的權(quán)重,提出一種多特征融合的概率主題模型,使提取的關(guān)鍵詞更加準(zhǔn)確、更加結(jié)合實(shí)際。 主要工作如下: (1)深入研究中文微博數(shù)據(jù)特征結(jié)構(gòu),對現(xiàn)有的隱含語義模型結(jié)合中文微博數(shù)據(jù)進(jìn)行了對比分析。 (2)深入研究隱含主題模型在中文微博中的應(yīng)用,詳細(xì)的分析了隱含主題模型的特點(diǎn),構(gòu)建了中文微博特有的詞袋模型,應(yīng)用到中文微博中,將文本的主題分布向量,直接映射到內(nèi)部隱含主題,彌補(bǔ)傳統(tǒng)的單純利用詞頻信息表示文本帶來的信息丟失的缺點(diǎn),減少短文本的數(shù)據(jù)稀疏性。 (3)中文微博的主題是由其本身的內(nèi)容決定,因此本文提出一種基于文本本身隱含語義與外部語義相結(jié)合的多特征融合概率模型,在隱含主題模型上結(jié)合《知網(wǎng)》語義庫加入統(tǒng)計(jì)學(xué)權(quán)重,從粗粒度“主題層次”和細(xì)粒度“詞匯層次”對詞匯進(jìn)行研究,提取關(guān)鍵詞。并對該方法進(jìn)行實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果表明該方法在中文微博關(guān)鍵詞提取上有很好效果,具有較好的實(shí)用價(jià)值。圖30幅,表18個(gè),參考文獻(xiàn)59篇。
[Abstract]:Abstract : In the face of arbitrary , incomplete information and big noise in Chinese micro - blog , it is the focus of Chinese natural language processing to extract key information from such huge and chaotic micro - blog information .
The main content of this paper is how to extract the subject words which can explain the content of microblog from the data of Chinese micro blog . The traditional manual method is not applicable in the micro blog information with such huge amount of data . Therefore , based on the application of the probabilistic topic model LDA to Chinese keyword extraction , this paper introduces a probabilistic topic model of multi - feature fusion based on the application of probabilistic topic model LDA to Chinese keyword extraction , and puts forward a multi - feature fusion probability theme model , which makes the extracted keywords more accurate and more practical .
The main work is as follows :
( 1 ) To study the feature structure of Chinese microblog data , and compare the existing implicit semantic model with Chinese microblog data .
( 2 ) In - depth study of the application of implicit thematic model in Chinese micro - blog , the feature of hidden theme model is analyzed in detail , and the special word - bag model of Chinese micro - blog is built .
( 3 ) The subject of Chinese microblog is decided by its own content , so this paper proposes a multi - feature fusion probability model based on the combination of the hidden semantic and the external semantics of the text itself .
【學(xué)位授予單位】:中南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1;TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張小平;周雪忠;黃厚寬;馮奇;陳世波;焦宏官;;一種改進(jìn)的LDA主題模型[J];北京交通大學(xué)學(xué)報(bào);2010年02期
2 李曉明;劉建國;;搜索引擎技術(shù)及趨勢[J];電腦與電信;2008年05期
3 方俊;郭雷;王曉東;;基于語義的關(guān)鍵詞提取算法[J];計(jì)算機(jī)科學(xué);2008年06期
4 王立霞;淮曉永;;基于語義的中文文本關(guān)鍵詞提取算法[J];計(jì)算機(jī)工程;2012年01期
5 韓慧,毛鋒,王文淵;數(shù)據(jù)挖掘中決策樹算法的最新進(jìn)展[J];計(jì)算機(jī)應(yīng)用研究;2004年12期
6 楊亮;林原;林鴻飛;;基于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)[J];中文信息學(xué)報(bào);2012年01期
7 王磊;黃廣君;;結(jié)合概念語義空間的語義擴(kuò)展技術(shù)研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年35期
8 李勁;張華;吳浩雄;向軍;;基于特定領(lǐng)域的中文微博熱點(diǎn)話題挖掘系統(tǒng)BTopicMiner[J];計(jì)算機(jī)應(yīng)用;2012年08期
9 馬雯雯;魏文晗;鄧一貴;;基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J];計(jì)算機(jī)工程與應(yīng)用;2014年01期
10 徐文海;溫有奎;;一種基于TFIDF方法的中文關(guān)鍵詞抽取算法[J];情報(bào)理論與實(shí)踐;2008年02期
,本文編號:1805670
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1805670.html