融入事件知識的主題表示方法
本文選題:事件 + 主題模型; 參考:《計算機學報》2017年04期
【摘要】:主題模型已被廣泛用于發(fā)現(xiàn)文檔潛在主題.已有方法多采用詞或短語來表示主題,然而這些方法生成的主題缺乏深層次的語義信息,可解釋性比較差.文中提出使用結(jié)構(gòu)化的事件來表示主題.一方面,事件包含比詞或短語更豐富的語義;另一方面,一組相關(guān)的事件能更合理地解釋并區(qū)分不同的主題.為解決事件作為基本單元所帶來的稀疏性問題,該文在Biterm Topic Model(BTM)的基礎(chǔ)上提出兩種主題模型,采用兩種不同的方式將事件的語義知識融入到主題生成過程中.其中,第1種模型利用Generalized Pólya Urn(GPU)模型天然的聚類效果加大語義相近的事件分配到同一主題的概率,而第2種模型則通過為每個biterm引入指示變量,合理地利用語義知識有效地解決同一個biterm中兩個事件的主題分配問題.該文不僅從主題凝聚度和KL散度兩個指標直接對主題模型進行評估,還通過將主題表示結(jié)果引入到文本分類任務(wù)中對模型進行了外部評估.實驗結(jié)果表明文中提出的模型從共現(xiàn)和語義兩個層面有效地解決了事件稀疏性問題.與基于詞或短語的主題表示相比,事件結(jié)構(gòu)所包含的語義信息提高了主題生成質(zhì)量,使主題表示具有更強的可讀性和主題判別性.
[Abstract]:Topic models have been widely used to discover potential topics in documents. Most of the existing methods use words or phrases to express the topic, but the topics generated by these methods lack deep semantic information and can be interpreted poorly. In this paper, a structured event is proposed to represent the topic. On the one hand, events contain more semantics than words or phrases; on the other hand, a set of related events can explain and distinguish different topics more reasonably. In order to solve the problem of sparsity caused by event as the basic unit, this paper proposes two topic models based on the Biterm topic Model (BTM), which integrates the semantic knowledge of the event into the topic generation process in two different ways. The first model uses the natural clustering effect of Generalized P 貿(mào) lya Urn (GPU) model to increase the probability of semantically similar events being assigned to the same topic, while the second model introduces indicator variables for each biterm. The rational use of semantic knowledge can effectively solve the topic assignment problem of two events in the same biterm. This paper not only evaluates the topic model directly from the two indexes of topic coherence and KL divergence, but also evaluates the model externally by introducing the result of topic representation into the task of text classification. The experimental results show that the proposed model can effectively solve the event sparsity problem from the co-occurrence and semantic levels. Compared with the topic representation based on words or phrases, the semantic information contained in the event structure improves the topic generation quality and makes the topic representation more readable and subject discriminant.
【作者單位】: 武漢大學計算機學院;樂山師范學院計算機科學學院;武漢大學軟件工程國家重點實驗室;
【基金】:國家自然科學基金(61133012,61373108,61373056) 國家社科重大招標計劃項目(11&ZD189)資助~~
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 ;《統(tǒng)計自然語言處理基礎(chǔ)》[J];中文信息學報;2005年03期
2 徐繼偉;;自然語言處理技術(shù)在生物信息學中的應(yīng)用(英文)[J];生物信息學;2006年01期
3 王挺;麥范金;劉忠;;自然語言處理及其應(yīng)用前景的研究[J];桂林航天工業(yè)高等專科學校學報;2006年04期
4 ;第二屆全國少數(shù)民族青年自然語言處理學術(shù)研討會召開[J];模式識別與人工智能;2008年05期
5 高精揓;蕭國政;姬東鴻;;手持嵌入式系統(tǒng)應(yīng)用中的自然語言處理關(guān)鍵技術(shù)[J];長江學術(shù);2009年02期
6 馮志偉;;自然語言處理中的一些宏觀問題之我見[J];中國外語;2009年05期
7 曹佩;;論自然語言處理[J];信息與電腦(理論版);2010年05期
8 邵澤國;;語言科學發(fā)展的新分支——自然語言處理[J];電子科技;2013年05期
9 李霞;;面向本科階段開設(shè)的“自然語言處理”課程教學研究[J];福建電腦;2013年07期
10 賀廣明;;自然語言處理的六個級別[J];情報雜志;1988年04期
相關(guān)會議論文 前10條
1 馬穎華;蘇貴洋;;基于概念的自然語言處理[A];第一屆學生計算語言學研討會論文集[C];2002年
2 李生;;哈工大自然語言處理研究進展[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術(shù)會議論文集[C];2003年
3 ;哈爾濱工業(yè)大學智能技術(shù)與自然語言處理研究室簡介[A];中國中文信息學會第六次全國會員代表大會暨成立二十五周年學術(shù)會議中文信息處理重大成果匯報展資料匯編[C];2006年
4 馮志偉;;自然語言處理中的理性主義和經(jīng)驗主義[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學術(shù)研討會論文集[C];2007年
5 宋柔;;自然語言處理中語言知識的基礎(chǔ)性地位[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學術(shù)研討會論文集[C];2007年
6 李文;程華良;彭耀;溫明杰;肖威清;張陳斌;陳宗海;;自然語言處理云平臺[A];系統(tǒng)仿真技術(shù)及其應(yīng)用學術(shù)論文集(第15卷)[C];2014年
7 徐超;畢玉德;;面向自然語言處理的韓國語隱喻知識庫構(gòu)建研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
8 周國棟;孔芳;朱巧明;;指代消解:國內(nèi)外研究現(xiàn)狀及趨勢[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學學術(shù)會議論文集[C];2007年
9 ;SWCL-2006組織機構(gòu)[A];第三屆學生計算語言學研討會論文集[C];2006年
10 張sソ,
本文編號:2115645
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2115645.html