中文句間關(guān)系識(shí)別及其應(yīng)用研究

發(fā)布時(shí)間：2019-02-13 03:03

【摘要】：隨著互聯(lián)網(wǎng)的飛速發(fā)展，底層信息抽取技術(shù)發(fā)展的日趨成熟，搜索引擎等互聯(lián)網(wǎng)應(yīng)用也對(duì)文本分析提出了更高的要求，不僅僅希望理解一個(gè)句子，更希望理解篇章，篇章語(yǔ)義分析逐漸引起了大家的重視。句間關(guān)系對(duì)篇章語(yǔ)義的分析具有重要的作用，在自然語(yǔ)言處理和信息檢索的各個(gè)領(lǐng)域都有著重要的作用。句間關(guān)系中的因果關(guān)系對(duì)于問(wèn)答系統(tǒng)的應(yīng)用顯而易見(jiàn)。所謂句間關(guān)系就是指在一個(gè)篇章中兩個(gè)文本單元之間具有的語(yǔ)義關(guān)聯(lián)。本文針對(duì)中文句間關(guān)系進(jìn)行系統(tǒng)性的研究。首先我們構(gòu)建了由1096篇文本構(gòu)成的句間關(guān)系語(yǔ)料，針對(duì)語(yǔ)料庫(kù)的標(biāo)注內(nèi)容進(jìn)行了數(shù)據(jù)分析，用以挖掘中文句間關(guān)系的語(yǔ)言表述特點(diǎn)。分析句間關(guān)系各關(guān)系之間語(yǔ)義歧義性等問(wèn)題。句間關(guān)系可以分為顯示句間關(guān)系和隱式句間關(guān)系兩大類，，本文分別針對(duì)這兩類關(guān)系根據(jù)其語(yǔ)言特點(diǎn)進(jìn)行了識(shí)別研究。顯示句間關(guān)系是指具有明顯關(guān)聯(lián)詞詞連接的兩個(gè)文本單元之間的關(guān)系，通過(guò)對(duì)語(yǔ)料的分析發(fā)現(xiàn)關(guān)聯(lián)詞對(duì)于句間關(guān)系具有很強(qiáng)的代表性，因此利用關(guān)聯(lián)詞規(guī)則的方法對(duì)顯式句間關(guān)系識(shí)別進(jìn)行了研究，研究發(fā)現(xiàn)利用關(guān)聯(lián)詞規(guī)則的方法針對(duì)顯式關(guān)系的識(shí)別取得了較好的效果，更近一步利用機(jī)器學(xué)習(xí)與規(guī)則結(jié)合的方法取得了更為理想的效果，其中條件關(guān)系的F值達(dá)到了94.93%。隱式句間關(guān)系相對(duì)于顯式關(guān)系則相對(duì)具有更大的難度和挑戰(zhàn)性，因?yàn)闆](méi)有明顯的關(guān)聯(lián)詞來(lái)關(guān)聯(lián)兩個(gè)文本單元。所以采用了基于機(jī)器學(xué)習(xí)的方法進(jìn)行識(shí)別研究。分別利用最大熵模型和SVM模型進(jìn)行建模，針對(duì)隱式關(guān)系抽取了相應(yīng)的特征，實(shí)驗(yàn)發(fā)現(xiàn)SVM模型取得了更好的實(shí)驗(yàn)結(jié)果，最高擴(kuò)展關(guān)系的F值達(dá)到了72.36%。同時(shí)針對(duì)實(shí)驗(yàn)所用特征進(jìn)行了特征分析，其中關(guān)鍵詞特征的表現(xiàn)最為出色，對(duì)各個(gè)關(guān)系都起到了很大的表征作用。由于有指導(dǎo)的構(gòu)建訓(xùn)練語(yǔ)料對(duì)語(yǔ)料數(shù)量的限制，本文利用過(guò)濾后的顯式關(guān)聯(lián)詞針對(duì)因果關(guān)系抽取了大量的關(guān)系實(shí)例，去掉關(guān)聯(lián)詞后構(gòu)成了隱式關(guān)系，加入到訓(xùn)練語(yǔ)料中，實(shí)驗(yàn)結(jié)果表明此種方法使得實(shí)驗(yàn)結(jié)果的F值有了較為明顯的提高。最后，本文考察了句間關(guān)系在事件關(guān)系識(shí)別問(wèn)題上的應(yīng)用，以事件因果關(guān)系為例，發(fā)現(xiàn)加入句間關(guān)系特征后事件因果關(guān)系的識(shí)別效果要比傳統(tǒng)的方法實(shí)驗(yàn)效果有明顯的提升。
[Abstract]:With the rapid development of the Internet and the maturation of the underlying information extraction technology, Internet applications, such as search engines, have put forward higher requirements for text analysis, not only to understand a sentence, but also to understand a text. Text semantic analysis has gradually attracted much attention. Intersentence relations play an important role in the analysis of text semantics and in all fields of natural language processing and information retrieval. The application of causality in intersentence relations is obvious. The relationship between sentences refers to the semantic relation between two text units in a text. This paper makes a systematic study on the relationship between Chinese sentences. First of all, we construct a corpus of 1096 texts to analyze the tagging content of the corpus, so as to explore the linguistic characteristics of the relationship between Chinese sentences. This paper analyzes the semantic ambiguity among the relationships between sentences. The relationship between sentences can be divided into two categories: the explicit relationship and the implicit one. This paper studies the two types of relations according to their linguistic characteristics. Showing the relationship between sentences refers to the relationship between two text units with obvious connection words. Through the analysis of the corpus, it is found that the correlation words have strong representativeness for the relationship between sentences. Therefore, the method of association word rules is used to study the relationship recognition between explicit sentences, and it is found that the method of association word rules has achieved good results in the recognition of explicit relations. A more ideal result is obtained by combining machine learning with rules in a further step, in which the F value of conditional relation reaches 94.93. The relationship between implicit sentences is more difficult and challenging than the explicit relation because there are no obvious relevance words to correlate two text units. Therefore, the recognition method based on machine learning is adopted. The maximum entropy model and the SVM model are used to model the model, and the corresponding characteristics are extracted for the implicit relation. The experimental results show that the SVM model has better experimental results, and the F value of the maximum extended relationship reaches 72.36. At the same time, the features used in the experiment are analyzed, among which the key words are the most excellent, which plays a very important role in each relationship. Because of the restrictions on the quantity of the training corpus, this paper uses the filtered explicit relevance words to extract a large number of relational examples for causality, and forms an implicit relationship after removing the associated words, and adds them to the training corpus. The experimental results show that the F value of the experimental results is obviously improved by this method. Finally, this paper investigates the application of intersentence relationship in event relationship recognition. Taking event causality as an example, it is found that the effect of event causality recognition after adding the feature of inter-sentence relationship is significantly improved than that of the traditional experimental method.
【學(xué)位授予單位】：哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2013
【分類號(hào)】：TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 洪留榮;王耀才;;數(shù)學(xué)公式中字符和符號(hào)間空間關(guān)系的識(shí)別[J];計(jì)算機(jī)工程與應(yīng)用;2006年12期

2 羅志成;馬費(fèi)成;吳曉東;宋倩倩;;從維基分類系統(tǒng)構(gòu)建中文語(yǔ)義詞典研究[J];信息系統(tǒng)學(xué)報(bào);2008年02期

3 肖建于;王潛平;洪留榮;;基于凸殼和模糊識(shí)別的數(shù)學(xué)公式識(shí)別[J];計(jì)算機(jī)應(yīng)用與軟件;2008年05期

4 張合;王曉東;楊照巖;;本體驅(qū)動(dòng)的面向主題的網(wǎng)頁(yè)關(guān)系識(shí)別[J];河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年02期

5 張巍;于洋;游宏梁;;面向詞匯知識(shí)庫(kù)自動(dòng)構(gòu)建的概念術(shù)語(yǔ)關(guān)系識(shí)別[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2009年11期

6 仲兆滿;劉宗田;;利用事件影響關(guān)系識(shí)別文本集合中重要事件的方法[J];模式識(shí)別與人工智能;2010年03期

7 諸葛理繡;王軍華;周晨;;基于信息系統(tǒng)架構(gòu)的信息資產(chǎn)分類與關(guān)系識(shí)別[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年07期

8 李文翔,晏蒲柳,張濱,夏德麟;基于語(yǔ)料庫(kù)的關(guān)聯(lián)詞識(shí)別方法[J];計(jì)算機(jī)工程與應(yīng)用;2004年07期

9 莊成龍;錢(qián)龍華;周國(guó)棟;;基于樹(shù)核函數(shù)的實(shí)體語(yǔ)義關(guān)系抽取方法研究[J];中文信息學(xué)報(bào);2009年01期

10 張奇;金培權(quán);岳麗華;;基于CRF的網(wǎng)頁(yè)動(dòng)態(tài)關(guān)系抽取研究[J];中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào);2010年11期

相關(guān)會(huì)議論文前10條

1 游旭群;楊治良;;視覺(jué)空間關(guān)系識(shí)別中的認(rèn)知加工特性研究[A];第九屆全國(guó)心理學(xué)學(xué)術(shù)會(huì)議文摘選集[C];2001年

2 劉子軍;馮白翎;鄭遠(yuǎn)宏;;幼女被奸后大出血鑒定1例[A];中國(guó)法醫(yī)學(xué)會(huì)全國(guó)第十次法醫(yī)臨床學(xué)學(xué)術(shù)研討會(huì)論文集[C];2007年

3 李丹;羅智勇;;基于序列模式挖掘的人物關(guān)系識(shí)別[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展（2007-2009）[C];2009年

4 姚天f ;;一種用于漢語(yǔ)信息抽取的詞匯本體[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議（JSCL-2005）論文集[C];2005年

5 莊成龍;錢(qián)龍華;周國(guó)棟;;基于樹(shù)核函數(shù)的實(shí)體關(guān)系抽取方法研究[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年

6 劉德榮;王永成;;基于詞典和語(yǔ)料庫(kù)的概念內(nèi)聚度研究[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

7 劉海濤;;影響依存句法分析的因素探討[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

8 唐永明;王小捷;文娟;;基于關(guān)聯(lián)詞的復(fù)句語(yǔ)言模型[A];第三屆中國(guó)智能計(jì)算大會(huì)論文集[C];2009年

9 劉星華;;如何區(qū)別和確定某些定語(yǔ)從句和說(shuō)明從句[A];國(guó)際交流學(xué)院科研論文集（第一期）[C];1994年

10 李向陽(yáng);張亞非;;一種基于語(yǔ)義的漢語(yǔ)短語(yǔ)識(shí)別方法[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

相關(guān)重要報(bào)紙文章前10條

1 華靜;七大誘惑誘發(fā)公務(wù)員熱[N];中國(guó)改革報(bào);2006年

2 本報(bào)記者　秦志勇通訊員　溫天慶方海波;和諧—合力創(chuàng)新—活力發(fā)展—助力支持—?jiǎng)恿N];人民政協(xié)報(bào);2006年

3 通訊員　盧丹;讓節(jié)約成為我們的自覺(jué)行動(dòng)[N];中國(guó)石油報(bào);2006年

4 本報(bào)記者曹秀娟邋實(shí)習(xí)生李濤;熱議省城四個(gè)環(huán)保話題[N];山西日?qǐng)?bào);2008年

5 記者洪奕宜通訊員粵紀(jì)宣;反腐促廉政亮劍為民生[N];南方日?qǐng)?bào);2008年

6 舒伊;復(fù)合肥；2005繼續(xù)輝煌？[N];中華合作時(shí)報(bào);2005年

7 郭兆平楊_g;省城空氣質(zhì)量報(bào)告[N];山西日?qǐng)?bào);2006年

8 曹保順;2004年高考語(yǔ)文虛詞解析[N];中國(guó)教育報(bào);2004年

9 本報(bào)赴北京報(bào)道組李煊清華大學(xué)學(xué)生郭賈雪點(diǎn)評(píng)：中國(guó)新聞出版報(bào)副總編輯張秀平;“鳥(niǎo)巢樂(lè)團(tuán)”指揮人[N];河南日?qǐng)?bào);2006年

10 賈光;從保健酒業(yè)行業(yè)看名牌效應(yīng)[N];中國(guó)工業(yè)報(bào);2007年

相關(guān)博士學(xué)位論文前10條

1 張海軍;基于大規(guī)模語(yǔ)料的中文新詞識(shí)別技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年

2 劉健;基于近似文本分析的意見(jiàn)挖掘[D];上海大學(xué);2007年

3 文娟;統(tǒng)計(jì)語(yǔ)言模型的研究與應(yīng)用[D];北京郵電大學(xué);2010年

4 穆一夫;基于認(rèn)知的非結(jié)構(gòu)化信息抽取關(guān)鍵技術(shù)與算法研究[D];中國(guó)礦業(yè)大學(xué)（北京）;2013年

5 張瑞朋;現(xiàn)代漢語(yǔ)書(shū)面語(yǔ)中跨標(biāo)點(diǎn)句句法關(guān)系約束條件的研究[D];北京語(yǔ)言大學(xué);2007年

6 蒲強(qiáng);基于獨(dú)立分量分析的語(yǔ)義聚類技術(shù)在信息檢索中的應(yīng)用研究[D];電子科技大學(xué);2010年

7 計(jì)峰;自然語(yǔ)言處理中序列標(biāo)注模型的研究[D];復(fù)旦大學(xué);2012年

8 杜偉夫;文本傾向性分析中的情感詞典構(gòu)建技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年

9 宋剛;普通話兒童早期動(dòng)詞習(xí)得：范疇、論元結(jié)構(gòu)與句法線索[D];北京語(yǔ)言大學(xué);2009年

10 周亦鵬;基于軟件人的情境主題分析及應(yīng)用研究[D];北京科技大學(xué);2012年

相關(guān)碩士學(xué)位論文前10條

1 宋原;中文句間關(guān)系識(shí)別及其應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2013年

2 王風(fēng)娥;漢語(yǔ)文本中的時(shí)間關(guān)系識(shí)別技術(shù)研究[D];山西大學(xué);2012年

3 劉莉;中文時(shí)間事件關(guān)系識(shí)別的方法研究[D];重慶大學(xué);2012年

4 孫輝;事件時(shí)序關(guān)系識(shí)別的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2010年

5 焦福增;基于特征的產(chǎn)品評(píng)論挖掘關(guān)鍵問(wèn)題研究[D];山東大學(xué);2013年

6 顧雪峰;基于動(dòng)態(tài)粒度思想的實(shí)體關(guān)系識(shí)別方法研究[D];山西大學(xué);2006年

7 林永志;基于語(yǔ)義關(guān)系識(shí)別的二次檢索[D];上海交通大學(xué);2009年

8 程佳;熱點(diǎn)新聞間關(guān)系的研究[D];上海交通大學(xué);2011年

9 劉颯;專業(yè)領(lǐng)域可比語(yǔ)料的構(gòu)建與評(píng)價(jià)研究[D];南京理工大學(xué);2012年

10 丁溪源;基于大規(guī)模語(yǔ)料的中文新詞抽取算法的設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2011年

本文編號(hào)：2421103

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2421103.html

上一篇：面向臨床路徑的病案質(zhì)量監(jiān)控體系研究
下一篇：基于逐點(diǎn)互信息的查詢結(jié)構(gòu)分析

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文句間關(guān)系識(shí)別及其應(yīng)用研究