中文句間關(guān)系識(shí)別及其應(yīng)用研究
[Abstract]:With the rapid development of the Internet and the maturation of the underlying information extraction technology, Internet applications, such as search engines, have put forward higher requirements for text analysis, not only to understand a sentence, but also to understand a text. Text semantic analysis has gradually attracted much attention. Intersentence relations play an important role in the analysis of text semantics and in all fields of natural language processing and information retrieval. The application of causality in intersentence relations is obvious. The relationship between sentences refers to the semantic relation between two text units in a text. This paper makes a systematic study on the relationship between Chinese sentences. First of all, we construct a corpus of 1096 texts to analyze the tagging content of the corpus, so as to explore the linguistic characteristics of the relationship between Chinese sentences. This paper analyzes the semantic ambiguity among the relationships between sentences. The relationship between sentences can be divided into two categories: the explicit relationship and the implicit one. This paper studies the two types of relations according to their linguistic characteristics. Showing the relationship between sentences refers to the relationship between two text units with obvious connection words. Through the analysis of the corpus, it is found that the correlation words have strong representativeness for the relationship between sentences. Therefore, the method of association word rules is used to study the relationship recognition between explicit sentences, and it is found that the method of association word rules has achieved good results in the recognition of explicit relations. A more ideal result is obtained by combining machine learning with rules in a further step, in which the F value of conditional relation reaches 94.93. The relationship between implicit sentences is more difficult and challenging than the explicit relation because there are no obvious relevance words to correlate two text units. Therefore, the recognition method based on machine learning is adopted. The maximum entropy model and the SVM model are used to model the model, and the corresponding characteristics are extracted for the implicit relation. The experimental results show that the SVM model has better experimental results, and the F value of the maximum extended relationship reaches 72.36. At the same time, the features used in the experiment are analyzed, among which the key words are the most excellent, which plays a very important role in each relationship. Because of the restrictions on the quantity of the training corpus, this paper uses the filtered explicit relevance words to extract a large number of relational examples for causality, and forms an implicit relationship after removing the associated words, and adds them to the training corpus. The experimental results show that the F value of the experimental results is obviously improved by this method. Finally, this paper investigates the application of intersentence relationship in event relationship recognition. Taking event causality as an example, it is found that the effect of event causality recognition after adding the feature of inter-sentence relationship is significantly improved than that of the traditional experimental method.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 洪留榮;王耀才;;數(shù)學(xué)公式中字符和符號(hào)間空間關(guān)系的識(shí)別[J];計(jì)算機(jī)工程與應(yīng)用;2006年12期
2 羅志成;馬費(fèi)成;吳曉東;宋倩倩;;從維基分類系統(tǒng)構(gòu)建中文語(yǔ)義詞典研究[J];信息系統(tǒng)學(xué)報(bào);2008年02期
3 肖建于;王潛平;洪留榮;;基于凸殼和模糊識(shí)別的數(shù)學(xué)公式識(shí)別[J];計(jì)算機(jī)應(yīng)用與軟件;2008年05期
4 張合;王曉東;楊照巖;;本體驅(qū)動(dòng)的面向主題的網(wǎng)頁(yè)關(guān)系識(shí)別[J];河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年02期
5 張巍;于洋;游宏梁;;面向詞匯知識(shí)庫(kù)自動(dòng)構(gòu)建的概念術(shù)語(yǔ)關(guān)系識(shí)別[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2009年11期
6 仲兆滿;劉宗田;;利用事件影響關(guān)系識(shí)別文本集合中重要事件的方法[J];模式識(shí)別與人工智能;2010年03期
7 諸葛理繡;王軍華;周晨;;基于信息系統(tǒng)架構(gòu)的信息資產(chǎn)分類與關(guān)系識(shí)別[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年07期
8 李文翔,晏蒲柳,張濱,夏德麟;基于語(yǔ)料庫(kù)的關(guān)聯(lián)詞識(shí)別方法[J];計(jì)算機(jī)工程與應(yīng)用;2004年07期
9 莊成龍;錢(qián)龍華;周國(guó)棟;;基于樹(shù)核函數(shù)的實(shí)體語(yǔ)義關(guān)系抽取方法研究[J];中文信息學(xué)報(bào);2009年01期
10 張奇;金培權(quán);岳麗華;;基于CRF的網(wǎng)頁(yè)動(dòng)態(tài)關(guān)系抽取研究[J];中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào);2010年11期
相關(guān)會(huì)議論文 前10條
1 游旭群;楊治良;;視覺(jué)空間關(guān)系識(shí)別中的認(rèn)知加工特性研究[A];第九屆全國(guó)心理學(xué)學(xué)術(shù)會(huì)議文摘選集[C];2001年
2 劉子軍;馮白翎;鄭遠(yuǎn)宏;;幼女被奸后大出血鑒定1例[A];中國(guó)法醫(yī)學(xué)會(huì)全國(guó)第十次法醫(yī)臨床學(xué)學(xué)術(shù)研討會(huì)論文集[C];2007年
3 李丹;羅智勇;;基于序列模式挖掘的人物關(guān)系識(shí)別[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
4 姚天f ;;一種用于漢語(yǔ)信息抽取的詞匯本體[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
5 莊成龍;錢(qián)龍華;周國(guó)棟;;基于樹(shù)核函數(shù)的實(shí)體關(guān)系抽取方法研究[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
6 劉德榮;王永成;;基于詞典和語(yǔ)料庫(kù)的概念內(nèi)聚度研究[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
7 劉海濤;;影響依存句法分析的因素探討[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
8 唐永明;王小捷;文娟;;基于關(guān)聯(lián)詞的復(fù)句語(yǔ)言模型[A];第三屆中國(guó)智能計(jì)算大會(huì)論文集[C];2009年
9 劉星華;;如何區(qū)別和確定某些定語(yǔ)從句和說(shuō)明從句[A];國(guó)際交流學(xué)院科研論文集(第一期)[C];1994年
10 李向陽(yáng);張亞非;;一種基于語(yǔ)義的漢語(yǔ)短語(yǔ)識(shí)別方法[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
相關(guān)重要報(bào)紙文章 前10條
1 華靜;七大誘惑誘發(fā)公務(wù)員熱[N];中國(guó)改革報(bào);2006年
2 本報(bào)記者 秦志勇 通訊員 溫天慶 方海波;和諧—合力 創(chuàng)新—活力 發(fā)展—助力 支持—?jiǎng)恿N];人民政協(xié)報(bào);2006年
3 通訊員 盧丹;讓節(jié)約成為我們的自覺(jué)行動(dòng)[N];中國(guó)石油報(bào);2006年
4 本報(bào)記者 曹秀娟邋實(shí)習(xí)生 李濤;熱議省城四個(gè)環(huán)保話題[N];山西日?qǐng)?bào);2008年
5 記者 洪奕宜 通訊員 粵紀(jì)宣;反腐促廉政 亮劍為民生[N];南方日?qǐng)?bào);2008年
6 舒伊;復(fù)合肥;2005繼續(xù)輝煌?[N];中華合作時(shí)報(bào);2005年
7 郭兆平 楊_g;省城空氣質(zhì)量報(bào)告[N];山西日?qǐng)?bào);2006年
8 曹保順;2004年高考語(yǔ)文虛詞解析[N];中國(guó)教育報(bào);2004年
9 本報(bào)赴北京報(bào)道組 李煊清 華大學(xué)學(xué)生 郭賈雪 點(diǎn)評(píng):中國(guó)新聞出版報(bào)副總編輯 張秀平;“鳥(niǎo)巢樂(lè)團(tuán)”指揮人[N];河南日?qǐng)?bào);2006年
10 賈光;從保健酒業(yè)行業(yè)看名牌效應(yīng)[N];中國(guó)工業(yè)報(bào);2007年
相關(guān)博士學(xué)位論文 前10條
1 張海軍;基于大規(guī)模語(yǔ)料的中文新詞識(shí)別技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
2 劉健;基于近似文本分析的意見(jiàn)挖掘[D];上海大學(xué);2007年
3 文娟;統(tǒng)計(jì)語(yǔ)言模型的研究與應(yīng)用[D];北京郵電大學(xué);2010年
4 穆一夫;基于認(rèn)知的非結(jié)構(gòu)化信息抽取關(guān)鍵技術(shù)與算法研究[D];中國(guó)礦業(yè)大學(xué)(北京);2013年
5 張瑞朋;現(xiàn)代漢語(yǔ)書(shū)面語(yǔ)中跨標(biāo)點(diǎn)句句法關(guān)系約束條件的研究[D];北京語(yǔ)言大學(xué);2007年
6 蒲強(qiáng);基于獨(dú)立分量分析的語(yǔ)義聚類技術(shù)在信息檢索中的應(yīng)用研究[D];電子科技大學(xué);2010年
7 計(jì)峰;自然語(yǔ)言處理中序列標(biāo)注模型的研究[D];復(fù)旦大學(xué);2012年
8 杜偉夫;文本傾向性分析中的情感詞典構(gòu)建技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年
9 宋剛;普通話兒童早期動(dòng)詞習(xí)得:范疇、論元結(jié)構(gòu)與句法線索[D];北京語(yǔ)言大學(xué);2009年
10 周亦鵬;基于軟件人的情境主題分析及應(yīng)用研究[D];北京科技大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 宋原;中文句間關(guān)系識(shí)別及其應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2013年
2 王風(fēng)娥;漢語(yǔ)文本中的時(shí)間關(guān)系識(shí)別技術(shù)研究[D];山西大學(xué);2012年
3 劉莉;中文時(shí)間事件關(guān)系識(shí)別的方法研究[D];重慶大學(xué);2012年
4 孫輝;事件時(shí)序關(guān)系識(shí)別的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2010年
5 焦福增;基于特征的產(chǎn)品評(píng)論挖掘關(guān)鍵問(wèn)題研究[D];山東大學(xué);2013年
6 顧雪峰;基于動(dòng)態(tài)粒度思想的實(shí)體關(guān)系識(shí)別方法研究[D];山西大學(xué);2006年
7 林永志;基于語(yǔ)義關(guān)系識(shí)別的二次檢索[D];上海交通大學(xué);2009年
8 程佳;熱點(diǎn)新聞間關(guān)系的研究[D];上海交通大學(xué);2011年
9 劉颯;專業(yè)領(lǐng)域可比語(yǔ)料的構(gòu)建與評(píng)價(jià)研究[D];南京理工大學(xué);2012年
10 丁溪源;基于大規(guī)模語(yǔ)料的中文新詞抽取算法的設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2011年
本文編號(hào):2421103
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2421103.html