基于概率分析與規(guī)則約束的詞組識別研究
本文選題:自然語言處理 切入點(diǎn):短語識別 出處:《昆明理工大學(xué)》2017年碩士論文
【摘要】:當(dāng)前,在大數(shù)據(jù)浪潮的背景下,各種各樣的海量數(shù)據(jù)都或多或少地需要自然語言處理領(lǐng)域相關(guān)技術(shù)的支撐,從而借此發(fā)現(xiàn)數(shù)據(jù)背后的大量有價值的信息。也正因如此,自然語言處理技術(shù)的發(fā)展壯大是一種必然的大趨勢所向。而詞組(短語)識別研究屬于自然語言處理技術(shù)中應(yīng)用基礎(chǔ)研究的一個重要子領(lǐng)域,屬于淺層分析范疇。而淺層句法分析的這種“分而治之”的思路為完整句法分析的消歧提供了很大幫助,因此針對詞組的提取研究是非常有價值和意義的。本文在現(xiàn)有的詞組研究基礎(chǔ)上,提出了一種新的短語識別模型,主要內(nèi)容如下:(1)嘗試面向一般自然語言詞組,理論闡述如何用一套比較通用不繁雜的模型來達(dá)到短語識別的目的,即通過基于概率分析與規(guī)則約束相融合的方法,并提出結(jié)合度的概念進(jìn)行描述說明。(2)在實(shí)驗(yàn)部分,以英語語種中的動詞短語為例進(jìn)行實(shí)踐和說明,主要解決的問題是二元非嵌套動詞短語和二元嵌套動詞短語以及三元動詞短語這三種情況下的識別抽取。具體的實(shí)現(xiàn)部分側(cè)重通過語料庫訓(xùn)練、結(jié)合度分析、相似度計(jì)算、數(shù)據(jù)平滑處理和規(guī)則約束以及模擬短語詞典輔助等方法的融合,從而實(shí)現(xiàn)動詞短語的識別抽取目的。系統(tǒng)實(shí)現(xiàn)所選用的編程語言為Java,測試平臺通過Java Web的形式進(jìn)行測試和分析。(3)綜合實(shí)驗(yàn)結(jié)果,系統(tǒng)在基于概率分析和規(guī)則約束相融合的前提條件下,其最好的識別效果是準(zhǔn)確率達(dá)到88%,召回率達(dá)到90%。這也說明了本文的短語識別框架是有效可行的。綜上,論文的創(chuàng)新點(diǎn)主要有以下三點(diǎn):(1)通過概率分析和適當(dāng)規(guī)則相結(jié)合的方式,提出結(jié)合度的概念,探索一般自然語言中的短語識別問題;(2)將詞語相似度計(jì)算運(yùn)用于數(shù)據(jù)稀疏問題;(3)系統(tǒng)可實(shí)現(xiàn)動態(tài)語料庫的功能。
[Abstract]:At present, against the background of big data's wave, all kinds of massive data more or less need the support of the related technology in the field of natural language processing, so as to find a large amount of valuable information behind the data.Therefore, the development of natural language processing technology is an inevitable trend.Phrase recognition is an important subfield of applied basic research in natural language processing and belongs to the category of shallow analysis.The idea of "divide and conquer" in shallow syntactic analysis provides a great help for the disambiguation of complete syntactic analysis, so it is of great value and significance to study the extraction of phrases.In this paper, a new phrase recognition model is proposed based on the existing research on phrases, the main contents of which are as follows: 1) try to face the general natural language phrases.The theory explains how to achieve the purpose of phrase recognition by using a set of relatively common and uncomplicated models, that is, through the method of combining probability analysis with rule constraints, and puts forward the concept of combination degree to describe and explain in the experiment part.Taking the verb phrase in English language as an example, the main problem to be solved is the identification and extraction of binary unnested verb phrase, binary nested verb phrase and ternary verb phrase.The specific implementation focuses on the fusion of corpus training, combination analysis, similarity calculation, data smoothing and rule constraint, as well as analog phrase dictionary assistance, so as to achieve the purpose of verb phrase recognition and extraction.The programming language used in the system is Java. The test platform is tested and analyzed by Java Web. The system is based on the premise of probability analysis and rule constraint fusion.The best recognition effect is 88% accuracy and 90% recall.This also shows that the framework of phrase recognition in this paper is effective and feasible.In summary, the innovations of this paper are as follows: 1) through the combination of probability analysis and appropriate rules, the concept of combination degree is put forward.This paper explores the phrase recognition problem in general natural languages and applies the word similarity calculation to the data sparsity problem. The system can realize the function of dynamic corpus.
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄒崇理;;關(guān)于組合范疇語法CCG[J];重慶理工大學(xué)學(xué)報(社會科學(xué));2011年08期
2 劉榮;王奕凱;;利用統(tǒng)計(jì)量和語言學(xué)規(guī)則提取多字詞表達(dá)[J];太原理工大學(xué)學(xué)報;2011年02期
3 嚴(yán)華;王立非;;PowerGREP與語料庫加工[J];外語電化教學(xué);2010年03期
4 白妙青;鄭家恒;;基于最大熵方法進(jìn)行動詞搭配的自動標(biāo)注[J];計(jì)算機(jī)工程與應(yīng)用;2009年03期
5 代翠;周俏麗;蔡東風(fēng);楊潔;;統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語最長名詞短語自動識別[J];中文信息學(xué)報;2008年06期
6 周強(qiáng);;漢語基本塊規(guī)則的自動學(xué)習(xí)和擴(kuò)展進(jìn)化[J];清華大學(xué)學(xué)報(自然科學(xué)版);2008年01期
7 周強(qiáng);;漢語基本塊描述體系[J];中文信息學(xué)報;2007年03期
8 王素格;楊軍玲;張武;;自動獲取漢語詞語搭配[J];中文信息學(xué)報;2006年06期
9 劉里;何中市;;基于關(guān)鍵詞語的文本特征選擇及權(quán)重計(jì)算方案[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年06期
10 相克俊,黃希玲;機(jī)器翻譯與詞語搭配的研究——兼與劉莎女士的“全息翻譯技術(shù)”商榷[J];電子科技大學(xué)學(xué)報(社科版);2000年02期
相關(guān)博士學(xué)位論文 前3條
1 劉榮;面向教育領(lǐng)域的固定短語提取方法研究[D];北京語言大學(xué);2009年
2 陳慧;基于DCC動態(tài)流通語料庫的中文組織名考察與研究[D];北京語言大學(xué);2008年
3 申修瑛;現(xiàn)代漢語詞語搭配研究[D];復(fù)旦大學(xué);2007年
相關(guān)碩士學(xué)位論文 前4條
1 祖麗皮亞·買買提明;維吾爾語基本動詞短語自動識別研究[D];北京郵電大學(xué);2012年
2 繆苗;VNC結(jié)構(gòu)多詞表達(dá)的抽取與分類[D];北京郵電大學(xué);2011年
3 于靜;漢語句子的組塊識別研究[D];大連理工大學(xué);2008年
4 黃元萃;漢語基本名詞短語的自動識別模型[D];大連理工大學(xué);2001年
,本文編號:1701089
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1701089.html