天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于概率分析與規(guī)則約束的詞組識別研究

發(fā)布時間:2018-04-02 16:01

  本文選題:自然語言處理 切入點(diǎn):短語識別 出處:《昆明理工大學(xué)》2017年碩士論文


【摘要】:當(dāng)前,在大數(shù)據(jù)浪潮的背景下,各種各樣的海量數(shù)據(jù)都或多或少地需要自然語言處理領(lǐng)域相關(guān)技術(shù)的支撐,從而借此發(fā)現(xiàn)數(shù)據(jù)背后的大量有價值的信息。也正因如此,自然語言處理技術(shù)的發(fā)展壯大是一種必然的大趨勢所向。而詞組(短語)識別研究屬于自然語言處理技術(shù)中應(yīng)用基礎(chǔ)研究的一個重要子領(lǐng)域,屬于淺層分析范疇。而淺層句法分析的這種“分而治之”的思路為完整句法分析的消歧提供了很大幫助,因此針對詞組的提取研究是非常有價值和意義的。本文在現(xiàn)有的詞組研究基礎(chǔ)上,提出了一種新的短語識別模型,主要內(nèi)容如下:(1)嘗試面向一般自然語言詞組,理論闡述如何用一套比較通用不繁雜的模型來達(dá)到短語識別的目的,即通過基于概率分析與規(guī)則約束相融合的方法,并提出結(jié)合度的概念進(jìn)行描述說明。(2)在實(shí)驗(yàn)部分,以英語語種中的動詞短語為例進(jìn)行實(shí)踐和說明,主要解決的問題是二元非嵌套動詞短語和二元嵌套動詞短語以及三元動詞短語這三種情況下的識別抽取。具體的實(shí)現(xiàn)部分側(cè)重通過語料庫訓(xùn)練、結(jié)合度分析、相似度計(jì)算、數(shù)據(jù)平滑處理和規(guī)則約束以及模擬短語詞典輔助等方法的融合,從而實(shí)現(xiàn)動詞短語的識別抽取目的。系統(tǒng)實(shí)現(xiàn)所選用的編程語言為Java,測試平臺通過Java Web的形式進(jìn)行測試和分析。(3)綜合實(shí)驗(yàn)結(jié)果,系統(tǒng)在基于概率分析和規(guī)則約束相融合的前提條件下,其最好的識別效果是準(zhǔn)確率達(dá)到88%,召回率達(dá)到90%。這也說明了本文的短語識別框架是有效可行的。綜上,論文的創(chuàng)新點(diǎn)主要有以下三點(diǎn):(1)通過概率分析和適當(dāng)規(guī)則相結(jié)合的方式,提出結(jié)合度的概念,探索一般自然語言中的短語識別問題;(2)將詞語相似度計(jì)算運(yùn)用于數(shù)據(jù)稀疏問題;(3)系統(tǒng)可實(shí)現(xiàn)動態(tài)語料庫的功能。
[Abstract]:At present, against the background of big data's wave, all kinds of massive data more or less need the support of the related technology in the field of natural language processing, so as to find a large amount of valuable information behind the data.Therefore, the development of natural language processing technology is an inevitable trend.Phrase recognition is an important subfield of applied basic research in natural language processing and belongs to the category of shallow analysis.The idea of "divide and conquer" in shallow syntactic analysis provides a great help for the disambiguation of complete syntactic analysis, so it is of great value and significance to study the extraction of phrases.In this paper, a new phrase recognition model is proposed based on the existing research on phrases, the main contents of which are as follows: 1) try to face the general natural language phrases.The theory explains how to achieve the purpose of phrase recognition by using a set of relatively common and uncomplicated models, that is, through the method of combining probability analysis with rule constraints, and puts forward the concept of combination degree to describe and explain in the experiment part.Taking the verb phrase in English language as an example, the main problem to be solved is the identification and extraction of binary unnested verb phrase, binary nested verb phrase and ternary verb phrase.The specific implementation focuses on the fusion of corpus training, combination analysis, similarity calculation, data smoothing and rule constraint, as well as analog phrase dictionary assistance, so as to achieve the purpose of verb phrase recognition and extraction.The programming language used in the system is Java. The test platform is tested and analyzed by Java Web. The system is based on the premise of probability analysis and rule constraint fusion.The best recognition effect is 88% accuracy and 90% recall.This also shows that the framework of phrase recognition in this paper is effective and feasible.In summary, the innovations of this paper are as follows: 1) through the combination of probability analysis and appropriate rules, the concept of combination degree is put forward.This paper explores the phrase recognition problem in general natural languages and applies the word similarity calculation to the data sparsity problem. The system can realize the function of dynamic corpus.
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 鄒崇理;;關(guān)于組合范疇語法CCG[J];重慶理工大學(xué)學(xué)報(社會科學(xué));2011年08期

2 劉榮;王奕凱;;利用統(tǒng)計(jì)量和語言學(xué)規(guī)則提取多字詞表達(dá)[J];太原理工大學(xué)學(xué)報;2011年02期

3 嚴(yán)華;王立非;;PowerGREP與語料庫加工[J];外語電化教學(xué);2010年03期

4 白妙青;鄭家恒;;基于最大熵方法進(jìn)行動詞搭配的自動標(biāo)注[J];計(jì)算機(jī)工程與應(yīng)用;2009年03期

5 代翠;周俏麗;蔡東風(fēng);楊潔;;統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語最長名詞短語自動識別[J];中文信息學(xué)報;2008年06期

6 周強(qiáng);;漢語基本塊規(guī)則的自動學(xué)習(xí)和擴(kuò)展進(jìn)化[J];清華大學(xué)學(xué)報(自然科學(xué)版);2008年01期

7 周強(qiáng);;漢語基本塊描述體系[J];中文信息學(xué)報;2007年03期

8 王素格;楊軍玲;張武;;自動獲取漢語詞語搭配[J];中文信息學(xué)報;2006年06期

9 劉里;何中市;;基于關(guān)鍵詞語的文本特征選擇及權(quán)重計(jì)算方案[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年06期

10 相克俊,黃希玲;機(jī)器翻譯與詞語搭配的研究——兼與劉莎女士的“全息翻譯技術(shù)”商榷[J];電子科技大學(xué)學(xué)報(社科版);2000年02期

相關(guān)博士學(xué)位論文 前3條

1 劉榮;面向教育領(lǐng)域的固定短語提取方法研究[D];北京語言大學(xué);2009年

2 陳慧;基于DCC動態(tài)流通語料庫的中文組織名考察與研究[D];北京語言大學(xué);2008年

3 申修瑛;現(xiàn)代漢語詞語搭配研究[D];復(fù)旦大學(xué);2007年

相關(guān)碩士學(xué)位論文 前4條

1 祖麗皮亞·買買提明;維吾爾語基本動詞短語自動識別研究[D];北京郵電大學(xué);2012年

2 繆苗;VNC結(jié)構(gòu)多詞表達(dá)的抽取與分類[D];北京郵電大學(xué);2011年

3 于靜;漢語句子的組塊識別研究[D];大連理工大學(xué);2008年

4 黃元萃;漢語基本名詞短語的自動識別模型[D];大連理工大學(xué);2001年



本文編號:1701089

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1701089.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3ee56***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
精品人妻一区二区三区四在线| 98精品永久免费视频| 日本中文在线不卡视频| 情一色一区二区三区四 | 正在播放国产又粗又长| 国产免费无遮挡精品视频| 欧美成人一区二区三区在线| 伊人色综合久久伊人婷婷| 激情亚洲一区国产精品久久| 91在线国内在线中文字幕| 国产精品免费福利在线| 东京热男人的天堂一二三区| 欧洲一级片一区二区三区| 欧美日韩乱一区二区三区| 在线观看免费无遮挡大尺度视频| 91久久国产福利自产拍| 日本不卡片一区二区三区| 青青久久亚洲婷婷中文网| 色婷婷日本视频在线观看| 日韩精品一级片免费看| 国产精品欧美一区二区三区| 精品一区二区三区三级视频| 亚洲国产四季欧美一区| 国产精品免费视频视频| 欧美熟妇一区二区在线| 日韩中文字幕免费在线视频| 激情爱爱一区二区三区| 久久成人国产欧美精品一区二区| 国产av一区二区三区久久不卡| 在线欧美精品二区三区| 色综合伊人天天综合网中文 | 国产精品成人一区二区在线 | 欧美一区二区在线日韩| 成年女人午夜在线视频| 日韩精品一区二区不卡| 深夜日本福利在线观看| 一个人的久久精彩视频| 国产又粗又猛又长又黄视频| 日韩一区二区三区在线欧洲| 中文字幕中文字幕一区二区| 午夜午夜精品一区二区|