天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 機械論文 >

基于統(tǒng)計的漢語分詞在機械產品設計中的應用

發(fā)布時間:2020-01-27 05:00
【摘要】:漢語分詞是自然語言理解中的一個主要組成部分,同時也是文本挖掘,機器翻譯,信息檢索的基礎。由于漢語分詞問題本身的復雜性,故而尋求準確有效的漢語分詞方法成為自然語言理解的主要研究內容之一。本文設計了基于統(tǒng)計和語義分析相結合的分詞模型,將其應用在產品的設計過程中。通過該模型將用戶以自然語言形式描述的需求進行切分,將切分結果經過自然語言理解系統(tǒng)的其余模塊的處理轉化成為計算機能夠識別的概念設計要求。 本文分析了現有漢語分詞的方法及其主要存在的問題,研究了基于語料庫的分詞方法及其關鍵技術,結合現有的分詞方法,提出將機械分詞、語料庫統(tǒng)計分詞和語義分析相結合的分詞模型,并將此分詞模型嵌入到某領域漢語理解系統(tǒng)之中。機械分詞階段,利用改進的最大匹配法,以求盡量得出所有的切分形式并用有向圖的形式表現出來,并且找出分詞中的歧義字段,對其進行消除歧義。語料庫統(tǒng)計階段,先將歧義字段中的各種常見搭配組合利用語料庫統(tǒng)計方法統(tǒng)計,統(tǒng)計其共現度和搭配情況,并把搭配情況反饋到統(tǒng)計詞典中,實現分詞系統(tǒng)和整個自然語言理解系統(tǒng)的自我完善和良性互動,同時對合成詞(“2+2”,“2+3”和“3+2”模式)的可信度進行統(tǒng)計;然后采用語義分析中的動名詞結構,結合概念從屬的知識表示方法,對分詞結果進一步消除歧義,提高了分詞系統(tǒng)的準確率,降低分詞系統(tǒng)的復雜度。最后結合實際將該分詞模型應用于產品設計的用戶需求分析領域。
【圖文】:

外延關,概念


并且隨著主觀、客觀世界的發(fā)展而變化。概念通過詞匯表達,因此可以說概念是詞匯的思想內容,而詞匯則是概念形式。在語言理解中,要做到深刻地理解詞匯的含義,就必須有一種能夠達概念含義的知識表達方式,建立這種知識表示方式,則必須對概念的內延有充分的認識[38]。概念的內涵[36]是指反映在概念中的事物的特性或本質,包括概念所有的性質: 三角形有三條邊;四邊形有四個角。概念的外延是指反映在概念中的一一類類的事物,,包括概念的所有實例。一般地說,外延是關鍵屬性所構成兒空間。例如:三角形的關鍵屬性是三條邊或者兩條邊與他們所夾的角。概念的內涵和外延之間的約束關系滿足“內涵與外延的反比例關系定律”。律說明了概念的內涵和外延之間存在著反比例關系,即概念的內涵增多,縮;反之,內涵減少,外延就擴大[35]。概念的外延也是一個概念,稱為,抽象成度高的概念被稱為父概念。概念的內涵與外延關系可以用圖 2.1 來

有向圖


12 14。例如,如果 為“變化多端”,則相應的1412S1 2 3C為“變化”。給定一個句子(或字串)就可以構造一個分詞有向圖:將候選詞對應有向圖中的頂點,這些候選詞是利用改進的最大匹配法得到的最長詞或次長詞。候選詞之間的接續(xù)關系對應有向圖中的有向邊。假設初始待切分字串為 ,其中為單個漢字,n 為字串長度首先建立有向圖的起始節(jié)點,起始節(jié)點為 start,從句首(起始節(jié)點的結束位置 0)開始用最大匹配法切分出 ,不妨設然后在最后一個漢字后再加一個漢字,若C C 是一個詞則記錄下來,若不是則繼續(xù)增加漢字直到長度達到首字的最長詞的長度,再以 為首字重復上述過程。在有向圖中加入末尾節(jié)點 end。由有向圖 D=(V,A)的形式表達出來,V表示節(jié)點的集合,A 表示邊的集合。(實線所構成的圖)1 2 i n C C ...C ...C12w2C iC i 1,2,12 1 2w C C......n 比如例 1:“他說的確實在理”利用改進的最大匹配法可以得到以下幾種結果:結果 1:他//說//的//確實//在理結果 2:他//說//的確//實在//理結果 3:他//說//的確//實//在理將上面組合用有向圖的形式表現出來(實線連接),如圖 3.1 所示
【學位授予單位】:西安電子科技大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TH122;TP391.1

【參考文獻】

相關期刊論文 前10條

1 劉春輝;金順福;劉國華;李穎;;基于優(yōu)化最大匹配與統(tǒng)計結合的漢語分詞方法[J];燕山大學學報;2009年02期

2 范繼淹;徐志敏;;自然語言理解的理論和方法[J];國外語言學;1980年05期

3 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當代語言學;2001年01期

4 衛(wèi)乃興;基于語料庫和語料庫驅動的詞語搭配研究[J];當代語言學;2002年02期

5 黃德根,朱和合,王昆侖,楊元生,鐘萬勰;基于最長次長匹配的漢語自動分詞[J];大連理工大學學報;1999年06期

6 吳應良,韋崗,李海洲;一種基于N-gram模型和機器學習的漢語分詞算法[J];電子與信息學報;2001年11期

7 劉挺,吳巖,王開鑄;最大概率分詞問題及其解法[J];哈爾濱工業(yè)大學學報;1998年06期

8 張長利,赫楓齡,左萬利;一種基于后綴數組的無詞典分詞方法[J];吉林大學學報(理學版);2004年04期

9 費洪曉,康松林,朱小娟,謝文彪;基于詞頻統(tǒng)計的中文分詞的研究[J];計算機工程與應用;2005年07期

10 吳建勝,戰(zhàn)學剛,遲呈英;一種基于自動機的分詞方法[J];計算機工程與應用;2005年08期

相關博士學位論文 前2條

1 楊梅;現代漢語合成詞構詞研究[D];南京師范大學;2006年

2 李沛剛;基于功構模式的產品概念設計理論和方法研究[D];山東大學;2010年

相關碩士學位論文 前3條

1 白慧;基于產品設計領域的名詞短語語義分析[D];西安電子科技大學;2004年

2 張小林;機械產品設計領域的自然語言理解中名詞性短語的語義分析[D];西安電子科技大學;2005年

3 劉陽;“隱性小詞表+專業(yè)小詞庫”的自動分詞技術研究[D];湖南師范大學;2007年



本文編號:2573526

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jixiegongcheng/2573526.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶b7991***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com