基于統(tǒng)計的漢語分詞在機械產品設計中的應用
【圖文】:
并且隨著主觀、客觀世界的發(fā)展而變化。概念通過詞匯表達,因此可以說概念是詞匯的思想內容,而詞匯則是概念形式。在語言理解中,要做到深刻地理解詞匯的含義,就必須有一種能夠達概念含義的知識表達方式,建立這種知識表示方式,則必須對概念的內延有充分的認識[38]。概念的內涵[36]是指反映在概念中的事物的特性或本質,包括概念所有的性質: 三角形有三條邊;四邊形有四個角。概念的外延是指反映在概念中的一一類類的事物,,包括概念的所有實例。一般地說,外延是關鍵屬性所構成兒空間。例如:三角形的關鍵屬性是三條邊或者兩條邊與他們所夾的角。概念的內涵和外延之間的約束關系滿足“內涵與外延的反比例關系定律”。律說明了概念的內涵和外延之間存在著反比例關系,即概念的內涵增多,縮;反之,內涵減少,外延就擴大[35]。概念的外延也是一個概念,稱為,抽象成度高的概念被稱為父概念。概念的內涵與外延關系可以用圖 2.1 來
12 14。例如,如果 為“變化多端”,則相應的1412S1 2 3C為“變化”。給定一個句子(或字串)就可以構造一個分詞有向圖:將候選詞對應有向圖中的頂點,這些候選詞是利用改進的最大匹配法得到的最長詞或次長詞。候選詞之間的接續(xù)關系對應有向圖中的有向邊。假設初始待切分字串為 ,其中為單個漢字,n 為字串長度首先建立有向圖的起始節(jié)點,起始節(jié)點為 start,從句首(起始節(jié)點的結束位置 0)開始用最大匹配法切分出 ,不妨設然后在最后一個漢字后再加一個漢字,若C C 是一個詞則記錄下來,若不是則繼續(xù)增加漢字直到長度達到首字的最長詞的長度,再以 為首字重復上述過程。在有向圖中加入末尾節(jié)點 end。由有向圖 D=(V,A)的形式表達出來,V表示節(jié)點的集合,A 表示邊的集合。(實線所構成的圖)1 2 i n C C ...C ...C12w2C iC i 1,2,12 1 2w C C......n 比如例 1:“他說的確實在理”利用改進的最大匹配法可以得到以下幾種結果:結果 1:他//說//的//確實//在理結果 2:他//說//的確//實在//理結果 3:他//說//的確//實//在理將上面組合用有向圖的形式表現出來(實線連接),如圖 3.1 所示
【學位授予單位】:西安電子科技大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TH122;TP391.1
【參考文獻】
相關期刊論文 前10條
1 劉春輝;金順福;劉國華;李穎;;基于優(yōu)化最大匹配與統(tǒng)計結合的漢語分詞方法[J];燕山大學學報;2009年02期
2 范繼淹;徐志敏;;自然語言理解的理論和方法[J];國外語言學;1980年05期
3 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當代語言學;2001年01期
4 衛(wèi)乃興;基于語料庫和語料庫驅動的詞語搭配研究[J];當代語言學;2002年02期
5 黃德根,朱和合,王昆侖,楊元生,鐘萬勰;基于最長次長匹配的漢語自動分詞[J];大連理工大學學報;1999年06期
6 吳應良,韋崗,李海洲;一種基于N-gram模型和機器學習的漢語分詞算法[J];電子與信息學報;2001年11期
7 劉挺,吳巖,王開鑄;最大概率分詞問題及其解法[J];哈爾濱工業(yè)大學學報;1998年06期
8 張長利,赫楓齡,左萬利;一種基于后綴數組的無詞典分詞方法[J];吉林大學學報(理學版);2004年04期
9 費洪曉,康松林,朱小娟,謝文彪;基于詞頻統(tǒng)計的中文分詞的研究[J];計算機工程與應用;2005年07期
10 吳建勝,戰(zhàn)學剛,遲呈英;一種基于自動機的分詞方法[J];計算機工程與應用;2005年08期
相關博士學位論文 前2條
1 楊梅;現代漢語合成詞構詞研究[D];南京師范大學;2006年
2 李沛剛;基于功構模式的產品概念設計理論和方法研究[D];山東大學;2010年
相關碩士學位論文 前3條
1 白慧;基于產品設計領域的名詞短語語義分析[D];西安電子科技大學;2004年
2 張小林;機械產品設計領域的自然語言理解中名詞性短語的語義分析[D];西安電子科技大學;2005年
3 劉陽;“隱性小詞表+專業(yè)小詞庫”的自動分詞技術研究[D];湖南師范大學;2007年
本文編號:2573526
本文鏈接:http://sikaile.net/kejilunwen/jixiegongcheng/2573526.html