一種基于流形距離的中文語塊聚類分析方法
本文關(guān)鍵詞:一種基于流形距離的中文語塊聚類分析方法
更多相關(guān)文章: 語塊分析 流形距離 層次聚類 語法功能空間
【摘要】:將中文語塊分析看做詞在句子內(nèi)部聚類并標(biāo)記語塊類別的過程,建立了中文語塊分析的聚類模型。首先構(gòu)建詞的語法功能空間,使用ISOMAP方法重構(gòu)詞空間的低維流形嵌入,進而考察詞在低維空間中的分布情況。在使用層次聚類方法分析語塊時,使用流形上的距離替代傳統(tǒng)的歐式距離,在算法復(fù)雜度可以接受的范圍內(nèi),提高了語塊分析效果。
【作者單位】: 國防科學(xué)技術(shù)大學(xué)電子科學(xué)與工程學(xué)院;長江日報報業(yè)集團;
【基金】:新聞出版重大科技工程項目(1041STC40889)資助
【分類號】:H146
【正文快照】: 中文語塊分析(chunking)是淺層句法分析(sha-llow parsing)中最主要的任務(wù)[1],對機器翻譯、信息檢索等自然語言處理具有重要作用。目前對中文語塊的定義尚未形成公認的權(quán)威解釋,沿用Abney[2]的觀點,中文語塊(下文皆稱語塊)是符合一定語法功能的非遞歸短語。每個語塊都有一個中
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 馮志偉;;特思尼耶爾的從屬關(guān)系語法[J];國外語言學(xué);1983年01期
2 孫廣路;王曉龍;劉秉權(quán);關(guān)毅;;基于詞聚類特征的統(tǒng)計中文組塊分析模型[J];電子學(xué)報;2008年12期
3 楊震;范科峰;雷建軍;郭軍;;基于語義的文本流形研究[J];電子學(xué)報;2009年03期
4 梁穎紅;趙鐵軍;于浩;姚健民;徐冰;;基于改進K-均值聚類的漢語語塊識別[J];哈爾濱工業(yè)大學(xué)學(xué)報;2007年07期
5 王自強;錢旭;;基于流形學(xué)習(xí)和SVM的Web文檔分類算法[J];計算機工程;2009年15期
6 孫吉貴;劉杰;趙連宇;;聚類算法研究[J];軟件學(xué)報;2008年01期
7 周俊生;戴新宇;陳家駿;曲維光;;基于大間隔方法的漢語組塊分析[J];軟件學(xué)報;2009年04期
8 公茂果;王爽;馬萌;曹宇;焦李成;馬文萍;;復(fù)雜分布數(shù)據(jù)的二階段聚類算法[J];軟件學(xué)報;2011年11期
9 王娜;杜海峰;王孫安;;一種基于流形距離的迭代優(yōu)化聚類算法[J];西安交通大學(xué)學(xué)報;2009年05期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 鄒宏梅;組塊識別技術(shù)的研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2006年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 趙Z,
本文編號:1233770
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/1233770.html