基于詞間關(guān)聯(lián)度度量的維吾爾文本自動切分方法
本文關(guān)鍵詞:基于詞間關(guān)聯(lián)度度量的維吾爾文本自動切分方法
更多相關(guān)文章: 語義串 互信息 t-測試差 鄰接對熵 單詞結(jié)合規(guī)則
【摘要】:提出一種基于詞間關(guān)聯(lián)度度量的維吾爾文本自動切分方法。該方法從大規(guī)模生語料庫中自動獲取維吾爾文單詞Bi-gram及上下文語境信息,在充分考慮維吾爾文單詞間結(jié)合規(guī)則的前提下,將相鄰單詞間的互信息、t-測試差及雙詞鄰接對熵的線性融合作為組合統(tǒng)計量(dmd),度量文本中相鄰單詞之間的關(guān)聯(lián)程度。以dmd度量的弱關(guān)聯(lián)的詞間位置作為切分點進行自動切分,得到語義及結(jié)構(gòu)完整的詞串,而不僅僅是以空格隔開的單詞。在大規(guī)模文本語料上進行的測試表明,該方法的切分準(zhǔn)確率達到88.21%。
【作者單位】: 新疆大學(xué)信息科學(xué)與工程學(xué)院;
【關(guān)鍵詞】: 語義串 互信息 t-測試差 鄰接對熵 單詞結(jié)合規(guī)則
【基金】:國家自然科學(xué)基金(61262062;61163033;61262063;61562083) 新疆維吾爾自治區(qū)高校科研計劃重點項目(XJEDU2012I11)資助
【分類號】:TP391.1
【正文快照】: 文本切分是自然語言處理中的第一步,也是關(guān)鍵的一步。采取何種方法及切分難易程度,在不同語言環(huán)境下有所不同,但最終目的是一樣的,即從文本中獲取能表達具體、完整語義的語言單元的集合。這些語言單元在很多情況下是突破詞語概念界限的語義串[1 2],是文本中上下文任意多個連
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 何賽克;王小捷;董遠;張韜政;白雪;;歸一化的鄰接變化數(shù)方法在中文分詞中的應(yīng)用[J];中文信息學(xué)報;2010年01期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 索娟娟;于寶英;;基于灰熵的漢語機器翻譯消歧研究[J];科技信息;2012年03期
2 吐爾地·托合提;艾克白爾·帕塔爾;艾斯卡爾·艾木都拉;;維吾爾文無監(jiān)督自動切分及無監(jiān)督特征選擇[J];模式識別與人工智能;2013年09期
3 周超;嚴馨;余正濤;洪旭東;線巖團;;融合詞頻特性及鄰接變化數(shù)的微博新詞識別[J];山東大學(xué)學(xué)報(理學(xué)版);2015年03期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳鍇,柴佩琪;提高英語語音語料庫自動切分準(zhǔn)確性的方法[J];微電子學(xué)與計算機;2004年05期
2 王啟祥,王錫江,陳未競;日漢機器翻譯中詞的自動切分技術(shù)[J];中文信息學(xué)報;1988年03期
3 施建軍;機器單詞詞典和日語單詞的自動切分[J];外語電化教學(xué);1994年04期
4 謝金寶,孫介銘;機器翻譯中的段、句、字自動切分技術(shù)[J];計算機工程與設(shè)計;1987年06期
5 祝瑤卿,柴佩琪;基于HMM連接語音自動切分中的初始化模型研究[J];微型電腦應(yīng)用;2003年07期
6 王麗娟;曹志剛;;TTS語音單元邊界的自動切分[J];微電子學(xué)與計算機;2005年12期
7 張金溪;李永宏;單廣榮;李照耀;江靜;;面向語音合成的藏語單音素與三音素自動切分算法研究[J];計算機應(yīng)用研究;2013年11期
8 劉映杰,馬義德,劉悅,袁敏,段磊;連續(xù)漢語音流中聲韻母切分研究[J];甘肅科學(xué)學(xué)報;2005年03期
9 陳鍇,柴佩琪;基于HMM的中文語音自動切分中的靜音添加[J];計算機工程;2004年09期
10 姚徐;于洪志;單廣榮;;音段自動切分系統(tǒng)的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2008年13期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 肖鏡輝;劉秉權(quán);;粵拼序列自動切分算法的研究[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
2 杜嘉;曹振海;祖漪清;;不定長語音單元在語音自動切分中的運用[A];第九屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2007年
3 那順烏日圖;雪艷;葉嘉明;;現(xiàn)代蒙古語語料庫加工技術(shù)的新進展——新一代蒙古語詞語自動切分與標(biāo)注系(Darhan Tagging System)[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集[C];2005年
4 陳韜;李昌立;莫福源;;漢語聲/韻母自動切分方法的研究[A];第二屆全國人機語音通訊學(xué)術(shù)會議論文集[C];1992年
5 邰曉英;小田裕樹;北研二;;基于字符N元語法模型的單詞自動切分[A];第十五屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1998年
6 李小明;易立夫;楊靜;孫金城;;一種新的針對漢語TTS的韻律詞自動切分方法[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 許中衛(wèi);基于雙向搜索的ILP算法構(gòu)建漢語語義自動切分系統(tǒng)[D];安徽大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 杜守栓;方言口音普通話語音自動切分算法研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2006年
2 袁曉亮;漢語語音合成中自動切分技術(shù)的研究[D];北京郵電大學(xué);2007年
,本文編號:811667
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/811667.html