基于詞間關(guān)聯(lián)度度量的維吾爾文本自動(dòng)切分方法
本文關(guān)鍵詞:基于詞間關(guān)聯(lián)度度量的維吾爾文本自動(dòng)切分方法
更多相關(guān)文章: 語(yǔ)義串 互信息 t-測(cè)試差 鄰接對(duì)熵 單詞結(jié)合規(guī)則
【摘要】:提出一種基于詞間關(guān)聯(lián)度度量的維吾爾文本自動(dòng)切分方法。該方法從大規(guī)模生語(yǔ)料庫(kù)中自動(dòng)獲取維吾爾文單詞Bi-gram及上下文語(yǔ)境信息,在充分考慮維吾爾文單詞間結(jié)合規(guī)則的前提下,將相鄰單詞間的互信息、t-測(cè)試差及雙詞鄰接對(duì)熵的線性融合作為組合統(tǒng)計(jì)量(dmd),度量文本中相鄰單詞之間的關(guān)聯(lián)程度。以dmd度量的弱關(guān)聯(lián)的詞間位置作為切分點(diǎn)進(jìn)行自動(dòng)切分,得到語(yǔ)義及結(jié)構(gòu)完整的詞串,而不僅僅是以空格隔開(kāi)的單詞。在大規(guī)模文本語(yǔ)料上進(jìn)行的測(cè)試表明,該方法的切分準(zhǔn)確率達(dá)到88.21%。
【作者單位】: 新疆大學(xué)信息科學(xué)與工程學(xué)院;
【關(guān)鍵詞】: 語(yǔ)義串 互信息 t-測(cè)試差 鄰接對(duì)熵 單詞結(jié)合規(guī)則
【基金】:國(guó)家自然科學(xué)基金(61262062;61163033;61262063;61562083) 新疆維吾爾自治區(qū)高?蒲杏(jì)劃重點(diǎn)項(xiàng)目(XJEDU2012I11)資助
【分類(lèi)號(hào)】:TP391.1
【正文快照】: 文本切分是自然語(yǔ)言處理中的第一步,也是關(guān)鍵的一步。采取何種方法及切分難易程度,在不同語(yǔ)言環(huán)境下有所不同,但最終目的是一樣的,即從文本中獲取能表達(dá)具體、完整語(yǔ)義的語(yǔ)言單元的集合。這些語(yǔ)言單元在很多情況下是突破詞語(yǔ)概念界限的語(yǔ)義串[1 2],是文本中上下文任意多個(gè)連
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 何賽克;王小捷;董遠(yuǎn);張韜政;白雪;;歸一化的鄰接變化數(shù)方法在中文分詞中的應(yīng)用[J];中文信息學(xué)報(bào);2010年01期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條
1 索娟娟;于寶英;;基于灰熵的漢語(yǔ)機(jī)器翻譯消歧研究[J];科技信息;2012年03期
2 吐?tīng)柕亍ね泻咸?艾克白爾·帕塔爾;艾斯卡爾·艾木都拉;;維吾爾文無(wú)監(jiān)督自動(dòng)切分及無(wú)監(jiān)督特征選擇[J];模式識(shí)別與人工智能;2013年09期
3 周超;嚴(yán)馨;余正濤;洪旭東;線巖團(tuán);;融合詞頻特性及鄰接變化數(shù)的微博新詞識(shí)別[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2015年03期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 陳鍇,柴佩琪;提高英語(yǔ)語(yǔ)音語(yǔ)料庫(kù)自動(dòng)切分準(zhǔn)確性的方法[J];微電子學(xué)與計(jì)算機(jī);2004年05期
2 王啟祥,王錫江,陳未競(jìng);日漢機(jī)器翻譯中詞的自動(dòng)切分技術(shù)[J];中文信息學(xué)報(bào);1988年03期
3 施建軍;機(jī)器單詞詞典和日語(yǔ)單詞的自動(dòng)切分[J];外語(yǔ)電化教學(xué);1994年04期
4 謝金寶,孫介銘;機(jī)器翻譯中的段、句、字自動(dòng)切分技術(shù)[J];計(jì)算機(jī)工程與設(shè)計(jì);1987年06期
5 ,幥,柴佩琪;基于HMM連接語(yǔ)音自動(dòng)切分中的初始化模型研究[J];微型電腦應(yīng)用;2003年07期
6 王麗娟;曹志剛;;TTS語(yǔ)音單元邊界的自動(dòng)切分[J];微電子學(xué)與計(jì)算機(jī);2005年12期
7 張金溪;李永宏;單廣榮;李照耀;江靜;;面向語(yǔ)音合成的藏語(yǔ)單音素與三音素自動(dòng)切分算法研究[J];計(jì)算機(jī)應(yīng)用研究;2013年11期
8 劉映杰,馬義德,劉悅,袁敏,段磊;連續(xù)漢語(yǔ)音流中聲韻母切分研究[J];甘肅科學(xué)學(xué)報(bào);2005年03期
9 陳鍇,柴佩琪;基于HMM的中文語(yǔ)音自動(dòng)切分中的靜音添加[J];計(jì)算機(jī)工程;2004年09期
10 姚徐;于洪志;單廣榮;;音段自動(dòng)切分系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2008年13期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條
1 肖鏡輝;劉秉權(quán);;粵拼序列自動(dòng)切分算法的研究[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
2 杜嘉;曹振海;祖漪清;;不定長(zhǎng)語(yǔ)音單元在語(yǔ)音自動(dòng)切分中的運(yùn)用[A];第九屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2007年
3 那順烏日?qǐng)D;雪艷;葉嘉明;;現(xiàn)代蒙古語(yǔ)語(yǔ)料庫(kù)加工技術(shù)的新進(jìn)展——新一代蒙古語(yǔ)詞語(yǔ)自動(dòng)切分與標(biāo)注系(Darhan Tagging System)[A];第十屆全國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年
4 陳韜;李昌立;莫福源;;漢語(yǔ)聲/韻母自動(dòng)切分方法的研究[A];第二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1992年
5 邰曉英;小田裕樹(shù);北研二;;基于字符N元語(yǔ)法模型的單詞自動(dòng)切分[A];第十五屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1998年
6 李小明;易立夫;楊靜;孫金城;;一種新的針對(duì)漢語(yǔ)TTS的韻律詞自動(dòng)切分方法[A];第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2002年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 許中衛(wèi);基于雙向搜索的ILP算法構(gòu)建漢語(yǔ)語(yǔ)義自動(dòng)切分系統(tǒng)[D];安徽大學(xué);2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 杜守栓;方言口音普通話語(yǔ)音自動(dòng)切分算法研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
2 袁曉亮;漢語(yǔ)語(yǔ)音合成中自動(dòng)切分技術(shù)的研究[D];北京郵電大學(xué);2007年
,本文編號(hào):811667
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/811667.html