天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多策略的維吾爾文網(wǎng)頁(yè)識(shí)別方法

發(fā)布時(shí)間:2019-09-24 16:23
【摘要】:經(jīng)過(guò)對(duì)大量維吾爾文網(wǎng)站的調(diào)查與分析,該文從多語(yǔ)種混合網(wǎng)頁(yè)中針對(duì)維吾爾文網(wǎng)頁(yè)識(shí)別進(jìn)行了研究,這對(duì)維吾爾語(yǔ)信息處理工作起著關(guān)鍵作用。首先該文探討了維吾爾文不規(guī)范網(wǎng)頁(yè)的字符編碼轉(zhuǎn)換規(guī)則及原理,以此對(duì)不規(guī)范維吾爾文字符進(jìn)行了相應(yīng)的處理,之后介紹了基于修改的N-Gram方法和基于維吾爾語(yǔ)常用詞特征向量的兩種方法,其中后者融合了維吾爾文常用候選詞語(yǔ)料庫(kù)及向量空間模型(Vector Space Model)。使用三種不同類型的維吾爾文網(wǎng)頁(yè)文本作為本研究的數(shù)據(jù)集,在此基礎(chǔ)上驗(yàn)證了該文提出的網(wǎng)頁(yè)識(shí)別方法,以及采用不同的方法進(jìn)行了網(wǎng)頁(yè)識(shí)別的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,基于N-Gram的方法對(duì)正文較長(zhǎng)的新聞或論壇網(wǎng)頁(yè)的識(shí)別性能最佳,反而基于常用詞特征向量的方法對(duì)短文本的網(wǎng)頁(yè)識(shí)別性能優(yōu)越N-Gram。所提方法對(duì)維吾爾文網(wǎng)頁(yè)識(shí)別的整體性能達(dá)到90%以上,并驗(yàn)證了這兩種方法的有效性。
【作者單位】: 中國(guó)科學(xué)院新疆理化技術(shù)研究所;新疆民族語(yǔ)音語(yǔ)言信息處理重點(diǎn)實(shí)驗(yàn)室;中國(guó)科學(xué)院大學(xué);新疆師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院;
【基金】:國(guó)家自然科學(xué)基金(61662081) 新疆維吾爾自治區(qū)青年科技創(chuàng)新人才培養(yǎng)工程項(xiàng)目—面向維漢機(jī)器翻譯的維吾爾語(yǔ)命名實(shí)體識(shí)別研究(2014711006);新疆維吾爾自治區(qū)青年科技創(chuàng)新人才培養(yǎng)工程項(xiàng)目—維漢機(jī)器翻譯模型關(guān)鍵技術(shù)研究(2014721032) 新疆維吾爾自治區(qū)自然科學(xué)基金—基于多特征融合的復(fù)雜形態(tài)語(yǔ)言建模研究(2015211B034) 中科院戰(zhàn)略性先導(dǎo)科技專項(xiàng)—新疆少數(shù)民族信息處理(XDA06030400)
【分類號(hào)】:TP391

【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 艾孜爾古麗;努爾艾合買提;玉素甫·艾白都拉;;現(xiàn)代維吾爾語(yǔ)常用詞統(tǒng)計(jì)關(guān)鍵技術(shù)研究[J];中文信息學(xué)報(bào);2014年05期

2 艾孜爾古麗;齊向衛(wèi);玉素甫·艾白都拉;;基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語(yǔ)詞干提取和應(yīng)用研究[J];計(jì)算機(jī)應(yīng)用與軟件;2012年03期

3 艾孜爾古麗;艾山江·阿不力孜;玉素甫·艾白都拉;;現(xiàn)代維吾爾文網(wǎng)絡(luò)媒體用詞研究[J];計(jì)算機(jī)應(yīng)用與軟件;2012年02期

4 龐景安;;Web文本特征提取方法的研究與發(fā)展[J];情報(bào)理論與實(shí)踐;2006年03期

5 樊興華;孫茂松;;一種高性能的兩類中文文本分類方法[J];計(jì)算機(jī)學(xué)報(bào);2006年01期

相關(guān)碩士學(xué)位論文 前1條

1 圖爾妮薩古麗·賽麥提;基于N-gram的維吾爾文文本分類研究與系統(tǒng)實(shí)現(xiàn)[D];新疆大學(xué);2014年

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李滿榮;趙宏安;董文靜;耿國(guó)華;周明全;;基于優(yōu)先權(quán)過(guò)濾的自動(dòng)摘要抽取算法[J];西北大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年03期

2 阿斯古力·艾山;艾孜爾古麗;玉素甫·艾白都拉;;現(xiàn)代維吾爾語(yǔ)動(dòng)詞詞匯語(yǔ)義詞典構(gòu)建研究[J];電腦知識(shí)與技術(shù);2017年08期

3 馬慧芳;周汝南;吉余崗;魯小勇;;融合詞語(yǔ)類別特征和語(yǔ)義的短文本分類方法[J];計(jì)算機(jī)工程與科學(xué);2017年02期

4 阿力木·木拉提;艾孜爾古麗;楊雅婷;李曉;;基于多策略的維吾爾文網(wǎng)頁(yè)識(shí)別方法[J];中文信息學(xué)報(bào);2017年01期

5 程光洋;廉彬;;基于AdaBoost算法的養(yǎng)老信息篩選及應(yīng)用[J];計(jì)算機(jī)與現(xiàn)代化;2016年12期

6 依不拉音·烏斯曼;王悅;;面向維吾爾跨文字搜索引擎的統(tǒng)一轉(zhuǎn)換機(jī)制設(shè)計(jì)[J];計(jì)算機(jī)科學(xué);2016年S2期

7 彭杰;石永革;高勝保;;基于對(duì)話內(nèi)容的交互型文本會(huì)話主題挖掘[J];電信科學(xué);2016年09期

8 劉錦文;邢凱;芮偉康;張利萍;周慧;;基于信息關(guān)聯(lián)拓?fù)涞幕ヂ?lián)網(wǎng)社交關(guān)系挖掘[J];計(jì)算機(jī)應(yīng)用;2016年07期

9 李廣麗;陳婧琳;劉斌;殷依;張紅斌;;基于Tag-rank和典型相關(guān)性分析的在線商品跨媒體檢索研究[J];科學(xué)技術(shù)與工程;2016年14期

10 阿力木·木拉提;艾孜爾古麗;玉素甫·艾拜都拉;;維吾爾語(yǔ)網(wǎng)站識(shí)別方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2016年05期

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 艾孜爾古麗;李曉;玉素甫·艾白都拉;;中小學(xué)維吾爾語(yǔ)文教材用詞數(shù)據(jù)分析方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2014年03期

2 艾孜爾古麗;阿里木·木拉提;蘇國(guó)平;;現(xiàn)代維吾爾語(yǔ)語(yǔ)言資源監(jiān)測(cè)中數(shù)據(jù)分析技術(shù)研究[J];計(jì)算機(jī)應(yīng)用與軟件;2013年04期

3 玉素甫·艾白都拉;艾孜爾古麗;祖麗皮亞;;基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語(yǔ)詞長(zhǎng)研究[J];計(jì)算機(jī)應(yīng)用與軟件;2012年05期

4 玉素甫·艾白都拉;艾孜爾古麗;;基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語(yǔ)詞尾切分和應(yīng)用研究[J];計(jì)算機(jī)應(yīng)用與軟件;2012年04期

5 艾孜爾古麗;齊向衛(wèi);玉素甫·艾白都拉;;基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語(yǔ)詞干提取和應(yīng)用研究[J];計(jì)算機(jī)應(yīng)用與軟件;2012年03期

6 艾孜爾古麗;艾山江·阿不力孜;玉素甫·艾白都拉;;現(xiàn)代維吾爾文網(wǎng)絡(luò)媒體用詞研究[J];計(jì)算機(jī)應(yīng)用與軟件;2012年02期

7 玉素甫·艾白都拉;張海軍;艾孜爾古麗;;信息處理用現(xiàn)代維吾爾語(yǔ)詞干詞類標(biāo)記集研究[J];信息技術(shù)與標(biāo)準(zhǔn)化;2011年06期

8 蘇新春;楊爾弘;;2005年度漢語(yǔ)詞匯統(tǒng)計(jì)的分析與思考[J];廈門大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2006年06期

9 張鵬飛,李峗,劉建毅,鐘義信;基于相對(duì)詞頻的文本特征抽取方法[J];計(jì)算機(jī)應(yīng)用研究;2005年04期

10 唐曉文;基于本體論的文本特征提取[J];電腦與信息技術(shù);2005年01期

相關(guān)碩士學(xué)位論文 前10條

1 艾海麥提江·阿布來(lái)提;維吾爾文文本分類研究及系統(tǒng)開(kāi)發(fā)[D];新疆大學(xué);2012年

2 馬鵬飛;中文文本分類算法研究[D];南京理工大學(xué);2012年

3 王飛;文本分類相關(guān)算法的研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2012年

4 林少波;中文文本分類特征提取方法的研究與實(shí)現(xiàn)[D];重慶大學(xué);2011年

5 陳雅芳;中文文本分類方法研究[D];浙江大學(xué);2010年

6 李保秀;中文文本分類技術(shù)研究[D];南昌大學(xué);2010年

7 閆晨;KNN文本分類研究[D];燕山大學(xué);2010年

8 趙小華;KNN文本分類中特征詞權(quán)重算法的研究[D];太原理工大學(xué);2010年

9 周登;基于N-Gram模型的藏文文本分類技術(shù)研究[D];西北民族大學(xué);2010年

10 梅君;中文文本分類的研究與應(yīng)用[D];南昌大學(xué);2010年

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王萌,何婷婷,張偉;基于概念向量空間模型的中文自動(dòng)文摘系統(tǒng)[J];計(jì)算機(jī)工程與應(yīng)用;2005年01期

2 張玉連;張敏;張波;;一種擴(kuò)展的向量空間模型-隱含語(yǔ)義索引模型研究[J];燕山大學(xué)學(xué)報(bào);2006年01期

3 李雪峰;劉魯;張f,

本文編號(hào):2540948


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2540948.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶393ef***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com