維吾爾語網(wǎng)站識別方法
本文關(guān)鍵詞:維吾爾語網(wǎng)站識別方法
更多相關(guān)文章: 維吾爾文 網(wǎng)頁文本節(jié)點 向量空間模型 網(wǎng)頁識別 常用詞
【摘要】:通過調(diào)查與分析大量維吾爾文網(wǎng)頁結(jié)構(gòu),對互聯(lián)網(wǎng)中現(xiàn)有的維吾爾文網(wǎng)頁進(jìn)行網(wǎng)頁識別研究。探討維吾爾文不規(guī)范網(wǎng)頁的字符編碼轉(zhuǎn)換方法,為此進(jìn)行維吾爾文編碼標(biāo)準(zhǔn)化處理?紤]維吾爾文網(wǎng)頁獨有的節(jié)點屬性,提出一種基于維吾爾文網(wǎng)頁文本節(jié)點特征的方法,但該方法顯示略低的準(zhǔn)確率及較多的誤判率。結(jié)合維吾爾語常用候選詞語料和向量空間模型(vector space module),提出一種基于維吾爾語常用詞統(tǒng)計學(xué)特征的方法,利用測試網(wǎng)頁內(nèi)容和維吾爾語常用候選詞語料,并將其以向量來表示,計算測試網(wǎng)頁文本的詞語在維吾爾語常用候選詞中的相應(yīng)權(quán)值,依據(jù)相應(yīng)權(quán)值來計算測試網(wǎng)頁為維吾爾文網(wǎng)頁的概率,進(jìn)行網(wǎng)頁識別。對兩種方法進(jìn)行比較,準(zhǔn)確率分別是69.85%和91%。實驗結(jié)果表明,基于維吾爾語常用詞統(tǒng)計學(xué)特征的方法比網(wǎng)頁文本節(jié)點特征的方法具有更高的準(zhǔn)確率,驗證了該方法的有效性。
【作者單位】: 新疆師范大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院;中國科學(xué)院新疆理化技術(shù)研究所;
【基金】:新疆維吾爾自治區(qū)自然科學(xué)基金項目(2014211A045) 新疆維吾爾自治區(qū)哲學(xué)社會科學(xué)研究規(guī)劃基金項目(14CYY093) 教育部人文社會科學(xué)一般基金項目(14YJC740001) 新疆維吾爾自治區(qū)高?蒲杏媱澢嗄杲處熆蒲袉踊痦椖(20140706213103147) 國家自然科學(xué)基金重點項目(61132009);國家自然科學(xué)基金項目(61262066) 國家社科基金重點項目(14AZD11)
【分類號】:TP391.1;TP393.092
【正文快照】: 0引言維吾爾語的網(wǎng)頁識別方法與信息采集技術(shù)的研究成果相對較少,研究成熟的適合現(xiàn)代維吾爾語網(wǎng)頁識別方法以及關(guān)鍵技術(shù)至關(guān)重要。特別是有些維吾爾文網(wǎng)頁存在文字代碼不規(guī)范網(wǎng)頁的問題,對于現(xiàn)代維吾爾文網(wǎng)頁的全文檢索造成了一定的困難,對所有維吾爾語網(wǎng)頁進(jìn)行處理還有很多問
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 段祥超;禹龍;田生偉;吐爾根·依布拉音;艾斯卡爾·艾木都拉;;維吾爾語意見挖掘關(guān)系抽取研究[J];計算機(jī)工程與設(shè)計;2013年09期
2 程新方;吾守爾·斯拉木;;維吾爾語手機(jī)智能輸入法的研究與實現(xiàn)[J];新疆大學(xué)學(xué)報(自然科學(xué)版);2010年01期
3 阿里甫·庫爾班;吾買爾江·庫爾班;吐爾根·伊布拉音;;面向信息處理的維吾爾語詞語分類體系及標(biāo)記研究(Ⅱ)[J];新疆大學(xué)學(xué)報(自然科學(xué)版);2010年01期
4 玉素甫·艾白都拉;齊向偉;艾孜爾古麗;;維吾爾語方言資源整理及語言地圖的設(shè)計[J];數(shù)字技術(shù)與應(yīng)用;2012年07期
5 熱依曼·吐爾遜;吾守爾·斯拉木;;一種維吾爾語聯(lián)機(jī)手寫識別系統(tǒng)[J];中文信息學(xué)報;2014年03期
6 王健飛;郭志川;葉曉舟;劉春梅;;一種嵌入式系統(tǒng)漢語與維吾爾語雙語顯示的方法[J];網(wǎng)絡(luò)新媒體技術(shù);2013年02期
7 米吉提·阿布力米提,庫爾班·吾布力;在多文種環(huán)境下的維吾爾語文字校對系統(tǒng)的開發(fā)研究[J];系統(tǒng)工程理論與實踐;2003年05期
8 麥熱哈巴·艾力;王志洋;吐爾根·依布拉音;;一種提高維吾爾語-漢語詞語對齊的方法研究[J];小型微型計算機(jī)系統(tǒng);2012年11期
9 麥熱哈巴·艾力;姜文斌;吐爾根·依布拉音;;維吾爾語詞法中音變現(xiàn)象的自動還原模型[J];中文信息學(xué)報;2012年01期
10 玉素甫·艾白都拉;姚天f ;吾守爾·斯拉卡;;維吾爾語句法描述和分析方法[J];中文信息;1996年04期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 艾山·吾買爾;吐爾根·依不拉音;早克熱·卡德爾;;維吾爾語名詞詞干提取算法的研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
2 艾斯卡爾·肉孜;宗成慶;姑麗加瑪麗·麥麥提艾力;熱合木·馬合木提;艾斯卡爾·艾木都拉;;基于條件隨機(jī)場的維吾爾人名識別方法[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年
3 江海燕;劉巖;盧莉;;維吾爾語疑問語調(diào)的實驗分析[A];第九屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2007年
4 阿比達(dá).吾買爾;吐爾根.依布拉音;;維吾爾文音節(jié)切分方法的研究與實現(xiàn)[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 麥熱哈巴·艾力;基于實例的維漢機(jī)器翻譯若干關(guān)鍵問題研究[D];新疆大學(xué);2014年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 鄒志華;維吾爾語新聞話題識別技術(shù)研究[D];新疆大學(xué);2013年
2 米吉提·阿布力米提;維吾爾語文字校對系統(tǒng)[D];新疆大學(xué);2001年
3 李豐軍;基于WinCE的維吾爾語智能輸入法的研究與實現(xiàn)[D];新疆大學(xué);2008年
4 鄒岳琳;維吾爾語時間表達(dá)式識別研究[D];新疆大學(xué);2014年
5 鐘軍;維吾爾語領(lǐng)域術(shù)語抽取研究[D];新疆大學(xué);2014年
6 王慧云;維吾爾語比較句型及關(guān)系的識別[D];新疆大學(xué);2014年
7 段祥超;維吾爾語意見挖掘關(guān)系抽取研究[D];新疆大學(xué);2014年
8 陳洋;維吾爾語不良文本信息過濾技術(shù)研究[D];新疆大學(xué);2014年
9 羅亞偉;細(xì)顆粒度維吾爾語文本情感分析研究[D];新疆大學(xué);2015年
10 沙吾提江·亞森;基于本體的維吾爾語語義搜索引擎的研究與實現(xiàn)[D];電子科技大學(xué);2015年
,本文編號:1218266
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1218266.html