蒙古文網(wǎng)絡(luò)文本識(shí)別與采集方法
本文關(guān)鍵詞:蒙古文網(wǎng)絡(luò)文本識(shí)別與采集方法 出處:《內(nèi)蒙古師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》2016年04期 論文類型:期刊論文
更多相關(guān)文章: 蒙古文 爬蟲(chóng) 語(yǔ)料 信息抽取
【摘要】:筆者主要研究實(shí)現(xiàn)了蒙古文網(wǎng)頁(yè)的內(nèi)容識(shí)別,以及使用網(wǎng)絡(luò)爬蟲(chóng)爬取網(wǎng)頁(yè),并自動(dòng)提取網(wǎng)頁(yè)中的蒙古文文本,在此基礎(chǔ)上將對(duì)網(wǎng)絡(luò)文本做詞頻統(tǒng)計(jì)研究。利用HTML標(biāo)記、欄目歸屬、標(biāo)點(diǎn)符號(hào)等自然標(biāo)注信息對(duì)這些文本進(jìn)行抽取,可以構(gòu)建篇章語(yǔ)料和文本分類語(yǔ)料,可以抽取互聯(lián)網(wǎng)詞庫(kù),進(jìn)行詞頻統(tǒng)計(jì)和訓(xùn)練語(yǔ)言模型,這些語(yǔ)料可用于命名實(shí)體識(shí)別、信息檢索、統(tǒng)計(jì)機(jī)器翻譯等研究領(lǐng)域。
【作者單位】: 內(nèi)蒙古師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院;
【分類號(hào)】:H212;;TP391
【正文快照】: 隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)信息變得爆炸式增長(zhǎng)。如何有效的獲取互聯(lián)網(wǎng)中信息變得越來(lái)越重要,針對(duì)英文的互聯(lián)網(wǎng)信息應(yīng)用發(fā)展較早,中文也在不斷發(fā)展。經(jīng)過(guò)多年的努力,中文信息處理已經(jīng)達(dá)到了的國(guó)際先進(jìn)水平。但由于中國(guó)少數(shù)民族語(yǔ)言的研究起步晚,研究人員不足,一直發(fā)展得不好,
【相似文獻(xiàn)】
相關(guān)會(huì)議論文 前10條
1 包艷花;圖格木勒;;多字體印刷蒙古文識(shí)別后處理研究[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
2 吉仁尼格;;蒙古文同形詞的統(tǒng)計(jì)法[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
3 呼斯勒;六月;斯日古楞;;淺談蒙古文通用編輯器幾點(diǎn)基本規(guī)范[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
4 道布;;回鶻式蒙古文[A];中國(guó)民族古文字[C];1982年
5 道布;;回鶻式蒙古文研究概況[A];中國(guó)民族古文字研究[C];1980年
6 白雙成;胡其圖;木仁;;蒙古文音節(jié)切分算法實(shí)現(xiàn)及其應(yīng)用[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
7 孟和吉雅;白音門(mén)德;敖其爾;田會(huì)利;;蒙古文語(yǔ)音合成技術(shù)研究[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
8 孟和吉雅;敖其爾;鞏政;;蒙古文網(wǎng)頁(yè)制作技術(shù)分析[A];第十屆全國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年
9 確精扎布;;蒙古文編碼國(guó)際標(biāo)準(zhǔn)通過(guò)以后研制的幾種蒙古文錄入系統(tǒng)比較[A];第十屆全國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年
10 寶金良;;蒙古文文本標(biāo)點(diǎn)符號(hào)及其屬性字段設(shè)置[A];第十屆全國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年
相關(guān)重要報(bào)紙文章 前10條
1 記者 吉儒木圖;手機(jī)可以使用蒙古文了[N];內(nèi)蒙古日?qǐng)?bào)(漢);2007年
2 記者 解太榮;《蒙古秘史》回鶻體蒙古文復(fù)原項(xiàng)目完成[N];錫林郭勒日?qǐng)?bào);2009年
3 孟克;如何打破蒙古文圖書(shū)產(chǎn)銷兩難的困境[N];中國(guó)民族報(bào);2010年
4 記者 阿斯鋼;蒙古國(guó)總統(tǒng)簽命令推廣回鶻式蒙古文[N];新華每日電訊;2010年
5 記者 蘇布達(dá);全盟首屆蒙古文圖書(shū)節(jié)落幕[N];錫林郭勒日?qǐng)?bào)(漢);2012年
6 陳崗龍 (蒙古族);蒙古文文學(xué)翻譯的兩個(gè)問(wèn)題[N];文藝報(bào);2013年
7 金壇;蒙古文:描繪大自然的千姿百態(tài)[N];中國(guó)民族報(bào);2014年
8 阿勒得爾圖;沙日布卻瑪:用回鶻體蒙古文還原《蒙古秘史》[N];中國(guó)民族報(bào);2006年
9 記者 張文強(qiáng);蒙古文圖書(shū)農(nóng)牧民閱讀大接力活動(dòng)啟動(dòng)[N];內(nèi)蒙古日?qǐng)?bào)(漢);2008年
10 徐恒泰;要全力抓好蒙古文教學(xué)資源建設(shè)[N];鄂爾多斯日?qǐng)?bào);2008年
相關(guān)博士學(xué)位論文 前8條
1 蘇向東;基于深度學(xué)習(xí)和知識(shí)策略的蒙古文古籍識(shí)別研究[D];內(nèi)蒙古大學(xué);2016年
2 淑琴;蒙古文同形詞知識(shí)庫(kù)的構(gòu)建[D];內(nèi)蒙古大學(xué);2010年
3 達(dá)古拉;《清內(nèi)秘書(shū)院蒙古文檔案匯編》語(yǔ)言研究[D];內(nèi)蒙古大學(xué);2012年
4 魏宏喜;蒙古文古籍圖像檢索技術(shù)研究[D];內(nèi)蒙古大學(xué);2012年
5 通拉嘎;基于蒙古文語(yǔ)料庫(kù)的人名自動(dòng)識(shí)別[D];中央民族大學(xué);2013年
6 莎日娜;烏蘭巴托版蒙古文譯本《今古奇觀》研究[D];中國(guó)社會(huì)科學(xué)院研究生院;2010年
7 王桂榮;蒙古文字結(jié)構(gòu)研究[D];內(nèi)蒙古大學(xué);2011年
8 普日布蘇榮;蒙古語(yǔ)語(yǔ)料庫(kù)建設(shè)的有關(guān)問(wèn)題[D];內(nèi)蒙古大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 關(guān)高娃;蒙古文停用詞和英文停用詞比較研究[D];內(nèi)蒙古大學(xué);2011年
2 常紅梅;袞布扎布語(yǔ)言論著中的蒙古文阿里嘎禮研究[D];內(nèi)蒙古大學(xué);2013年
3 劉璐;面向蒙古文增量g┱溝男畔⒓燜骷際躚芯縖D];內(nèi)蒙古大學(xué);2015年
4 李坤;蒙古文網(wǎng)絡(luò)熱點(diǎn)詞提取算法研究[D];內(nèi)蒙古大學(xué);2015年
5 王洪偉;基于規(guī)則和統(tǒng)計(jì)的西里爾與傳統(tǒng)蒙古文相互轉(zhuǎn)換方法研究[D];內(nèi)蒙古大學(xué);2015年
6 張畔;蒙古文搜索引擎基本方法的實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2015年
7 宋莉;蒙古文字造形元數(shù)據(jù)的分類編號(hào)探討[D];內(nèi)蒙古農(nóng)業(yè)大學(xué);2015年
8 青玉;指導(dǎo)小學(xué)生蒙古文正字法教學(xué)探析[D];內(nèi)蒙古師范大學(xué);2015年
9 達(dá)拉夫;文獻(xiàn)學(xué)視角下的蒙古文古籍研究[D];內(nèi)蒙古大學(xué);2015年
10 王亞君;基于Linux IBUS的傳統(tǒng)蒙古文輸入法的研究與實(shí)現(xiàn)[D];內(nèi)蒙古師范大學(xué);2015年
,本文編號(hào):1333075
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1333075.html