Web藏文文本資源挖掘與利用研究
本文選題:Web 切入點:語料 出處:《中文信息學報》2015年01期
【摘要】:該文結(jié)合鏈接分析技術(shù)和藏文編碼識別技術(shù),使用網(wǎng)絡爬蟲實現(xiàn)對互聯(lián)網(wǎng)上藏文文本資源的挖掘,分析了Web藏文文本資源的分布情況。統(tǒng)計數(shù)據(jù)顯示,國內(nèi)藏文網(wǎng)站50%以上在青海省;約87%的藏文網(wǎng)頁集中分布在31個大型網(wǎng)站中;人們正在逐步棄用舊有藏文編碼,使用Unicode編碼來制作網(wǎng)頁。利用HTML標記、欄目歸屬、標點符號等自然標注信息對這些文本進行抽取,可以構(gòu)建篇章語料和文本分類語料,可以抽取互聯(lián)網(wǎng)藏文詞庫,進行詞頻統(tǒng)計和訓練藏文語言模型,結(jié)合雙語詞典和搜索引擎技術(shù)抽取雙語平行語料。這些語料可用于藏文分詞、命名實體識別、信息檢索、統(tǒng)計機器翻譯等研究領(lǐng)域。
[Abstract]:Combined with link analysis technology and Tibetan coding recognition technology, this paper uses web crawlers to mine Tibetan text resources on the Internet, and analyzes the distribution of Tibetan text resources in Web. More than 50% of domestic Tibetan language websites are in Qinghai Province; about 87% of Tibetan language pages are concentrated in 31 large websites. People are gradually abandoning old Tibetan codes and using Unicode codes to make web pages. They use HTML tags and belong to columns. These texts can be extracted by natural tagging information such as punctuation marks, text corpus and text classification corpus can be constructed, word frequency statistics and Tibetan language language model can be trained by extracting Internet Tibetan lexicon. These data can be used in Tibetan word segmentation, named entity recognition, information retrieval, statistical machine translation and so on.
【作者單位】: 中國科學院軟件研究所;中國科學院大學;
【基金】:國家自然科學基金(61202219,61202220,61303165) 中國科學院信息化專項經(jīng)費資助(XXH12504-1-10)
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 葉碧云,劉青;基于Web技術(shù)的設備管理信息系統(tǒng)[J];洪都科技;2003年02期
2 何志勇 ,何紹榮;基于WEB的學生成績管理系統(tǒng)[J];自貢師范高等專科學校學報;2003年04期
3 劉慶紅;基于Web的綜合教務管理信息系統(tǒng)的分析與設計[J];吉林省經(jīng)濟管理干部學院學報;2004年01期
4 賈志娟,胡明生;基于Web的答疑系統(tǒng)設計與實現(xiàn)[J];河南紡織高等?茖W校學報;2004年03期
5 王斌,劉浙;基于Web的電力調(diào)度自動化系統(tǒng)的實現(xiàn)[J];計算機與現(xiàn)代化;2004年11期
6 尹健康,宋紅文,朱伏平,杜祥兵;基于Web的設備管理信息系統(tǒng)設計與研究[J];西南科技大學學報(自然科學版);2004年03期
7 盛志偉,劉仕筠,劉雙虎;基于Web的網(wǎng)絡考試系統(tǒng)的設計與實現(xiàn)[J];計算機與現(xiàn)代化;2005年07期
8 耿道武;Web服務提供銀行中間業(yè)務新形式[J];華南金融電腦;2005年08期
9 石建玲,印建平,葛敬霞,李紅彥;基于Web設備管理信息系統(tǒng)中設備分類編碼規(guī)則的研究[J];現(xiàn)代制造工程;2005年09期
10 尤超常;淺談WEB數(shù)據(jù)挖掘[J];中國科技信息;2005年04期
相關(guān)會議論文 前10條
1 黃海林;孫向陽;;基于Web的大學物理試題管理系統(tǒng)的設計[A];湖北省物理學會、武漢物理學會成立70周年慶典暨2002年學術(shù)年會論文集[C];2002年
2 于莉莉;張毅;;基于Web的人力資源管理系統(tǒng)研究與設計[A];2008全國制造業(yè)信息化標準化論壇論文集[C];2008年
3 李中華;;企業(yè)Web應用安全威脅與防護[A];創(chuàng)新·融合·發(fā)展——創(chuàng)新型煤炭企業(yè)發(fā)展與信息化高峰論壇論文集[C];2010年
4 劉兵;何新林;張偉;吳東峰;何小蓮;;基于Web的奎屯河流域水庫調(diào)度自動化系統(tǒng)研究[A];第三屆全國水力學與水利信息學大會論文集[C];2007年
5 劉穎;;基于Web的學生信息管理系統(tǒng)的設計與實現(xiàn)[A];2008年計算機應用技術(shù)交流會論文集[C];2008年
6 張玉艷;黃國棟;馮文堂;侯金奎;;一種模型驅(qū)動的WEB報表系統(tǒng)開發(fā)方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李毅;顧健;顧鐵軍;;系統(tǒng)等級保護中的Web應用安全評估[A];全國計算機安全學術(shù)交流會論文集(第二十四卷)[C];2009年
8 葉良;劉富強;鄧戈;趙忠;;基于WEB的數(shù)字視頻監(jiān)控系統(tǒng)開發(fā)[A];第十二屆全國煤礦自動化學術(shù)年會論文專輯[C];2002年
9 劉巖;閻欽運;張剛;;基于WEB的企業(yè)人力資源管理系統(tǒng)的研究與實現(xiàn)[A];第十七屆全國煤礦自動化學術(shù)年會、中國煤炭學會自動化專業(yè)委員會學術(shù)會議論文集[C];2007年
10 粟智;;基于Web技術(shù)下的分析實驗室計算機網(wǎng)絡管理系統(tǒng)的開發(fā)與設計[A];2003年藥物分析論壇“熱分析在藥物分析中的應用”專題學術(shù)研討會論文集[C];2003年
相關(guān)重要報紙文章 前10條
1 本報記者 劉繼安;準備好了嗎?WEB教師[N];中國教育報;2001年
2 張承東;Web智能考核廣告[N];網(wǎng)絡世界;2009年
3 科訊;WEB教師——一個全新職業(yè)的透析[N];科技日報;2001年
4 王雅麗;博客社區(qū)齊上陣 銀行借Web 2.0拉攏未來客戶[N];中國計算機報;2008年
5 本報記者 黃智軍;Web應用呼喚新型安全系統(tǒng)[N];計算機世界;2009年
6 居易;WEB教師熱門起來[N];組織人事報;2001年
7 本報記者 趙曉濤;四問“Web防御與云安全”[N];網(wǎng)絡世界;2008年
8 本報記者 徐恒;手機瀏覽器:競爭不斷加劇 Web大勢所趨[N];中國電子報;2009年
9 電腦商報記者 張戈;Web應用安全正當時[N];電腦商報;2010年
10 李晨;Web應用安全應貫穿生命周期[N];人民郵電;2009年
相關(guān)博士學位論文 前10條
1 孫慧峰;基于協(xié)同過濾的個性化Web推薦[D];北京郵電大學;2012年
2 何儒漢;Web圖像的多模融合檢索研究[D];華中科技大學;2007年
3 張建武;面向Web應用的安全評測技術(shù)研究[D];北京郵電大學;2012年
4 龍慧云;基于進程代數(shù)的Web服務數(shù)據(jù)和組合的形式化方法研究[D];貴州大學;2009年
5 孫濤;面向市場情報分析的Web實體事件融合問題研究[D];山東大學;2014年
6 謝琪;基于協(xié)同過濾與QoS的個性化Web服務推薦研究[D];重慶大學;2012年
7 劉曉光;網(wǎng)絡化制造中Web服務自動組合的若干關(guān)鍵技術(shù)研究[D];上海交通大學;2008年
8 劉方方;Web服務合成與可用性的若干關(guān)鍵技術(shù)研究[D];復旦大學;2007年
9 李杰;基于服務質(zhì)量的Web服務模型及應用研究[D];中國科學院研究生院(計算技術(shù)研究所);2005年
10 許洪波;大規(guī)模信息過濾技術(shù)研究及其在Web問答系統(tǒng)中的應用[D];中國科學院研究生院(計算技術(shù)研究所);2003年
相關(guān)碩士學位論文 前10條
1 曾確令;基于WEB挖掘的消費者細分及推薦應用研究[D];吉林大學;2009年
2 袁桂蘭;WEB分布式數(shù)據(jù)庫系統(tǒng)的研究與實現(xiàn)[D];中國人民解放軍信息工程大學;2002年
3 李超俊;基于Web的客戶信息管理系統(tǒng)的開發(fā)[D];吉林大學;2011年
4 焦威;面向Web應用的構(gòu)件組裝系統(tǒng)研究與實現(xiàn)[D];西安理工大學;2009年
5 李吉平;基于Web技術(shù)的森林資源信息管理系統(tǒng)研建[D];西北農(nóng)林科技大學;2009年
6 白潔婷;基于Web的在線虛擬實驗室的研究[D];華中科技大學;2009年
7 吳卉;基于Web的機械零件庫瀏覽系統(tǒng)的研發(fā)[D];南京航空航天大學;2010年
8 田振強;基于Web的小麥信息管理系統(tǒng)的構(gòu)建[D];河南農(nóng)業(yè)大學;2010年
9 張平;基于Web技術(shù)的壓鑄模具協(xié)同設計原理與應用系統(tǒng)研究[D];四川大學;2005年
10 謝春麗;基于數(shù)據(jù)挖掘的Web行為特征分析與研究[D];蘇州大學;2003年
,本文編號:1653418
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1653418.html