基于web的藏文文本自動分類研究與實現(xiàn)
本文選題:藏文網(wǎng)頁 切入點:自動分類 出處:《青海民族大學(xué)》2012年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)的普及和藏文信息技術(shù)的發(fā)展,藏文網(wǎng)站的數(shù)量越來越多,藏文信息資源從匱乏的時代過渡到極為豐富的藏文數(shù)字化時代。但面對海量的藏文信息資源,人們又很難得到實際需要的信息。因此,,人們常對藏文網(wǎng)頁按照其內(nèi)容進行分類。 目前,用傳統(tǒng)的分類方法來處理是不切實際的,必須借助計算機對藏文網(wǎng)頁進行自動分類,一來減少了人力的耗費和財力的投資,二來提高了網(wǎng)頁分類的效率和準(zhǔn)確率。因此,用計算機進行藏文網(wǎng)頁文本的自動分類,可以滿足人們所期望對各類藏文文本分類應(yīng)用需求,這也成為迫在眉睫的研究課題。筆者認(rèn)為對藏文網(wǎng)頁文本自動分類的研究在藏文搜索引擎、藏文數(shù)字圖書館和藏文出版等領(lǐng)域,以及對推動藏文信息技術(shù)的發(fā)展與應(yīng)用有著重要的現(xiàn)實意義和使用價值。 本文主要對藏文網(wǎng)頁的凈化、藏文分詞、特征選取、權(quán)值計算、分類算法等相關(guān)技術(shù)進行了較深入的分析和研究,其中重點研究了藏文分詞和藏文網(wǎng)頁分類算法,并借鑒現(xiàn)有的中英文分類算法,提出了符合藏文文法及藏文字結(jié)構(gòu)特征的分類算法,即詞頻統(tǒng)計+詞匹配法、基于標(biāo)題的藏文網(wǎng)頁分類算法和基于導(dǎo)航欄的藏文網(wǎng)頁分類算法的一種新的混合分類算法,該方法大大提高了基于web的藏文文本自動分類系統(tǒng)的查全率和查準(zhǔn)率。最后實現(xiàn)了基于web的藏文文本自動分類系統(tǒng),同時對實驗結(jié)果進行了分析并具有良好的分類結(jié)果。
[Abstract]:With the popularization of the Internet and the development of Tibetan information technology, the number of Tibetan websites is increasing, and the Tibetan information resources transition from the era of scarcity to the extremely rich digital era of Tibetan language.But in the face of massive Tibetan information resources, it is difficult for people to get the actual information.Therefore, people often classify Tibetan web pages according to their content.At present, it is impractical to use the traditional classification method to classify Tibetan web pages automatically with the help of computer, which not only reduces the cost of manpower and financial resources, but also improves the efficiency and accuracy of web page classification.Therefore, the automatic classification of Tibetan web pages by computer can meet the needs of all kinds of Tibetan text classification, which has become an urgent research topic.The author thinks that the research on automatic text classification of Tibetan web pages is of great practical significance and practical value in Tibetan search engine, Tibetan digital library and Tibetan publishing, as well as in promoting the development and application of Tibetan information technology.In this paper, the purification of Tibetan web pages, Tibetan word segmentation, feature selection, weight calculation, classification algorithm and other related techniques are analyzed and studied deeply, among which, Tibetan word segmentation and Tibetan web page classification algorithms are mainly studied.Using the existing Chinese and English classification algorithms for reference, this paper puts forward a classification algorithm that accords with Tibetan grammar and Tibetan characters' structural features, that is, word frequency statistical word matching method.A new hybrid classification algorithm for Tibetan web pages based on title and navigation bar is proposed, which greatly improves the recall and precision of the automatic classification system of Tibetan text based on web.Finally, an automatic Tibetan text classification system based on web is implemented, and the experimental results are analyzed and good classification results are obtained.
【學(xué)位授予單位】:青海民族大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:H214
【相似文獻】
相關(guān)期刊論文 前10條
1 才旦夏茸 ,張鳳翮;關(guān)于藏族歷代翻譯家梵譯藏若干問題之研究[J];西北民族大學(xué)學(xué)報(哲學(xué)社會科學(xué)版);1985年03期
2 于洪志;藏文編碼:我們的寶貝孩子[J];民族團結(jié);1999年08期
3 南樓一雁;;洞內(nèi)驚魂[J];故事世界;2009年16期
4 戴忠沛;;五份新見藏文注音西夏文殘片校釋[J];寧夏社會科學(xué);2009年06期
5 多杰卓瑪;;現(xiàn)代藏語詞語信息庫構(gòu)建研究[J];電腦開發(fā)與應(yīng)用;2010年07期
6 達哇彭措;;藏文字處理元輔音可搭配形式統(tǒng)計[J];科技信息;2011年17期
7 張建木;讀《唐蕃會盟碑》札記二則[J];中央民族大學(xué)學(xué)報(哲學(xué)社會科學(xué)版);1981年01期
8 張連生;;藏文號碼代字及其計算機排索[J];語言研究;1983年02期
9 毛繼祖;解放前青海省藏文木刻本科技圖書印行概況[J];青海民族學(xué)院學(xué)報;1989年03期
10 郭登元;漢詩(詞)藏譯淺談之一[J];青海民族學(xué)院學(xué)報;1990年02期
相關(guān)會議論文 前10條
1 馬良成;運中旺蘇;張步明;;北宋“崇寧重寶背藏文錢”初探[A];甘肅省錢幣學(xué)會第四次會員代表大會專輯[C];2001年
2 運中旺蘇;張步明;;北宋“崇寧重寶背藏文錢”再探[A];第二屆西北五省區(qū)錢幣學(xué)會協(xié)作會議專輯[C];2002年
3 胡丹;;對文物征集與館藏文物調(diào)整的思考[A];贛博論壇——博物館現(xiàn)狀與發(fā)展前瞻論文集(一)[C];2003年
4 于洪志;;藏文信息交換技術(shù)的研究與實現(xiàn)[A];輝煌二十年——中國中文信息學(xué)會二十周年學(xué)術(shù)會議論文集[C];2001年
5 劉匯丹;諾明花;趙維納;吳健;賀也平;;藏文編碼轉(zhuǎn)換軟件“藏碼通”的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
6 陳乃雄;;一枚藏文錢釋[A];《內(nèi)蒙古金融研究》錢幣文集(第三輯)[C];2003年
7 孫文景;;藏文因明書目[A];因明新探——首屆因明學(xué)術(shù)討論會論文集[C];1983年
8 王小華;陸蓓;張國煊;;文本自動分類的模糊方法[A];自然語言理解與機器翻譯——全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年
9 褚媛萍;;合理開發(fā)、利用博物館館藏文物資源 充分發(fā)揮其社會教育功能[A];萃英集——青海省教育委員會、青海省教育學(xué)會優(yōu)秀教育論文集[C];2000年
10 李應(yīng)興;付婷;李勇;;基于LUCENE的藏文信息檢索的研究與應(yīng)用[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
相關(guān)重要報紙文章 前10條
1 本報記者 王向華;藏文圖書“走進”藏區(qū)農(nóng)家書屋[N];四川日報;2009年
2 記者 涂洪長;手機藏文資訊研發(fā)啟動[N];人民日報海外版;2009年
3 本報記者 康 麗 茅衛(wèi)東;阿牛和他的普利藏文學(xué)校[N];中國教師報;2005年
4 記者 王杰;藏文軟件推廣應(yīng)用項目啟動儀式在拉薩舉行[N];西藏日報;2009年
5 涂洪長;手機藏文資訊研發(fā)啟動 藏文將暢游無線通信網(wǎng)絡(luò)[N];中國民族報;2009年
6 德吉 邊巴次仁;藏文走在我國少數(shù)民族文字信息化前列[N];中國民族報;2008年
7 記者 張黎黎 曉勇;讓藏文馳騁在信息高速路上[N];西藏日報;2010年
8 記者 朗杰 裘立華;藏文詞典越來越厚[N];新華每日電訊;2002年
9 本報記者 王坤寧;我國藏文出版駛?cè)肟燔嚨繹N];中國新聞出版報;2009年
10 記者 根秋多吉 克珠;本報選送的10件藏文新聞作品獲獎[N];甘孜日報(漢文);2007年
相關(guān)博士學(xué)位論文 前10條
1 芮建武;操作系統(tǒng)國際化基礎(chǔ)的研究與實踐[D];中國科學(xué)院研究生院(軟件研究所);2005年
2 張雪英;基于粗糙集理論的文本自動分類研究[D];南京理工大學(xué);2005年
3 那加才旦;古代藏語文研究(7-11 A.D.)[D];中央民族大學(xué);2012年
4 斯塔;本體、方法、境界[D];中央民族大學(xué);2007年
5 段玉泉;語言背后的文化流傳:一組西夏藏傳佛教文獻解讀[D];蘭州大學(xué);2009年
6 田俊華;基于本體知識庫的教學(xué)資源自動采集技術(shù)研究[D];南京師范大學(xué);2011年
7 張云;元代吐蕃地方行政體制研究[D];南京大學(xué);1993年
8 烏云畢力格;論《蘇布喜地》及其對蒙古箴言詩的影響[D];內(nèi)蒙古大學(xué);2009年
9 王獻軍;西藏政教合一制研究[D];南京大學(xué);1997年
10 王璞;藏族史學(xué)思想論綱[D];云南大學(xué);2002年
相關(guān)碩士學(xué)位論文 前10條
1 葉西切忠;基于web的藏文文本自動分類研究與實現(xiàn)[D];青海民族大學(xué);2012年
2 李瓊瓊;網(wǎng)絡(luò)文本自動分類器的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2010年
3 黃瑜青;基于支持向量機的文本自動分類器的研究與應(yīng)用[D];廣東工業(yè)大學(xué);2012年
4 袁路妍;鎢層文本自動分類技術(shù)的研究與應(yīng)用[D];東華大學(xué);2011年
5 包立偉;面向信息檢索的文本自動分類技術(shù)研究[D];華東理工大學(xué);2013年
6 李真;基于貝葉斯的XML文本自動分類技術(shù)研究[D];吉林大學(xué);2010年
7 聶璐;WEB文本自動分類的設(shè)計與實現(xiàn)[D];西北大學(xué);2009年
8 普布旦增;藏文自動分詞技術(shù)方法研究[D];西藏大學(xué);2010年
9 尼馬才讓;藏文書面語發(fā)展歷史研究[D];西北民族大學(xué);2011年
10 符會濤;基于互信息的文本自動分類特征選擇方法研究[D];新疆大學(xué);2011年
本文編號:1715828
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1715828.html