天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于web的藏文文本自動(dòng)分類研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-04-05 17:40

  本文選題:藏文網(wǎng)頁(yè) 切入點(diǎn):自動(dòng)分類 出處:《青海民族大學(xué)》2012年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)的普及和藏文信息技術(shù)的發(fā)展,藏文網(wǎng)站的數(shù)量越來(lái)越多,藏文信息資源從匱乏的時(shí)代過(guò)渡到極為豐富的藏文數(shù)字化時(shí)代。但面對(duì)海量的藏文信息資源,人們又很難得到實(shí)際需要的信息。因此,,人們常對(duì)藏文網(wǎng)頁(yè)按照其內(nèi)容進(jìn)行分類。 目前,用傳統(tǒng)的分類方法來(lái)處理是不切實(shí)際的,必須借助計(jì)算機(jī)對(duì)藏文網(wǎng)頁(yè)進(jìn)行自動(dòng)分類,一來(lái)減少了人力的耗費(fèi)和財(cái)力的投資,二來(lái)提高了網(wǎng)頁(yè)分類的效率和準(zhǔn)確率。因此,用計(jì)算機(jī)進(jìn)行藏文網(wǎng)頁(yè)文本的自動(dòng)分類,可以滿足人們所期望對(duì)各類藏文文本分類應(yīng)用需求,這也成為迫在眉睫的研究課題。筆者認(rèn)為對(duì)藏文網(wǎng)頁(yè)文本自動(dòng)分類的研究在藏文搜索引擎、藏文數(shù)字圖書(shū)館和藏文出版等領(lǐng)域,以及對(duì)推動(dòng)藏文信息技術(shù)的發(fā)展與應(yīng)用有著重要的現(xiàn)實(shí)意義和使用價(jià)值。 本文主要對(duì)藏文網(wǎng)頁(yè)的凈化、藏文分詞、特征選取、權(quán)值計(jì)算、分類算法等相關(guān)技術(shù)進(jìn)行了較深入的分析和研究,其中重點(diǎn)研究了藏文分詞和藏文網(wǎng)頁(yè)分類算法,并借鑒現(xiàn)有的中英文分類算法,提出了符合藏文文法及藏文字結(jié)構(gòu)特征的分類算法,即詞頻統(tǒng)計(jì)+詞匹配法、基于標(biāo)題的藏文網(wǎng)頁(yè)分類算法和基于導(dǎo)航欄的藏文網(wǎng)頁(yè)分類算法的一種新的混合分類算法,該方法大大提高了基于web的藏文文本自動(dòng)分類系統(tǒng)的查全率和查準(zhǔn)率。最后實(shí)現(xiàn)了基于web的藏文文本自動(dòng)分類系統(tǒng),同時(shí)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析并具有良好的分類結(jié)果。
[Abstract]:With the popularization of the Internet and the development of Tibetan information technology, the number of Tibetan websites is increasing, and the Tibetan information resources transition from the era of scarcity to the extremely rich digital era of Tibetan language.But in the face of massive Tibetan information resources, it is difficult for people to get the actual information.Therefore, people often classify Tibetan web pages according to their content.At present, it is impractical to use the traditional classification method to classify Tibetan web pages automatically with the help of computer, which not only reduces the cost of manpower and financial resources, but also improves the efficiency and accuracy of web page classification.Therefore, the automatic classification of Tibetan web pages by computer can meet the needs of all kinds of Tibetan text classification, which has become an urgent research topic.The author thinks that the research on automatic text classification of Tibetan web pages is of great practical significance and practical value in Tibetan search engine, Tibetan digital library and Tibetan publishing, as well as in promoting the development and application of Tibetan information technology.In this paper, the purification of Tibetan web pages, Tibetan word segmentation, feature selection, weight calculation, classification algorithm and other related techniques are analyzed and studied deeply, among which, Tibetan word segmentation and Tibetan web page classification algorithms are mainly studied.Using the existing Chinese and English classification algorithms for reference, this paper puts forward a classification algorithm that accords with Tibetan grammar and Tibetan characters' structural features, that is, word frequency statistical word matching method.A new hybrid classification algorithm for Tibetan web pages based on title and navigation bar is proposed, which greatly improves the recall and precision of the automatic classification system of Tibetan text based on web.Finally, an automatic Tibetan text classification system based on web is implemented, and the experimental results are analyzed and good classification results are obtained.
【學(xué)位授予單位】:青海民族大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:H214

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 才旦夏茸 ,張鳳翮;關(guān)于藏族歷代翻譯家梵譯藏若干問(wèn)題之研究[J];西北民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);1985年03期

2 于洪志;藏文編碼:我們的寶貝孩子[J];民族團(tuán)結(jié);1999年08期

3 南樓一雁;;洞內(nèi)驚魂[J];故事世界;2009年16期

4 戴忠沛;;五份新見(jiàn)藏文注音西夏文殘片校釋[J];寧夏社會(huì)科學(xué);2009年06期

5 多杰卓瑪;;現(xiàn)代藏語(yǔ)詞語(yǔ)信息庫(kù)構(gòu)建研究[J];電腦開(kāi)發(fā)與應(yīng)用;2010年07期

6 達(dá)哇彭措;;藏文字處理元輔音可搭配形式統(tǒng)計(jì)[J];科技信息;2011年17期

7 張建木;讀《唐蕃會(huì)盟碑》札記二則[J];中央民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);1981年01期

8 張連生;;藏文號(hào)碼代字及其計(jì)算機(jī)排索[J];語(yǔ)言研究;1983年02期

9 毛繼祖;解放前青海省藏文木刻本科技圖書(shū)印行概況[J];青海民族學(xué)院學(xué)報(bào);1989年03期

10 郭登元;漢詩(shī)(詞)藏譯淺談之一[J];青海民族學(xué)院學(xué)報(bào);1990年02期

相關(guān)會(huì)議論文 前10條

1 馬良成;運(yùn)中旺蘇;張步明;;北宋“崇寧重寶背藏文錢”初探[A];甘肅省錢幣學(xué)會(huì)第四次會(huì)員代表大會(huì)專輯[C];2001年

2 運(yùn)中旺蘇;張步明;;北宋“崇寧重寶背藏文錢”再探[A];第二屆西北五省區(qū)錢幣學(xué)會(huì)協(xié)作會(huì)議專輯[C];2002年

3 胡丹;;對(duì)文物征集與館藏文物調(diào)整的思考[A];贛博論壇——博物館現(xiàn)狀與發(fā)展前瞻論文集(一)[C];2003年

4 于洪志;;藏文信息交換技術(shù)的研究與實(shí)現(xiàn)[A];輝煌二十年——中國(guó)中文信息學(xué)會(huì)二十周年學(xué)術(shù)會(huì)議論文集[C];2001年

5 劉匯丹;諾明花;趙維納;吳健;賀也平;;藏文編碼轉(zhuǎn)換軟件“藏碼通”的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

6 陳乃雄;;一枚藏文錢釋[A];《內(nèi)蒙古金融研究》錢幣文集(第三輯)[C];2003年

7 孫文景;;藏文因明書(shū)目[A];因明新探——首屆因明學(xué)術(shù)討論會(huì)論文集[C];1983年

8 王小華;陸蓓;張國(guó)煊;;文本自動(dòng)分類的模糊方法[A];自然語(yǔ)言理解與機(jī)器翻譯——全國(guó)第六屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2001年

9 褚媛萍;;合理開(kāi)發(fā)、利用博物館館藏文物資源 充分發(fā)揮其社會(huì)教育功能[A];萃英集——青海省教育委員會(huì)、青海省教育學(xué)會(huì)優(yōu)秀教育論文集[C];2000年

10 李應(yīng)興;付婷;李勇;;基于LUCENE的藏文信息檢索的研究與應(yīng)用[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

相關(guān)重要報(bào)紙文章 前10條

1 本報(bào)記者 王向華;藏文圖書(shū)“走進(jìn)”藏區(qū)農(nóng)家書(shū)屋[N];四川日?qǐng)?bào);2009年

2 記者 涂洪長(zhǎng);手機(jī)藏文資訊研發(fā)啟動(dòng)[N];人民日?qǐng)?bào)海外版;2009年

3 本報(bào)記者 康 麗 茅衛(wèi)東;阿牛和他的普利藏文學(xué)校[N];中國(guó)教師報(bào);2005年

4 記者 王杰;藏文軟件推廣應(yīng)用項(xiàng)目啟動(dòng)儀式在拉薩舉行[N];西藏日?qǐng)?bào);2009年

5 涂洪長(zhǎng);手機(jī)藏文資訊研發(fā)啟動(dòng) 藏文將暢游無(wú)線通信網(wǎng)絡(luò)[N];中國(guó)民族報(bào);2009年

6 德吉 邊巴次仁;藏文走在我國(guó)少數(shù)民族文字信息化前列[N];中國(guó)民族報(bào);2008年

7 記者 張黎黎 曉勇;讓藏文馳騁在信息高速路上[N];西藏日?qǐng)?bào);2010年

8 記者 朗杰 裘立華;藏文詞典越來(lái)越厚[N];新華每日電訊;2002年

9 本報(bào)記者 王坤寧;我國(guó)藏文出版駛?cè)肟燔嚨繹N];中國(guó)新聞出版報(bào);2009年

10 記者 根秋多吉 克珠;本報(bào)選送的10件藏文新聞作品獲獎(jiǎng)[N];甘孜日?qǐng)?bào)(漢文);2007年

相關(guān)博士學(xué)位論文 前10條

1 芮建武;操作系統(tǒng)國(guó)際化基礎(chǔ)的研究與實(shí)踐[D];中國(guó)科學(xué)院研究生院(軟件研究所);2005年

2 張雪英;基于粗糙集理論的文本自動(dòng)分類研究[D];南京理工大學(xué);2005年

3 那加才旦;古代藏語(yǔ)文研究(7-11 A.D.)[D];中央民族大學(xué);2012年

4 斯塔;本體、方法、境界[D];中央民族大學(xué);2007年

5 段玉泉;語(yǔ)言背后的文化流傳:一組西夏藏傳佛教文獻(xiàn)解讀[D];蘭州大學(xué);2009年

6 田俊華;基于本體知識(shí)庫(kù)的教學(xué)資源自動(dòng)采集技術(shù)研究[D];南京師范大學(xué);2011年

7 張?jiān)?元代吐蕃地方行政體制研究[D];南京大學(xué);1993年

8 烏云畢力格;論《蘇布喜地》及其對(duì)蒙古箴言詩(shī)的影響[D];內(nèi)蒙古大學(xué);2009年

9 王獻(xiàn)軍;西藏政教合一制研究[D];南京大學(xué);1997年

10 王璞;藏族史學(xué)思想論綱[D];云南大學(xué);2002年

相關(guān)碩士學(xué)位論文 前10條

1 葉西切忠;基于web的藏文文本自動(dòng)分類研究與實(shí)現(xiàn)[D];青海民族大學(xué);2012年

2 李瓊瓊;網(wǎng)絡(luò)文本自動(dòng)分類器的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2010年

3 黃瑜青;基于支持向量機(jī)的文本自動(dòng)分類器的研究與應(yīng)用[D];廣東工業(yè)大學(xué);2012年

4 袁路妍;鎢層文本自動(dòng)分類技術(shù)的研究與應(yīng)用[D];東華大學(xué);2011年

5 包立偉;面向信息檢索的文本自動(dòng)分類技術(shù)研究[D];華東理工大學(xué);2013年

6 李真;基于貝葉斯的XML文本自動(dòng)分類技術(shù)研究[D];吉林大學(xué);2010年

7 聶璐;WEB文本自動(dòng)分類的設(shè)計(jì)與實(shí)現(xiàn)[D];西北大學(xué);2009年

8 普布旦增;藏文自動(dòng)分詞技術(shù)方法研究[D];西藏大學(xué);2010年

9 尼馬才讓;藏文書(shū)面語(yǔ)發(fā)展歷史研究[D];西北民族大學(xué);2011年

10 符會(huì)濤;基于互信息的文本自動(dòng)分類特征選擇方法研究[D];新疆大學(xué);2011年



本文編號(hào):1715828

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1715828.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b7ad1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com