天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

維吾爾語(yǔ)單文檔自動(dòng)文摘算法研究

發(fā)布時(shí)間:2019-08-03 20:19
【摘要】:自動(dòng)文摘技術(shù)通過(guò)自動(dòng)選擇文檔中的代表句子,可以極大提高信息使用的效率。近年來(lái),基于英文和中文的自動(dòng)文摘技術(shù)獲得廣泛關(guān)注并取得長(zhǎng)足進(jìn)展,而對(duì)少數(shù)民族語(yǔ)言的自動(dòng)文摘研究還不夠充分,例如維吾爾語(yǔ)。 本文首先從維吾爾語(yǔ)網(wǎng)站中下載了588篇文檔(屬于教育,計(jì)算機(jī),軍事,房地產(chǎn),歷史,地理等類(lèi))建立了文檔語(yǔ)料庫(kù)。在預(yù)處理方面,充分考慮維吾爾語(yǔ)語(yǔ)言信息的特點(diǎn)和語(yǔ)法規(guī)則,分析了停用詞過(guò)濾,詞干提取,維吾爾語(yǔ)老文字轉(zhuǎn)換維吾爾語(yǔ)新文字等預(yù)處理過(guò)程對(duì)文摘質(zhì)量的影響。 在自動(dòng)文摘提取方面,本文使用基于TF-IDF關(guān)鍵詞的自動(dòng)文摘方法,基于TextRank關(guān)鍵詞的自動(dòng)文摘方法,基于LexRank算法的自動(dòng)文摘方法,基于LexRank和TextRank權(quán)重結(jié)合的自動(dòng)文摘方法等四種不同的方法來(lái)對(duì)維吾爾語(yǔ)單文檔進(jìn)行自動(dòng)文摘研究。首先構(gòu)造了一個(gè)基于關(guān)鍵詞的單文檔自動(dòng)文摘系統(tǒng)。以關(guān)鍵詞為主,我們使用了基于TF-IDF和基于TextRank的兩種關(guān)鍵詞提取算法來(lái)提取關(guān)鍵詞,進(jìn)一步實(shí)現(xiàn)了包括這些關(guān)鍵詞的句子來(lái)形成文摘,對(duì)文摘質(zhì)量進(jìn)行比較。在實(shí)驗(yàn)中采用ROUGE的平均值作為評(píng)價(jià)文檔文摘的性能指標(biāo)。證明在充分考慮到維吾爾語(yǔ)語(yǔ)言信息的前提下,基于TextRank的方法提取出的關(guān)鍵詞具有更強(qiáng)的表征性,因此更有利于提高維吾爾語(yǔ)自動(dòng)文摘系統(tǒng)的性能。第二次我們基于英文的LexRank算法應(yīng)用于維吾爾語(yǔ)文檔,實(shí)現(xiàn)了基于LexRank算法的維吾爾語(yǔ)單文檔自動(dòng)文摘系統(tǒng)。同時(shí)考慮LexRank和TextRank結(jié)合的必要性,比較了基于LexRank算法和LexRank和TextRank權(quán)重結(jié)合的算法對(duì)自動(dòng)文摘的效果。實(shí)驗(yàn)證明,LexRank算法考慮的只是句子和句子之間的信息,不考慮詞的信息。因此,使用TextRank權(quán)重來(lái)也可以考慮詞的信息。實(shí)驗(yàn)結(jié)果表明,基于LexRank和TextRank權(quán)重結(jié)合的算法效果顯著地優(yōu)于基于LexRank算法和基于關(guān)鍵詞的實(shí)驗(yàn)結(jié)果。證明基于LexRank和TextRank權(quán)重結(jié)合的方法更適合維吾爾語(yǔ)單文檔自動(dòng)文摘應(yīng)用。
【圖文】:

維吾爾語(yǔ)單文檔自動(dòng)文摘算法研究


新疆大學(xué)碩士學(xué)位論文20圖3.1 原文檔圖3.2 轉(zhuǎn)換維吾爾新文后的文本3.3.2 停用詞的過(guò)濾任何語(yǔ)言中都有一些高頻詞,這些詞具有極強(qiáng)的功能性,如完成語(yǔ)法規(guī)則,連慣語(yǔ)氣和語(yǔ)義等。但這些詞卻缺乏表征性,不直接反映文章的主題,這些詞通常稱(chēng)為停用詞(Stop words)。停用詞一般分為兩類(lèi):第一類(lèi)是弱詞性詞,,包括助詞,連詞,副詞,量詞,代詞,數(shù)詞,嘆詞等。這第一類(lèi)詞本身沒(méi)有實(shí)際意義,和類(lèi)別信息一點(diǎn)關(guān)系都沒(méi)有;第二類(lèi)是在各類(lèi)文檔中都會(huì)出現(xiàn)的詞匯,這些詞均勻分布在各類(lèi)文檔,因則區(qū)分類(lèi)別功能很弱。降低特征空間的維數(shù)和減少噪音依靠單詞的過(guò)濾。對(duì)文檔摘要任務(wù)而言,去掉這些缺少分類(lèi)能力的停用詞可以使那些具有語(yǔ)義表征的詞更加突出

維吾爾語(yǔ)單文檔自動(dòng)文摘算法研究


20圖3.1 原文檔圖3.2 轉(zhuǎn)換維吾爾新文后的文本3.3.2 停用詞的過(guò)濾任何語(yǔ)言中都有一些高頻詞,這些詞具有極強(qiáng)的功能性,如完成語(yǔ)法規(guī)則,連慣語(yǔ)氣和語(yǔ)義等。但這些詞卻缺乏表征性,不直接反映文章的主題,這些詞通常稱(chēng)為停用詞(Stop words)。停用詞一般分為兩類(lèi):第一類(lèi)是弱詞性詞,包括助詞,連詞,副詞,量詞,代詞,數(shù)詞,嘆詞等。這第一類(lèi)詞本身沒(méi)有實(shí)際意義,和類(lèi)別信息一點(diǎn)關(guān)系都沒(méi)有;第二類(lèi)是在各類(lèi)文檔中都會(huì)出現(xiàn)的詞匯,這些詞均勻分布在各類(lèi)文檔,因則區(qū)分類(lèi)別功能很弱。降低特征空間的維數(shù)和減少噪音依靠單詞的過(guò)濾。對(duì)文檔摘要任務(wù)而言,去掉這些缺少分類(lèi)能力的停用詞可以使那些具有語(yǔ)義表征的詞更加突出
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前8條

1 傅間蓮;陳群秀;;一種新的自動(dòng)文摘系統(tǒng)評(píng)價(jià)方法[J];計(jì)算機(jī)工程與應(yīng)用;2006年18期

2 紀(jì)文倩;李舟軍;巢文涵;陳小明;;一種基于LexRank算法的改進(jìn)的自動(dòng)文摘系統(tǒng)[J];計(jì)算機(jī)科學(xué);2010年05期

3 蔣效宇;;基于關(guān)鍵詞抽取的自動(dòng)文摘算法[J];計(jì)算機(jī)工程;2012年03期

4 俞輝;;基于LSA和pLSA的多文檔自動(dòng)文摘[J];計(jì)算機(jī)工程與科學(xué);2009年09期

5 李偉;;中文語(yǔ)句相似度計(jì)算的方法初探[J];蘭州工業(yè)高等專(zhuān)科學(xué)校學(xué)報(bào);2009年04期

6 劉挺,吳巖,王開(kāi)鑄;基于信息抽取和文本生成的自動(dòng)文摘系統(tǒng)設(shè)計(jì)[J];情報(bào)學(xué)報(bào);1997年S1期

7 張清軍,朱才連;基于LBS的中文自動(dòng)文摘技術(shù)研究[J];四川大學(xué)學(xué)報(bào)(工程科學(xué)版);2004年04期

8 王珍;維尼拉·木沙江;;基于改進(jìn)TFIDF的文本特征選擇方法[J];現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版);2009年07期

相關(guān)博士學(xué)位論文 前1條

1 韋福如;基于圖模型多文檔自動(dòng)文摘研究[D];武漢大學(xué);2009年



本文編號(hào):2522776

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/fangdichanjingjilunwen/2522776.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)e0aa9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com