【摘要】:當(dāng)今時(shí)代隨著互聯(lián)網(wǎng)的迅速發(fā)展,我們要面對(duì)的數(shù)據(jù)信息量日漸龐大,,怎樣才能從海量的數(shù)據(jù)中選擇出我們需要的、感興趣的信息已經(jīng)成為了迫切需要解決的問題。數(shù)據(jù)挖掘技術(shù)在選擇與提取方面的重要性日漸凸現(xiàn)出來。文本挖掘是數(shù)據(jù)挖掘中的重要組成部分之一,而關(guān)鍵詞抽取是文本挖掘的重要內(nèi)容。所謂關(guān)鍵詞抽取,是指通過文本分析技術(shù),自動(dòng)提取出最具有代表性的關(guān)鍵集合。關(guān)鍵詞抽取技術(shù)對(duì)自然語言處理、文本自動(dòng)摘要生成、文本分類、文本聚類和信息檢索等研究都具有重要意義。當(dāng)前絕大多數(shù)關(guān)鍵詞提取技術(shù)關(guān)注對(duì)文本內(nèi)容的摘要性描述,本文研究區(qū)分性關(guān)鍵詞提取技術(shù),即所提取的關(guān)鍵詞目的是對(duì)文本具有更強(qiáng)的分類能力,而不是表達(dá)文本內(nèi)容本身,這一研究對(duì)稀疏性文本分類具有重要意義。 本文首先從維吾爾文網(wǎng)站中下載了1000篇文檔(500篇屬于健康類的,500篇屬于教育、計(jì)算機(jī)、軍事、房地產(chǎn)、歷史、地理等類)建立了文本語料庫。 在特征詞語提取方面,本文首先使用了基于TextRank的多文檔關(guān)鍵詞提取方法。用這一方法選出的100個(gè)關(guān)鍵詞為特征項(xiàng)的分類結(jié)果為80%。為了進(jìn)一步提高分類精度,本文又研究了基于詞頻率/逆文檔頻率(TF/IDF)區(qū)分性統(tǒng)計(jì)信息的關(guān)鍵詞選擇方法。其中包含了10種基于TF/IDF的區(qū)分信息:DF差異,DF絕對(duì)差異,TF差異,TF絕對(duì)差異,TF*DF差異,TF*DF絕對(duì)差異,TF*IDF差異,TF*IDF絕對(duì)差異,TF*DF*IDF差異,TF*DF*IDF絕對(duì)差異。實(shí)驗(yàn)證明第二種方法選出的關(guān)鍵詞具有更為明顯的分類能力,在100個(gè)關(guān)鍵詞為特征項(xiàng)的實(shí)驗(yàn)中分類準(zhǔn)確率可達(dá)98%。 在開發(fā)工具和編程語言方面:在開源的TextRank和LIBSVM工具軟件平臺(tái)基礎(chǔ)上,通過Perl和Python實(shí)現(xiàn)了以上維吾爾文區(qū)分性關(guān)鍵性詞語提取系統(tǒng),并對(duì)系統(tǒng)運(yùn)行結(jié)果進(jìn)行了分析。
[Abstract]:......
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 都云琪,肖詩斌;基于支持向量機(jī)的中文文本自動(dòng)分類研究[J];計(jì)算機(jī)工程;2002年11期
2 張玉芳;彭時(shí)名;呂佳;;基于文本分類TFIDF方法的改進(jìn)與應(yīng)用[J];計(jì)算機(jī)工程;2006年19期
3 鄭家恒,盧嬌麗;關(guān)鍵詞抽取方法的研究[J];計(jì)算機(jī)工程;2005年18期
4 索紅光;劉玉樹;曹淑英;;一種基于詞匯鏈的關(guān)鍵詞抽取方法[J];中文信息學(xué)報(bào);2006年06期
相關(guān)碩士學(xué)位論文 前9條
1 石佑紅;基于支持向量機(jī)的文本分類的研究[D];北京交通大學(xué);2007年
2 葉志剛;SVM在文本分類中的應(yīng)用[D];哈爾濱工程大學(xué);2006年
3 杜圣東;基于多類支持向量機(jī)的文本分類研究[D];重慶大學(xué);2007年
4 應(yīng)偉;基于支持向量機(jī)的文本分類方法研究[D];天津大學(xué);2006年
5 鄒漢斌;支持向量機(jī)在文本分類中的應(yīng)用[D];江南大學(xué);2006年
6 代亮;基于支持向量機(jī)的文本分類問題研究[D];大連海事大學(xué);2007年
7 馬忠寶;基于支持向量機(jī)的中文文本分類系統(tǒng)研究[D];武漢理工大學(xué);2006年
8 陳超;基于支持向量機(jī)的中文文本分類的系統(tǒng)研究[D];武漢理工大學(xué);2007年
9 牛肖瀟;支持向量機(jī)及用于文本分類的研究[D];武漢理工大學(xué);2006年
本文編號(hào):
2467858
本文鏈接:http://sikaile.net/jingjilunwen/fangdichanjingjilunwen/2467858.html