輿情分析中維吾爾文關(guān)鍵詞提取研究
發(fā)布時間:2017-04-19 20:32
本文關(guān)鍵詞:輿情分析中維吾爾文關(guān)鍵詞提取研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著網(wǎng)絡(luò)信息化的高速發(fā)展,在全球信息量爆炸式增長的同時,新疆地區(qū)的數(shù)字信息化和網(wǎng)絡(luò)化也在穩(wěn)步推進,信息量的日益倍增,已使得傳統(tǒng)手工篩選信息主旨和主題詞的功效力不能及,在海量數(shù)據(jù)面前,如何快速、高效地幫助用戶獲得想要的信息,一直是人們探索的方向。文本挖掘中的關(guān)鍵詞提取,無疑可以幫助人們達到事半功倍的效果。由于地域差異和技術(shù)的落后,成熟、公開而又實用的維吾爾文關(guān)鍵詞提取方法一直未能成形,而這一方法的實現(xiàn)將對信息檢索、輿情監(jiān)控、搜索引擎等領(lǐng)域和政府、醫(yī)療、教育等部門的發(fā)展和服務(wù)起到重要的推動作用,因而維吾爾文關(guān)鍵詞提取方法的實現(xiàn)具有重要的少數(shù)民族語言代表性和示范性。通過統(tǒng)計詞序,并進一步進行詞語組合,各影響因子的權(quán)重計算,對候選詞進行綜合權(quán)重計算和排序,過濾停用詞、低頻詞,組合詞過濾,并提取關(guān)鍵詞。在進行多次過濾和加權(quán)之后,得到的關(guān)鍵詞能夠使讀者通過這些詞來識別文章主題和主要內(nèi)容。把中文方法移植到維吾爾文單文本關(guān)鍵詞提取過程中,并加入維吾爾文詞干提取和停用詞過濾等要素,在去除基于文本集的TFIDF算法而最大限度地降低對準(zhǔn)確率的影響的同時,實現(xiàn)了基于綜合特征加權(quán)的統(tǒng)計方法,成功地提取出了單文本維吾爾文關(guān)鍵詞,由于摒棄了TFIDF算法,其效率也得到了大大的提升。實驗表明,該方法對中文文本識別的準(zhǔn)確率能保持在65%以上,對維吾爾文的提取的準(zhǔn)確率在56%以上,同時對未標(biāo)注的新詞在一定程度上具有反饋意義。
【關(guān)鍵詞】:權(quán)重 關(guān)鍵詞 單文本 詞語組合 維吾爾文
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要2-3
- Abstract3-7
- 第一章 緒論7-15
- 1.1 研究背景與意義7-8
- 1.2 關(guān)鍵詞提取現(xiàn)狀8-12
- 1.2.1 國內(nèi)外研究歷史與現(xiàn)狀10-11
- 1.2.2 維吾爾文關(guān)鍵詞提取現(xiàn)狀11-12
- 1.3 本文研究內(nèi)容12-13
- 1.4 論文章節(jié)組織結(jié)構(gòu)13-15
- 第二章 關(guān)鍵詞提取的相關(guān)技術(shù)15-19
- 2.1 TFIDF算法15-16
- 2.2 TextRank算法16-17
- 2.3 SVM算法17-18
- 2.4 綜合特征法18
- 2.5 本章小結(jié)18-19
- 第三章 中文與維吾爾文關(guān)鍵詞提取19-43
- 3.1 Myeclipse與ICTCLAS19-20
- 3.1.1 Myeclipse10特點19
- 3.1.2 ICTCLAS簡介19-20
- 3.2 中文關(guān)鍵詞提取20-36
- 3.2.1 文關(guān)鍵詞提取系統(tǒng)流程20
- 3.2.2 中文停用詞庫20-21
- 3.2.3 文本預(yù)處理21-22
- 3.2.4 詞性組合表22-23
- 3.2.5 特征加權(quán)23-27
- 3.2.5.1 TFIDF特點23-24
- 3.2.5.2 詞頻加權(quán)24-25
- 3.2.5.3 詞性加權(quán)25
- 3.2.5.4 位置加權(quán)25-26
- 3.2.5.5 詞長加權(quán)26
- 3.2.5.6 詞跨度加權(quán)26-27
- 3.2.5.7 最終權(quán)重計算27
- 3.2.6 組合詞算法27-29
- 3.2.7 分詞接.類定義29-32
- 3.2.8 排序算法32-33
- 3.2.9 二次過濾33-34
- 3.2.10 子串過濾34-36
- 3.3 維吾爾文關(guān)鍵詞提取36-42
- 3.3.1 維吾爾文特點36-37
- 3.3.2 維吾爾文停用詞庫37-38
- 3.3.3 維吾爾文詞干提取與詞性標(biāo)注38-39
- 3.3.4 維吾爾文文本預(yù)處理39-40
- 3.3.5 分詞接.類定義40-41
- 3.3.6 維吾爾文系統(tǒng)流程41-42
- 3.4 移植改動項說明42
- 3.5 本章小結(jié)42-43
- 第四章 系統(tǒng)實現(xiàn)及測試43-50
- 4.1 環(huán)境搭建43-44
- 4.2 界面設(shè)計44-45
- 4.3 中文系統(tǒng)實現(xiàn)及測試45-48
- 4.4 維吾爾文系統(tǒng)實現(xiàn)及測試48-49
- 4.5 本章小結(jié)49-50
- 第五章 總結(jié)與展望50-51
- 5.1 總結(jié)50
- 5.2 展望50-51
- 參考文獻51-54
- 研究生期間發(fā)表論文54-55
- 致謝55-56
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 蔣昌金;彭宏;陳建超;馬千里;嚴(yán)桂奪;;基于組合詞和同義詞集的關(guān)鍵詞提取算法[J];計算機應(yīng)用研究;2010年08期
2 袁津生;毛新武;;基于組合特征的中文新聞網(wǎng)頁關(guān)鍵詞提取方法[J];計算機工程與應(yīng)用;2014年19期
3 楊穎;戴彬;;基于多特征的中文關(guān)鍵詞抽取方法[J];計算機應(yīng)用與軟件;2014年11期
4 張紅鷹;;中文文本關(guān)鍵詞提取算法[J];計算機系統(tǒng)應(yīng)用;2009年08期
本文關(guān)鍵詞:輿情分析中維吾爾文關(guān)鍵詞提取研究,,由筆耕文化傳播整理發(fā)布。
本文編號:317098
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/317098.html
最近更新
教材專著