基于全覆蓋粒計(jì)算模型的文本表示和特征提取研究
發(fā)布時(shí)間:2017-06-25 19:00
本文關(guān)鍵詞:基于全覆蓋粒計(jì)算模型的文本表示和特征提取研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著大數(shù)據(jù)時(shí)代的到來(lái)產(chǎn)生海量的文本數(shù)據(jù)資源,文本挖掘面臨從按秒激增的文本中探求有價(jià)值信息的艱巨任務(wù)。文本表示模型和文本特征提取是文本挖掘領(lǐng)域的重要研究方向,能夠智能地挖掘文本中的信息是文本挖掘領(lǐng)域的迫切需求。粒計(jì)算是人工智能領(lǐng)域中一門挖掘海量信息的新理論。本文尋求基于粒計(jì)算理論的文本表示模型和特征提取算法來(lái)挖掘海量文本信息是一種有益的嘗試;贚DA(Latent Dirichlet Allocation)的文本主題模型是建立在統(tǒng)計(jì)理論上的一種文本表示模型,其中關(guān)鍵詞是表征主題語(yǔ)義的基本特征。LDA可以將某個(gè)主題下生成概率大的關(guān)鍵詞提取出來(lái),而這些關(guān)鍵詞對(duì)于表征該主題未必重要。鑒于此,本文提出了一種基于集合論的文本表示模型,即文本的全覆蓋粒計(jì)算模型(Full Covering Granular Computing Model of Texts,FCGMT),并在此基礎(chǔ)上提出一種基于全覆蓋粒計(jì)算模型的重要關(guān)鍵詞提取算法,利用全覆蓋的約簡(jiǎn)思想對(duì)LDA提取的關(guān)鍵詞計(jì)算其重要度,從而選出表征該主題語(yǔ)義的關(guān)鍵詞。用復(fù)旦大學(xué)語(yǔ)料庫(kù)、搜狗新聞?wù)Z料和網(wǎng)絡(luò)抓取的實(shí)時(shí)語(yǔ)料三類型語(yǔ)料庫(kù)做實(shí)驗(yàn),與基于TFIDF的關(guān)鍵詞提取算法和基于LDA的關(guān)鍵詞提取算法做比較,證明本文算法的有效性。本文的主要研究?jī)?nèi)容有:1、在全覆蓋粒計(jì)算模型的基礎(chǔ)上設(shè)計(jì)文本的全覆蓋粒計(jì)算模型表示方法,基于LDA主題模型的訓(xùn)練獲得候選詞,然后根據(jù)覆蓋粒計(jì)算模型理論,找到語(yǔ)料庫(kù)、文檔、主題、候選詞與論域、論域中的點(diǎn)、覆蓋、覆蓋元之間的一一對(duì)應(yīng)關(guān)系,構(gòu)建出文本的“主題-候選詞-文檔”全覆蓋粒計(jì)算模型,給基于FCGMT的重要關(guān)鍵詞提取算法提供理論依據(jù)。2、提出全覆蓋粒的約簡(jiǎn)算法的一種改進(jìn)方法,優(yōu)化了全覆蓋粒計(jì)算模型中屬性約簡(jiǎn)的過程,針對(duì)文本特征的多維性,特征的屬性重要度具有多樣性并不是單純的1和0,重新定義了屬性重要度的度量方法。并通過重要關(guān)鍵詞提取實(shí)驗(yàn)證明粒的約簡(jiǎn)的改進(jìn)算法的有效性。3、設(shè)計(jì)了一種基于文本的全覆蓋粒計(jì)算模型的關(guān)鍵詞提取算法,首先在文檔預(yù)處理和主題模型訓(xùn)練后得到候選詞,然后利用全覆蓋粒計(jì)算約簡(jiǎn)算法進(jìn)行候選詞權(quán)重的計(jì)算,通過實(shí)驗(yàn)分析找到候選詞重要度的閾值的合理取值,從而提取出關(guān)鍵詞。與兩種經(jīng)典的關(guān)鍵詞提取算法進(jìn)行比較,使用三種類型的語(yǔ)料庫(kù)做實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文算法提取的關(guān)鍵詞能較好的表征文檔主題。關(guān)鍵詞:
【關(guān)鍵詞】:文本表示模型 粒計(jì)算 全覆蓋 重要關(guān)鍵詞提取
【學(xué)位授予單位】:太原理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
- 摘要3-5
- ABSTRACT5-10
- 主要符號(hào)索引10-12
- 第一章 緒論12-20
- 1.1 選題背景及意義12-13
- 1.2 研究現(xiàn)狀13-16
- 1.2.1 粒計(jì)算的研究概述13-14
- 1.2.2 文檔表示模型研究現(xiàn)狀14-15
- 1.2.3 文檔關(guān)鍵詞提取研究現(xiàn)狀15-16
- 1.3 本文的研究?jī)?nèi)容16-17
- 1.4 論文的組織結(jié)構(gòu)和章節(jié)安排17-20
- 第二章 理論基礎(chǔ)20-36
- 2.1 全覆蓋粒計(jì)算模型理論20-23
- 2.1.1 全覆蓋粒計(jì)算模型定義20-22
- 2.1.2 全覆蓋粒計(jì)算模型的知識(shí)約簡(jiǎn)22-23
- 2.2 文本表示模型23-27
- 2.2.1 布爾模型23-24
- 2.2.2 向量空間模型24-25
- 2.2.3 概率模型25-26
- 2.2.4 圖模型26-27
- 2.3 關(guān)鍵詞提取理論27-34
- 2.3.1 文本特征27-28
- 2.3.2 中文分詞技術(shù)28-31
- 2.3.3 關(guān)鍵詞提取方法31-34
- 2.4 本章小結(jié)34-36
- 第三章 基于全覆蓋粒計(jì)算模型的文本表示與關(guān)鍵詞提取36-46
- 3.1 文本的全覆蓋粒計(jì)算模型36-40
- 3.1.1 文本的全覆蓋粒計(jì)算模型的構(gòu)建36-38
- 3.1.2 候選詞的權(quán)重計(jì)算38
- 3.1.3 模型示例38-40
- 3.2 全覆蓋粒的約簡(jiǎn)算法的改進(jìn)40-42
- 3.3 重要關(guān)鍵詞提取算法42-44
- 3.4 本章小結(jié)44-46
- 第四章 實(shí)驗(yàn)與結(jié)果分析46-58
- 4.1 實(shí)驗(yàn)準(zhǔn)備46-50
- 4.1.1 實(shí)驗(yàn)環(huán)境46
- 4.1.2 實(shí)驗(yàn)語(yǔ)料46-48
- 4.1.3 參數(shù)估計(jì)48-50
- 4.2 評(píng)價(jià)方法50-51
- 4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析51-55
- 4.4 關(guān)鍵詞可視化55-57
- 4.4.1 數(shù)據(jù)可視化55
- 4.4.2 圖悅55-56
- 4.4.3 可視化結(jié)果56-57
- 4.5 本章小結(jié)57-58
- 第五章 總結(jié)與展望58-60
- 5.1 全文內(nèi)容總結(jié)58
- 5.2 研究展望58-60
- 參考文獻(xiàn)60-66
- 致謝66-68
- 攻讀碩士學(xué)位期間發(fā)表的論文68
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 謝s,
本文編號(hào):483146
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/483146.html
最近更新
教材專著