基于本體的文本特征選取和加權(quán)方法研究
發(fā)布時間:2017-04-25 04:00
本文關(guān)鍵詞:基于本體的文本特征選取和加權(quán)方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】: 傳統(tǒng)的文本特征選取和加權(quán)方法主要是基于統(tǒng)計理論和機器學習方法的,在解決數(shù)據(jù)稀疏方面存在缺陷,在此基礎(chǔ)上進行的文本分類精度往往都不能獲得令人滿意的效果,而且大量的研究結(jié)果表明,采用傳統(tǒng)的文本特征選取方法獲得的特征向量中,大量特征項之間都存在語義上的關(guān)聯(lián)。本體是對客觀存在的共享概念及其關(guān)系的形式化與明確的描述,具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持。在文本特征選取過程中引入本體可以很好的將特征選取從詞的層面上升到概念的層次,挖掘術(shù)語之間的更深層次上的關(guān)系;诖,本文提出一種基于本體的文本特征選取和加權(quán)方法。 首先通過去除停用詞和詞干提取等文本預(yù)處理方法對文本進行預(yù)處理,然后采用向量空間模型表示文本特征,獲得初始特征向量。然后引入本體,將特征項映射到概念。基于本體的文本特征選取方法包括三個方面:構(gòu)建文本概念樹,特征項到概念的映射和計算初始權(quán)重。由于Protégé具有良好的可視化功能,在本體構(gòu)建的過程中可以自動生成有關(guān)概念之間關(guān)系的結(jié)構(gòu)圖,也即文本概念樹。文本概念樹清晰的表示出了術(shù)語之間的層次關(guān)系,借此可以將特征項映射到概念。根據(jù)不同的術(shù)語關(guān)系,映射過程會出現(xiàn)一對一、多對一和多對多的情況,針對這三種情況,采用多個特征項共同映射同一概念的最大匹配方法。TF·IDF方法是特征加權(quán)方法中應(yīng)用最為廣泛的一種方法,本文采用該方法計算特征項的初始權(quán)重,但是TF·IDF方法在計算術(shù)語權(quán)重時沒有考慮特征項之間的語義關(guān)系。為了使其更好的對特征項賦權(quán),本文根據(jù)映射情況對該方法進行了加權(quán)改進。本文使用OWL語言和本體構(gòu)建工具Protégé構(gòu)建了一個小型的教育技術(shù)領(lǐng)域的本體模型,將該模型用于實驗。實驗結(jié)果分析表明,本文提出的方法能有效地提高文本分類的精度和降低特征向量的維數(shù)。
【關(guān)鍵詞】:文本特征選取 本體 映射 概念 特征加權(quán)
【學位授予單位】:河北大學
【學位級別】:碩士
【學位授予年份】:2010
【分類號】:C931.6
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 引言9-14
- 1.1 研究背景9
- 1.2 國內(nèi)外研究現(xiàn)狀9-12
- 1.2.1 國外研究現(xiàn)狀10-11
- 1.2.2 國內(nèi)研究現(xiàn)狀11-12
- 1.3 本文所做的主要研究工作12
- 1.4 論文組織結(jié)構(gòu)12-13
- 1.5 本章小結(jié)13-14
- 第2章 相關(guān)理論及其技術(shù)14-23
- 2.1 文本的預(yù)處理和特征表示14-16
- 2.1.1 向量空間模型15
- 2.1.2 布爾模型15-16
- 2.2 傳統(tǒng)的文本特征選取方法16-19
- 2.2.1 互信息16-17
- 2.2.2 信息增益17-18
- 2.2.3 CHI 統(tǒng)計18
- 2.2.4 基于文檔頻率的方法18-19
- 2.3 傳統(tǒng)的文本特征選取方法的比較分析19-20
- 2.4 本體及其在信息檢索領(lǐng)域的應(yīng)用20-22
- 2.4.1 本體的界定20-21
- 2.4.2 本體在信息檢索領(lǐng)域的應(yīng)用21-22
- 2.5 本章小結(jié)22-23
- 第3章 基于本體的特征選取和加權(quán)方法研究23-41
- 3.1 教育技術(shù)領(lǐng)域本體的構(gòu)建23-31
- 3.1.1 教育技術(shù)領(lǐng)域本體的構(gòu)建工具23-25
- 3.1.2 建模決策25
- 3.1.3 定義類、子類和屬性25-29
- 3.1.4 教育本體模型29-31
- 3.2 基于本體的文本特征選取方法31-35
- 3.2.1 構(gòu)建文本概念樹31-33
- 3.2.2 特征項到概念的映射33-35
- 3.3 基于本體的加權(quán)改進35-39
- 3.3.1 初始權(quán)重計算35-38
- 3.3.2 基于本體的加權(quán)改進38-39
- 3.4 本章小結(jié)39-41
- 第4章 實驗及結(jié)果分析41-47
- 4.1 數(shù)據(jù)收集41
- 4.2 數(shù)據(jù)處理41-44
- 4.3 實驗結(jié)果分析44-46
- 4.4 本章小結(jié)46-47
- 第5章 研究總結(jié)與展望47-50
- 5.1 工作總結(jié)47-48
- 5.2 工作展望48-50
- 參考文獻50-53
- 致謝53-54
- 攻讀碩士學位期間發(fā)表論文情況54
【引證文獻】
中國碩士學位論文全文數(shù)據(jù)庫 前3條
1 李倩;基于本體的BIM環(huán)境下文檔管理系統(tǒng)研究[D];大連理工大學;2011年
2 簡璐瑤;基于領(lǐng)域本體的公安案情文本挖掘研究[D];南昌大學;2012年
3 鐘銳;基于語義的圖像檢索系統(tǒng)基礎(chǔ)技術(shù)研究[D];重慶大學;2012年
本文關(guān)鍵詞:基于本體的文本特征選取和加權(quán)方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號:325542
本文鏈接:http://sikaile.net/guanlilunwen/yunyingzuzhiguanlilunwen/325542.html
最近更新
教材專著