基于領(lǐng)域概念體系的學(xué)術(shù)論文主題提取
發(fā)布時(shí)間:2017-07-29 20:30
本文關(guān)鍵詞:基于領(lǐng)域概念體系的學(xué)術(shù)論文主題提取
更多相關(guān)文章: 都柏林核元數(shù)據(jù)集 領(lǐng)域概念體系 領(lǐng)域詞典 術(shù)語共現(xiàn) 術(shù)語關(guān)系提取 篇章特征分析 主題提取 主題結(jié)構(gòu)
【摘要】: 本文通過對(duì)人類認(rèn)知模型的分析,提出了學(xué)術(shù)論文的主題提取系統(tǒng)模型。該系統(tǒng)模型分為構(gòu)建領(lǐng)域概念體系和主題提取二個(gè)模塊,構(gòu)建領(lǐng)域概念體系的目的是使計(jì)算機(jī)具備領(lǐng)域知識(shí),主題提取是使計(jì)算機(jī)能分析論文并提取主題。為了構(gòu)建領(lǐng)域概念體系,本文探討了建立領(lǐng)域詞典和基于術(shù)語共現(xiàn)的術(shù)語關(guān)系提取相結(jié)合的途徑,提出了基于術(shù)語共現(xiàn)的術(shù)語關(guān)系提取算法。通過分析論文中術(shù)語的共現(xiàn)關(guān)系,借用向量空間模型(VSM)理論和潛在語義分析(LSA)理論,用以表示和改良術(shù)語關(guān)系矩陣。并提出了三種關(guān)系提取算法。為改良提取結(jié)果,本課題還提出了二次關(guān)系提取算法。實(shí)驗(yàn)證明了這些算法的有效性。隨后本文通過模仿人類對(duì)論文主題的提取過程,提出了基于篇章特征分析的主題結(jié)構(gòu)提取算法。實(shí)驗(yàn)證明了該算法比單純的基于詞頻統(tǒng)計(jì)的提取算法更有效。
【關(guān)鍵詞】:都柏林核元數(shù)據(jù)集 領(lǐng)域概念體系 領(lǐng)域詞典 術(shù)語共現(xiàn) 術(shù)語關(guān)系提取 篇章特征分析 主題提取 主題結(jié)構(gòu)
【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2009
【分類號(hào)】:TP391.1
【目錄】:
- 摘要10-11
- ABSTRACT11-12
- 第1章 緒論12-18
- 1.1 課題背景12-16
- 1.1.1 都柏林核元數(shù)據(jù)12-13
- 1.1.2 信息提取13-14
- 1.1.3 語義web與領(lǐng)域本體14-15
- 1.1.4 語言知識(shí)庫15-16
- 1.2 課題研究目的、內(nèi)容和主要工作16-17
- 1.2.1 課題的主要工作16-17
- 1.3 文章結(jié)構(gòu)17-18
- 第2章 學(xué)術(shù)論文和都柏林核元數(shù)據(jù)18-28
- 2.1 學(xué)術(shù)論文及其特點(diǎn)18-22
- 2.1.1 學(xué)術(shù)論文及其分類18
- 2.1.2 學(xué)術(shù)論文的特征18-19
- 2.1.3 學(xué)術(shù)論文的結(jié)構(gòu)分析19-20
- 2.1.4 學(xué)術(shù)論文中的詞頻20-22
- 2.2 學(xué)術(shù)論文的都柏林核元數(shù)據(jù)22-26
- 2.3 小結(jié)26-28
- 第3章 學(xué)術(shù)論文主題提取系統(tǒng)模型28-42
- 3.1 系統(tǒng)模型的相關(guān)概念28-30
- 3.1.1 概念、術(shù)語和字詞短語28-29
- 3.1.2 主題、主題詞和主題結(jié)構(gòu)29-30
- 3.2 系統(tǒng)模型設(shè)計(jì)30-31
- 3.3 領(lǐng)域概念體系31-35
- 3.3.1 領(lǐng)域概念體系的結(jié)構(gòu)31-33
- 3.3.2 領(lǐng)域概念體系的術(shù)語關(guān)系33-34
- 3.3.3 領(lǐng)域概念體系的構(gòu)建34-35
- 3.4 領(lǐng)域詞典35-41
- 3.4.1 WordNet、HowNet和領(lǐng)域本體MeSH35-38
- 3.4.2 領(lǐng)域詞典的結(jié)構(gòu)38-41
- 3.5 小結(jié)41-42
- 第4章 基于術(shù)語共現(xiàn)的術(shù)語關(guān)系提取算法42-62
- 4.1 術(shù)語關(guān)系提取流程42-43
- 4.2 文檔的特征向量描述43-50
- 4.2.1 向量空間模型43-44
- 4.2.2 Item-Term矩陣和Term-Term關(guān)系矩陣44-47
- 4.2.3 Term-Term關(guān)系矩陣改良47-50
- 4.2.3.1 潛在語義分析47-50
- 4.2.3.2 改良關(guān)系矩陣50
- 4.3 術(shù)語關(guān)系提取算法50-55
- 4.3.1 全關(guān)聯(lián)關(guān)系提取算法51-52
- 4.3.2 單關(guān)聯(lián)關(guān)系提取算法52-53
- 4.3.3 部分關(guān)聯(lián)關(guān)系提取算法53-54
- 4.3.4 二次關(guān)系提取算法54-55
- 4.4 算法試驗(yàn)與評(píng)估55-61
- 4.4.1 試驗(yàn)數(shù)據(jù)55-57
- 4.4.2 關(guān)系提取結(jié)果分析57-59
- 4.4.2.1 全關(guān)聯(lián)關(guān)系提取結(jié)果分析57-58
- 4.4.2.2 單關(guān)聯(lián)關(guān)系提取結(jié)果分析58
- 4.4.2.3 部分關(guān)聯(lián)關(guān)系提取結(jié)果分析58
- 4.4.2.4 結(jié)果比較分析58-59
- 4.4.3 二次關(guān)系提取結(jié)果分析59-61
- 4.4.4 試驗(yàn)結(jié)論61
- 4.5 小結(jié)61-62
- 第5章 基于篇章特征分析的主題結(jié)構(gòu)提取算法62-76
- 5.1 主題結(jié)構(gòu)提取流程62-63
- 5.2 術(shù)語選取63-71
- 5.2.1 文檔預(yù)處理63-64
- 5.2.2 分詞與句法分析64-71
- 5.3 計(jì)算術(shù)語重要度71-73
- 5.4 生成主題結(jié)構(gòu)73-74
- 5.5 實(shí)驗(yàn)分析與評(píng)估74-75
- 5.6 小結(jié)75-76
- 第6章 結(jié)束語76-78
- 6.1 工作總結(jié)76
- 6.2 主要?jiǎng)?chuàng)新點(diǎn)76-77
- 6.3 研究展望77-78
- 致謝78-79
- 參考文獻(xiàn)79-84
- 附錄 攻讀碩士期間發(fā)表的論文84
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前7條
1 褚振莉;英漢語言與文章主題句的相關(guān)性[J];成都教育學(xué)院學(xué)報(bào);2005年07期
2 林鴻飛,姚天順;基于潛在語義索引的文本瀏覽機(jī)制[J];中文信息學(xué)報(bào);2000年05期
3 于江生 ,俞士汶;中文概念詞典的結(jié)構(gòu)[J];中文信息學(xué)報(bào);2002年04期
4 俞士汶;網(wǎng)上的基礎(chǔ)語言信息資源[J];術(shù)語標(biāo)準(zhǔn)化與信息技術(shù);2001年04期
5 托馬斯·貝克;夏翠娟;劉煒;;DC詞表的維護(hù):實(shí)踐、策略與模型[J];圖書館雜志;2004年05期
6 馬輝民;李衛(wèi)華;吳良元;;VSM在中文文本聚類中的應(yīng)用及實(shí)證分析[J];武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版);2006年04期
7 董振東,董強(qiáng);面向信息處理的詞匯語義研究中的若干問題[J];語言文字應(yīng)用;2001年03期
,本文編號(hào):590999
本文鏈接:http://sikaile.net/wenshubaike/lwzy/590999.html
最近更新
教材專著