基于關(guān)鍵短語(yǔ)的文本內(nèi)容標(biāo)引研究
發(fā)布時(shí)間:2023-02-13 17:43
爆炸式增長(zhǎng)的信息資源缺乏內(nèi)容的結(jié)構(gòu)化,大大降低了人們的檢索效率。因此,如何將龐雜無(wú)序的資源組織起來(lái),提高人們利用信息的效率,成為信息科學(xué)當(dāng)前的一個(gè)重要課題。 良好的信息組織和資源表示是高質(zhì)量信息檢索的基石,文本內(nèi)容標(biāo)引,特別是其內(nèi)部特征如類目和主題詞的標(biāo)引,是信息組織和資源表示的核心。本文利用特征提取方法,在大規(guī)模分類語(yǔ)料庫(kù)中將具有較強(qiáng)特征表示功能的關(guān)鍵短語(yǔ)(Key Phrase)提取出來(lái),并按主題聚類。在此基礎(chǔ)上,完成了一個(gè)知識(shí)與統(tǒng)計(jì)相結(jié)合的文本分類和主題詞標(biāo)引系統(tǒng),從而將文本內(nèi)容以精練準(zhǔn)確的形式標(biāo)引出來(lái),方便用戶只須查看容量少信息量大的類目和主題詞,即可快速把握文本內(nèi)容, 圍繞分類主題一體化,本文主要取得了以下研究成果: 1、提出并證明了關(guān)鍵短語(yǔ)比詞更適合作為文本表示特征的觀點(diǎn)。 關(guān)鍵短語(yǔ)是具有強(qiáng)文本表示功能的特征短語(yǔ),在表示文本時(shí),能將文本的內(nèi)容特征(例如領(lǐng)域類別、主題思想、中心意義等)鮮明地表示出來(lái)。關(guān)鍵短語(yǔ)具有結(jié)構(gòu)穩(wěn)定、語(yǔ)義完整和強(qiáng)統(tǒng)計(jì)意義的特點(diǎn),在較大程度上可以克服向量空間模型和貝葉斯假設(shè)的缺點(diǎn),比詞更適合作為文本表示的特征,有利于提高文本分...
【文章頁(yè)數(shù)】:106 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
Abstract
第一章 引言
1.1 研究課題的提出
1.1.1 網(wǎng)絡(luò)瀏覽與網(wǎng)絡(luò)門戶網(wǎng)站
1.1.2 信息爆炸與信息檢索
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 文本內(nèi)容標(biāo)引界定
1.2.2 文本內(nèi)容標(biāo)引相關(guān)研究綜述
1.3 本研究的目標(biāo)和內(nèi)容
1.4 本研究的意義
第二章 關(guān)鍵短語(yǔ)與詞語(yǔ)表構(gòu)建
2.1 短語(yǔ)的相關(guān)研究
2.1.1 短語(yǔ)本位語(yǔ)法體系關(guān)于短語(yǔ)的論述
2.1.2 計(jì)算語(yǔ)言學(xué)關(guān)于短語(yǔ)的研究
2.1.3 認(rèn)知心理學(xué)關(guān)于短語(yǔ)的研究
2.1.4 言語(yǔ)習(xí)得和教育學(xué)關(guān)于短語(yǔ)的研究
2.1.5 信息處理應(yīng)用領(lǐng)域?qū)Χ陶Z(yǔ)的研究
2.2 本研究對(duì)關(guān)鍵短語(yǔ)的界定
2.3 關(guān)鍵短語(yǔ)與其它相關(guān)成分的關(guān)系
2.3.1 關(guān)鍵短語(yǔ)與命名實(shí)體
2.3.2 關(guān)鍵短語(yǔ)與本體
2.3.3 關(guān)鍵短語(yǔ)與術(shù)語(yǔ)
2.3.4 關(guān)鍵短語(yǔ)與主題詞、關(guān)鍵詞
2.3.5 關(guān)鍵短語(yǔ)與短語(yǔ)
2.4 關(guān)鍵短語(yǔ)的獲取
2.5 關(guān)鍵短語(yǔ)與詞語(yǔ)表
2.5.1 基于關(guān)鍵短語(yǔ)的詞語(yǔ)表構(gòu)建
2.5.2 切分結(jié)果分析
第三章 基于統(tǒng)計(jì)的主題領(lǐng)域知識(shí)獲取
3.1 超大規(guī)模層級(jí)分類語(yǔ)料庫(kù)建立
3.1.1 網(wǎng)頁(yè)內(nèi)容解析
3.1.2 語(yǔ)料信息字段定義
3.1.3 網(wǎng)頁(yè)分類體系建立
3.1.4 語(yǔ)料歸類建庫(kù)
3.1.5 語(yǔ)料庫(kù)信息匯總
3.2 基于主題依存分析的領(lǐng)域詞語(yǔ)聚類
3.2.1 主題依存分析
3.2.2 利用文本分類的特征提取方法進(jìn)行詞語(yǔ)聚類
3.2.3 詞語(yǔ)的類別區(qū)別度
3.3 擴(kuò)展的詞語(yǔ)聚類
3.3.1 聚類算法簡(jiǎn)介
3.3.2 基于主題依存分析的聚類算法改進(jìn)
3.3.3 聚類結(jié)果分析
第四章 文本分類實(shí)現(xiàn)
4.1 文本分類綜述
4.1.1 本文對(duì)文本分類的界定
4.1.2 文本分類綜述
4.1.3 主題標(biāo)引綜述
4.1.4 主要問(wèn)題分析
4.2 分類算法實(shí)現(xiàn)與訓(xùn)練(測(cè)試)集
4.2.1 分類算法實(shí)現(xiàn)
4.2.2 訓(xùn)練(測(cè)試)集
4.2.3 測(cè)試方法
4.3 分類結(jié)果分析比較
4.3.1 分類算法比較
4.3.2 特征本身(詞表)對(duì)分類影響的比較
4.3.3 小類校正對(duì)分類影響的比較
4.3.4 兼類閾值對(duì)分類影響的比較
4.4 結(jié)論
4.5 分類系統(tǒng)自適應(yīng)
4.5.1 分類系統(tǒng)自適應(yīng)原理
4.5.2 分類系統(tǒng)自適應(yīng)示例
第五章 主題詞標(biāo)引實(shí)現(xiàn)
5.1 主題詞標(biāo)引綜述
5.1.1 本文對(duì)主題詞標(biāo)引的限定
5.1.2 主題詞標(biāo)引綜述
5.2 主題詞標(biāo)引實(shí)現(xiàn)
5.3 主題詞標(biāo)引測(cè)試及結(jié)果
第六章 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
6.1 系統(tǒng)簡(jiǎn)介
6.2 系統(tǒng)總體流程圖
6.3 系統(tǒng)截圖
第七章 結(jié)束語(yǔ)
7.1 全文總結(jié)
7.2 存在的問(wèn)題和尚需改進(jìn)的地方
7.2.1 關(guān)鍵短語(yǔ)的界定方面
7.2.2 詞語(yǔ)切分對(duì)比測(cè)試方面
7.2.3 詞語(yǔ)領(lǐng)域聚類的特征選擇方面
7.2.4 文本分類系統(tǒng)的評(píng)測(cè)方面
7.2.5 主題詞標(biāo)引方面
7.3 進(jìn)一步的工作
7.3.1 文本內(nèi)容的語(yǔ)義標(biāo)注
7.3.2 自動(dòng)文摘模塊補(bǔ)充
7.3.3 基于 XML的文本表示和智能信息檢索
7.3.4 詞典編撰輔助系統(tǒng)構(gòu)建
7.3.5 對(duì)外漢語(yǔ)教學(xué)資源平臺(tái)建設(shè)
參考文獻(xiàn)
附錄
附錄1:切分對(duì)比示例
附錄2:網(wǎng)頁(yè)分類系統(tǒng)之類別匯總
附錄3:大類詞表一
附錄4:大類詞表二
附錄5:“經(jīng)濟(jì)”類中“保險(xiǎn)”關(guān)鍵詞聚類詞表前一百個(gè)詞語(yǔ)
附錄6:“經(jīng)濟(jì)”類中“銀行卡”關(guān)鍵詞聚類詞表前一百個(gè)詞語(yǔ)
附錄7:“國(guó)內(nèi)新聞”類“春運(yùn)”關(guān)鍵詞聚類詞表的前一百個(gè)詞語(yǔ)
附錄8:“汽車”類中“輪胎”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄9:“科技”類“病毒”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄10:“科技”類“芯片”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄11:“房產(chǎn)”類關(guān)鍵詞“木地板”聚類詞表前一百詞語(yǔ)
附錄12:“國(guó)際新聞”類中“恐怖襲擊”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄13:“教育”類中“性教育”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄14:“軍事新聞”類中“直升機(jī)”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄15:“旅游”類中“紅色之旅”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄16:“生活男女”類中“美發(fā)”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄17:“社會(huì)新聞”類中“自殺”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄18:“文藝”類中“遺址”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄19:“游戲”類中“敏捷篇(迷你游戲)”關(guān)鍵詞聚類詞表前一百詞語(yǔ).
附錄20:“娛樂(lè)”類中“搖滾”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄21:“體育”類中“北京奧運(yùn)”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
致謝
科研成果
本文編號(hào):3742021
【文章頁(yè)數(shù)】:106 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
Abstract
第一章 引言
1.1 研究課題的提出
1.1.1 網(wǎng)絡(luò)瀏覽與網(wǎng)絡(luò)門戶網(wǎng)站
1.1.2 信息爆炸與信息檢索
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 文本內(nèi)容標(biāo)引界定
1.2.2 文本內(nèi)容標(biāo)引相關(guān)研究綜述
1.3 本研究的目標(biāo)和內(nèi)容
1.4 本研究的意義
第二章 關(guān)鍵短語(yǔ)與詞語(yǔ)表構(gòu)建
2.1 短語(yǔ)的相關(guān)研究
2.1.1 短語(yǔ)本位語(yǔ)法體系關(guān)于短語(yǔ)的論述
2.1.2 計(jì)算語(yǔ)言學(xué)關(guān)于短語(yǔ)的研究
2.1.3 認(rèn)知心理學(xué)關(guān)于短語(yǔ)的研究
2.1.4 言語(yǔ)習(xí)得和教育學(xué)關(guān)于短語(yǔ)的研究
2.1.5 信息處理應(yīng)用領(lǐng)域?qū)Χ陶Z(yǔ)的研究
2.2 本研究對(duì)關(guān)鍵短語(yǔ)的界定
2.3 關(guān)鍵短語(yǔ)與其它相關(guān)成分的關(guān)系
2.3.1 關(guān)鍵短語(yǔ)與命名實(shí)體
2.3.2 關(guān)鍵短語(yǔ)與本體
2.3.3 關(guān)鍵短語(yǔ)與術(shù)語(yǔ)
2.3.4 關(guān)鍵短語(yǔ)與主題詞、關(guān)鍵詞
2.3.5 關(guān)鍵短語(yǔ)與短語(yǔ)
2.4 關(guān)鍵短語(yǔ)的獲取
2.5 關(guān)鍵短語(yǔ)與詞語(yǔ)表
2.5.1 基于關(guān)鍵短語(yǔ)的詞語(yǔ)表構(gòu)建
2.5.2 切分結(jié)果分析
第三章 基于統(tǒng)計(jì)的主題領(lǐng)域知識(shí)獲取
3.1 超大規(guī)模層級(jí)分類語(yǔ)料庫(kù)建立
3.1.1 網(wǎng)頁(yè)內(nèi)容解析
3.1.2 語(yǔ)料信息字段定義
3.1.3 網(wǎng)頁(yè)分類體系建立
3.1.4 語(yǔ)料歸類建庫(kù)
3.1.5 語(yǔ)料庫(kù)信息匯總
3.2 基于主題依存分析的領(lǐng)域詞語(yǔ)聚類
3.2.1 主題依存分析
3.2.2 利用文本分類的特征提取方法進(jìn)行詞語(yǔ)聚類
3.2.3 詞語(yǔ)的類別區(qū)別度
3.3 擴(kuò)展的詞語(yǔ)聚類
3.3.1 聚類算法簡(jiǎn)介
3.3.2 基于主題依存分析的聚類算法改進(jìn)
3.3.3 聚類結(jié)果分析
第四章 文本分類實(shí)現(xiàn)
4.1 文本分類綜述
4.1.1 本文對(duì)文本分類的界定
4.1.2 文本分類綜述
4.1.3 主題標(biāo)引綜述
4.1.4 主要問(wèn)題分析
4.2 分類算法實(shí)現(xiàn)與訓(xùn)練(測(cè)試)集
4.2.1 分類算法實(shí)現(xiàn)
4.2.2 訓(xùn)練(測(cè)試)集
4.2.3 測(cè)試方法
4.3 分類結(jié)果分析比較
4.3.1 分類算法比較
4.3.2 特征本身(詞表)對(duì)分類影響的比較
4.3.3 小類校正對(duì)分類影響的比較
4.3.4 兼類閾值對(duì)分類影響的比較
4.4 結(jié)論
4.5 分類系統(tǒng)自適應(yīng)
4.5.1 分類系統(tǒng)自適應(yīng)原理
4.5.2 分類系統(tǒng)自適應(yīng)示例
第五章 主題詞標(biāo)引實(shí)現(xiàn)
5.1 主題詞標(biāo)引綜述
5.1.1 本文對(duì)主題詞標(biāo)引的限定
5.1.2 主題詞標(biāo)引綜述
5.2 主題詞標(biāo)引實(shí)現(xiàn)
5.3 主題詞標(biāo)引測(cè)試及結(jié)果
第六章 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
6.1 系統(tǒng)簡(jiǎn)介
6.2 系統(tǒng)總體流程圖
6.3 系統(tǒng)截圖
第七章 結(jié)束語(yǔ)
7.1 全文總結(jié)
7.2 存在的問(wèn)題和尚需改進(jìn)的地方
7.2.1 關(guān)鍵短語(yǔ)的界定方面
7.2.2 詞語(yǔ)切分對(duì)比測(cè)試方面
7.2.3 詞語(yǔ)領(lǐng)域聚類的特征選擇方面
7.2.4 文本分類系統(tǒng)的評(píng)測(cè)方面
7.2.5 主題詞標(biāo)引方面
7.3 進(jìn)一步的工作
7.3.1 文本內(nèi)容的語(yǔ)義標(biāo)注
7.3.2 自動(dòng)文摘模塊補(bǔ)充
7.3.3 基于 XML的文本表示和智能信息檢索
7.3.4 詞典編撰輔助系統(tǒng)構(gòu)建
7.3.5 對(duì)外漢語(yǔ)教學(xué)資源平臺(tái)建設(shè)
參考文獻(xiàn)
附錄
附錄1:切分對(duì)比示例
附錄2:網(wǎng)頁(yè)分類系統(tǒng)之類別匯總
附錄3:大類詞表一
附錄4:大類詞表二
附錄5:“經(jīng)濟(jì)”類中“保險(xiǎn)”關(guān)鍵詞聚類詞表前一百個(gè)詞語(yǔ)
附錄6:“經(jīng)濟(jì)”類中“銀行卡”關(guān)鍵詞聚類詞表前一百個(gè)詞語(yǔ)
附錄7:“國(guó)內(nèi)新聞”類“春運(yùn)”關(guān)鍵詞聚類詞表的前一百個(gè)詞語(yǔ)
附錄8:“汽車”類中“輪胎”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄9:“科技”類“病毒”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄10:“科技”類“芯片”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄11:“房產(chǎn)”類關(guān)鍵詞“木地板”聚類詞表前一百詞語(yǔ)
附錄12:“國(guó)際新聞”類中“恐怖襲擊”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄13:“教育”類中“性教育”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄14:“軍事新聞”類中“直升機(jī)”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄15:“旅游”類中“紅色之旅”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄16:“生活男女”類中“美發(fā)”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄17:“社會(huì)新聞”類中“自殺”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄18:“文藝”類中“遺址”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄19:“游戲”類中“敏捷篇(迷你游戲)”關(guān)鍵詞聚類詞表前一百詞語(yǔ).
附錄20:“娛樂(lè)”類中“搖滾”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
附錄21:“體育”類中“北京奧運(yùn)”關(guān)鍵詞聚類詞表前一百詞語(yǔ)
致謝
科研成果
本文編號(hào):3742021
本文鏈接:http://sikaile.net/tushudanganlunwen/3742021.html
最近更新
教材專著