基于詞關(guān)聯(lián)關(guān)系的文本內(nèi)容分析
發(fā)布時間:2022-04-28 21:49
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡上的信息內(nèi)容和文本類型,從新聞、博客等長文本媒體到短信、微博等短文本變得日趨豐富。人們期待更加快捷、直觀與智能的信息處理方式,因此文本內(nèi)容分析中的主題表示、信息檢索技術(shù)等研究逐漸成為研究熱點。利用信息挖掘技術(shù)和自然語言處理進行有效信息組織,對大數(shù)據(jù)時代的信息處理具有極重要的理論意義和實用價值。作為文本的最小基本單位,詞匯的正確構(gòu)建,能夠輔助文本模型建立,并在內(nèi)容上揭示詞和文本的潛在關(guān)系。一方面,詞關(guān)系網(wǎng)絡可以幫助檢索。通過更加準確地重構(gòu)查詢詞,明確表達用戶的檢索意圖,提供更加精確的檢索結(jié)果?朔䥺渭円圆樵冊~的出現(xiàn)檢索包含用戶所需信息的網(wǎng)頁。另一方面,用詞表示文本,以詞間關(guān)系描述文本主題,可使得內(nèi)容分析與呈現(xiàn)更加簡潔,有效地實現(xiàn)知識發(fā)現(xiàn)。本文以詞為研究對象,以文本內(nèi)容分析為研究目的,在深度理解文本表示模型的基礎上,進行了遞進的詞關(guān)系分析與文本挖掘研究,主要進行了四方面工作內(nèi)容,創(chuàng)新和貢獻如下:第一,提出了一種基于字關(guān)系的無監(jiān)督文本關(guān)鍵詞發(fā)現(xiàn)算法。結(jié)合字/詞頻共現(xiàn),進行知識發(fā)現(xiàn),獲得更好的關(guān)鍵詞和主題表的同時,能夠產(chǎn)生許多新詞,在一定程度上幫助中文語料構(gòu)建詞典,為后續(xù)...
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 詞關(guān)聯(lián)關(guān)系的文本分析的背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 作者碩士期間的主要研究工作
1.4 論文主要工作
1.5 本文組成
第二章 基于詞關(guān)聯(lián)關(guān)系的文本表示模型
2.1 傳統(tǒng)文本模型
2.1.1 VSM——向量空間模型
2.1.2 TF-IDF
2.1.3 LSA、pLSA和LDA
2.1.4 傳統(tǒng)詞模型的局限性
2.2 詞關(guān)系網(wǎng)絡模型的應用
2.2.1 基于統(tǒng)計
2.2.1.1 條件隨機場CRF
2.2.1.2 基于CRF的中文傾向性判斷
2.2.2 基于規(guī)則
2.2.2.1 COSE中的實體信息抽取模塊
2.2.2.2 基于規(guī)則的非結(jié)構(gòu)化實體信息抽取
2.2.2.3 結(jié)構(gòu)化實體信息抽取規(guī)則
2.2.3 兩者結(jié)合的方法
2.3 本章小結(jié)
第三章 基于詞關(guān)系網(wǎng)絡的文本關(guān)鍵詞發(fā)現(xiàn)
3.1 關(guān)鍵詞抽取方法研究
3.1.1 中外研究現(xiàn)狀
3.1.2 研究難點
3.2 基于字關(guān)系的無監(jiān)督關(guān)鍵詞發(fā)現(xiàn)
3.2.1 算法原理
3.2.2 算法描述
3.3 新聞語料中的關(guān)鍵詞發(fā)現(xiàn)
3.3.1 新聞語料特征
3.3.2 新聞關(guān)鍵詞抽取系統(tǒng)流程
3.3.3 系統(tǒng)特色
3.4 實驗
3.4.1 數(shù)據(jù)獲取
3.4.1.1 微博輿情中的熱門轉(zhuǎn)發(fā)模塊
3.4.1.2 數(shù)據(jù)框架
3.4.2 實驗結(jié)果及分析
3.5 本章總結(jié)
第四章 檢索系統(tǒng)中的詞關(guān)系分析
4.1 詞關(guān)系網(wǎng)絡及小世界性質(zhì)
4.1.1 直觀描述
4.1.2 詞關(guān)系網(wǎng)絡定義
4.1.3 電阻網(wǎng)絡模型
4.1.4 詞關(guān)聯(lián)關(guān)系計算描述
4.2 TREC微博評測系統(tǒng)中的擴展實現(xiàn)
4.2.1 系統(tǒng)框架
4.2.2 查詢擴展子模塊描述
4.3 實驗結(jié)果及分析
4.3.1 數(shù)據(jù)集
4.3.2 評價指標
4.3.3 實驗結(jié)果以及分析
4.4 本章小結(jié)
第五章 基于詞親近模型的詞關(guān)系網(wǎng)絡及其可視化
5.1 WAF詞模型
5.1.1 詞激活力
5.1.2 詞關(guān)聯(lián)度
5.2 基于相似度計算的詞聚類
5.2.1 聚類算法描述
5.3 詞關(guān)系網(wǎng)絡的可視化研究
5.3.1 WAF的可視化及其實現(xiàn)
5.3.2 COSE校園搜索引擎中的實體關(guān)系可視化
5.3.3 基于親近詞查詢演示系統(tǒng)的詞的可視化展示
5.4 本章小結(jié)
第六章 結(jié)束語
6.1 工作總結(jié)
6.2 工作展望
參考文獻
致謝
作者攻讀學位期間發(fā)表的學術(shù)論文目錄
本文編號:3649601
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 詞關(guān)聯(lián)關(guān)系的文本分析的背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 作者碩士期間的主要研究工作
1.4 論文主要工作
1.5 本文組成
第二章 基于詞關(guān)聯(lián)關(guān)系的文本表示模型
2.1 傳統(tǒng)文本模型
2.1.1 VSM——向量空間模型
2.1.2 TF-IDF
2.1.3 LSA、pLSA和LDA
2.1.4 傳統(tǒng)詞模型的局限性
2.2 詞關(guān)系網(wǎng)絡模型的應用
2.2.1 基于統(tǒng)計
2.2.1.1 條件隨機場CRF
2.2.1.2 基于CRF的中文傾向性判斷
2.2.2 基于規(guī)則
2.2.2.1 COSE中的實體信息抽取模塊
2.2.2.2 基于規(guī)則的非結(jié)構(gòu)化實體信息抽取
2.2.2.3 結(jié)構(gòu)化實體信息抽取規(guī)則
2.2.3 兩者結(jié)合的方法
2.3 本章小結(jié)
第三章 基于詞關(guān)系網(wǎng)絡的文本關(guān)鍵詞發(fā)現(xiàn)
3.1 關(guān)鍵詞抽取方法研究
3.1.1 中外研究現(xiàn)狀
3.1.2 研究難點
3.2 基于字關(guān)系的無監(jiān)督關(guān)鍵詞發(fā)現(xiàn)
3.2.1 算法原理
3.2.2 算法描述
3.3 新聞語料中的關(guān)鍵詞發(fā)現(xiàn)
3.3.1 新聞語料特征
3.3.2 新聞關(guān)鍵詞抽取系統(tǒng)流程
3.3.3 系統(tǒng)特色
3.4 實驗
3.4.1 數(shù)據(jù)獲取
3.4.1.1 微博輿情中的熱門轉(zhuǎn)發(fā)模塊
3.4.1.2 數(shù)據(jù)框架
3.4.2 實驗結(jié)果及分析
3.5 本章總結(jié)
第四章 檢索系統(tǒng)中的詞關(guān)系分析
4.1 詞關(guān)系網(wǎng)絡及小世界性質(zhì)
4.1.1 直觀描述
4.1.2 詞關(guān)系網(wǎng)絡定義
4.1.3 電阻網(wǎng)絡模型
4.1.4 詞關(guān)聯(lián)關(guān)系計算描述
4.2 TREC微博評測系統(tǒng)中的擴展實現(xiàn)
4.2.1 系統(tǒng)框架
4.2.2 查詢擴展子模塊描述
4.3 實驗結(jié)果及分析
4.3.1 數(shù)據(jù)集
4.3.2 評價指標
4.3.3 實驗結(jié)果以及分析
4.4 本章小結(jié)
第五章 基于詞親近模型的詞關(guān)系網(wǎng)絡及其可視化
5.1 WAF詞模型
5.1.1 詞激活力
5.1.2 詞關(guān)聯(lián)度
5.2 基于相似度計算的詞聚類
5.2.1 聚類算法描述
5.3 詞關(guān)系網(wǎng)絡的可視化研究
5.3.1 WAF的可視化及其實現(xiàn)
5.3.2 COSE校園搜索引擎中的實體關(guān)系可視化
5.3.3 基于親近詞查詢演示系統(tǒng)的詞的可視化展示
5.4 本章小結(jié)
第六章 結(jié)束語
6.1 工作總結(jié)
6.2 工作展望
參考文獻
致謝
作者攻讀學位期間發(fā)表的學術(shù)論文目錄
本文編號:3649601
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3649601.html
最近更新
教材專著