中文詞匯知識獲取算法和語義計算研究及應用

發(fā)布時間：2019-04-09 12:30

【摘要】：互聯(lián)網的飛速發(fā)展使其成為全球信息傳播和共享的最重要資源，其數(shù)據(jù)成幾何級數(shù)增長，然而要從互聯(lián)網上獲取有用的知識卻非常困難，“數(shù)據(jù)爆炸，知識貧乏”已成為當前諸多專家學者需要迫切解決的問題。目前知識獲取的大多數(shù)研究都是從單純的計算機技術角度出發(fā)，采取諸如規(guī)則、句式等從語法邏輯結構層面來挖掘、提取知識，然而新概念的不斷涌現(xiàn)，導致許多新詞匯被創(chuàng)造出來。這些新詞匯由多個語素或多個詞組成，，當前的分詞系統(tǒng)，在收錄這些詞之前，會將它們切分成多個語素或詞，而導致當前已有的知識獲取方法無法正確識別，更難于在語義層面上進行比較。這將給知識獲取帶來新的難題，也使得當前以信息檢索為主要技術的搜索引擎在處理網頁時采取了“非語義”的關鍵詞匹配的方式，以致于內容查找準確率低，語義計算的引入將有望改善這種狀況。本文的主要研究工作有兩部分：中文詞匯知識獲取算法和中文詞匯語義計算方法。本文基于分詞系統(tǒng)之上，進行合成詞的識別，解決未登錄詞無法正確識別的問題；為合成詞建立詞性標注模型，對合成詞進行詞性標注，消除詞性歧義，解決當前詞性標注模型無法直接應用于合成詞的詞性標注的問題，同時修正分詞結果。在實現(xiàn)合成詞識別的基礎上進行文本主題詞的提取，建立詞匯語義計算模型，使詞與詞之間可比較，用語義計算代替?zhèn)鹘y(tǒng)的關鍵詞匹配，是實現(xiàn)智能信息檢索的一個根本途徑；同時也是構建詞匯語義知識庫、實現(xiàn)知識推理的一個關鍵基礎性研究工作，具有重要的研究意義。本文最后實現(xiàn)了一個中文詞匯知識獲取和語義計算平臺，通過應用上述算法，建立了一個包含中文詞匯知識獲取以及中文詞匯語義計算的綜合系統(tǒng)，驗證了本文各項研究工作的意義和算法的有效性。本文的創(chuàng)新性工作主要有以下幾點： 1、針對當前未登錄詞識別的難點問題，提出了基于詞性探測和詞共現(xiàn)有向圖的合成詞識別算法CWRWCDG，該算法先采用詞性探測從文本中獲取詞串，進而由獲取到的詞串生成詞共現(xiàn)有向圖，借鑒Bellman-Ford算法思想，從詞共現(xiàn)有向圖中搜索多源點長度最長且權重值滿足給定條件的路徑，則該路徑所對應的詞串為合成詞。實驗結果表明該算法要優(yōu)于同類算法。 2、中文合成詞標注的難點在于詞性的確定，針對該問題，提出了基于核心屬性滲透理論的中文合成詞詞性標注算法，核心屬性滲透理論最早由Lieber于1980年提出，他認為在英語中合成詞的詞性由合成詞的核心成分決定，本文將該理論應用于中文合成詞詞性的標注，并根據(jù)實際情況需要提供顯式標注和隱式標注兩種方式。 3、當前文本主題詞提取算法主要從詞頻角度出發(fā)，基于TF/IDF值，然而對于詞語分布較均衡的文本效果不理想，針對這種情況，提出了基于詞位置權重和增量詞集頻率的主題詞提取算法TTEITS。該算法認為同一個詞在文本的不同位置出現(xiàn)，對該詞是否成為主題詞的影響是不一樣的，同時，在確定一個候選主題詞是否真正成為主題詞時，不但計算該單個詞的權重（頻率），而且計算它對整個主題詞集的增量權重（頻率），若該增量大于某個給定的閾值，則判定該詞為主題詞，否則算法結束。該算法的優(yōu)點在于當各候選主題詞出現(xiàn)次數(shù)都比較低、較平均時，仍然能夠提取出最合適的主題詞。 4、研究主題詞集在自動文摘上的應用，提出了基于主題詞集的中文自動文摘算法CASTTS。該算法先通過TTEITS算法提取文本主題詞，再由主題詞權重進行加權計算各主題詞所在的句子權重，從而得出主題詞集對應的每個句子的總權重，最后根據(jù)自動文摘比例選取句子權重較大的幾個句子并按原文順序輸出文摘。實驗結果表明，該方法所獲得的文摘質量高，較接近于參考文摘，取得了良好的效果。 5、針對現(xiàn)有詞匯語義計算及文本相似度計算中存在的一些不足，基于知網，巧妙的將文本相似度計算轉換為計算文本主題詞集相似度，提出了基于主題詞集的文本相似度計算方法TSCTTS。該方法先通過TTEITS算法提取文本主題詞，然后在知網義原層次體系結中構獲取兩個詞語的語義距離，經轉換公式得到兩個詞語的語義相似度，最后由主題詞集的語義相似度得到文本相似度。該算法應用于文本分類實驗，結果表明該算法有較好的分類性能。
[Abstract]:......
【學位授予單位】：華南理工大學
【學位級別】：博士
【學位授予年份】：2012
【分類號】：TP391.1

【參考文獻】

相關期刊論文前10條

1 龔書;瞿有利;田盛豐;;基于語義的自動文摘研究綜述[J];北京交通大學學報;2009年05期

2 許云,樊孝忠,張鋒;基于知網的語義相關度計算[J];北京理工大學學報;2005年05期

3 李鈍;曹元大;萬月亮;;Internet中的新詞識別[J];北京郵電大學學報;2008年01期

4 胡舜耕,劉曉宇,鐘義信;基于多Agent技術的自動文摘系統(tǒng)的研究和設計[J];電子學報;2001年02期

5 劉遠超;王曉龍;徐志明;劉秉權;;基于粗集理論的中文關鍵詞短語構成規(guī)則挖掘[J];電子學報;2007年02期

6 朱聰慧;趙鐵軍;鄭德權;;基于無向圖序列標注模型的中文分詞詞性標注一體化系統(tǒng)[J];電子與信息學報;2010年03期

7 劉挺,吳巖,王開鑄;中文自動文摘系統(tǒng)CAAS的研究與實現(xiàn)[J];哈爾濱工業(yè)大學學報;1999年06期

8 李蕾,鐘義信,郭祥昊;面向特定領域的理解型中文自動文摘系統(tǒng)[J];計算機研究與發(fā)展;2000年04期

9 趙巖;王曉龍;劉秉權;關毅;;融合聚類觸發(fā)對特征的最大熵詞性標注模型[J];計算機研究與發(fā)展;2006年02期

10 杜偉夫;譚松波;云曉春;程學旗;;一種新的情感詞匯語義傾向計算方法[J];計算機研究與發(fā)展;2009年10期

相關博士學位論文前1條

1 楊梅;現(xiàn)代漢語合成詞構詞研究[D];南京師范大學;2006年

相關碩士學位論文前1條

1 孫靜;基于平行語料庫的無監(jiān)督中文詞性標注研究[D];蘇州大學;2010年

本文編號：2455185

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2455185.html

上一篇：學術隱蔽資源的采集、評價與整合
下一篇：ArkHoney:基于協(xié)同機制的Web蜜罐

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文詞匯知識獲取算法和語義計算研究及應用