【摘要】:互聯(lián)網(wǎng)的飛速發(fā)展使其成為全球信息傳播和共享的最重要資源,其數(shù)據(jù)成幾何級(jí)數(shù)增長(zhǎng),然而要從互聯(lián)網(wǎng)上獲取有用的知識(shí)卻非常困難,“數(shù)據(jù)爆炸,知識(shí)貧乏”已成為當(dāng)前諸多專(zhuān)家學(xué)者需要迫切解決的問(wèn)題。 目前知識(shí)獲取的大多數(shù)研究都是從單純的計(jì)算機(jī)技術(shù)角度出發(fā),采取諸如規(guī)則、句式等從語(yǔ)法邏輯結(jié)構(gòu)層面來(lái)挖掘、提取知識(shí),然而新概念的不斷涌現(xiàn),導(dǎo)致許多新詞匯被創(chuàng)造出來(lái)。這些新詞匯由多個(gè)語(yǔ)素或多個(gè)詞組成,,當(dāng)前的分詞系統(tǒng),在收錄這些詞之前,會(huì)將它們切分成多個(gè)語(yǔ)素或詞,而導(dǎo)致當(dāng)前已有的知識(shí)獲取方法無(wú)法正確識(shí)別,更難于在語(yǔ)義層面上進(jìn)行比較。這將給知識(shí)獲取帶來(lái)新的難題,也使得當(dāng)前以信息檢索為主要技術(shù)的搜索引擎在處理網(wǎng)頁(yè)時(shí)采取了“非語(yǔ)義”的關(guān)鍵詞匹配的方式,以致于內(nèi)容查找準(zhǔn)確率低,語(yǔ)義計(jì)算的引入將有望改善這種狀況。 本文的主要研究工作有兩部分:中文詞匯知識(shí)獲取算法和中文詞匯語(yǔ)義計(jì)算方法。本文基于分詞系統(tǒng)之上,進(jìn)行合成詞的識(shí)別,解決未登錄詞無(wú)法正確識(shí)別的問(wèn)題;為合成詞建立詞性標(biāo)注模型,對(duì)合成詞進(jìn)行詞性標(biāo)注,消除詞性歧義,解決當(dāng)前詞性標(biāo)注模型無(wú)法直接應(yīng)用于合成詞的詞性標(biāo)注的問(wèn)題,同時(shí)修正分詞結(jié)果。在實(shí)現(xiàn)合成詞識(shí)別的基礎(chǔ)上進(jìn)行文本主題詞的提取,建立詞匯語(yǔ)義計(jì)算模型,使詞與詞之間可比較,用語(yǔ)義計(jì)算代替?zhèn)鹘y(tǒng)的關(guān)鍵詞匹配,是實(shí)現(xiàn)智能信息檢索的一個(gè)根本途徑;同時(shí)也是構(gòu)建詞匯語(yǔ)義知識(shí)庫(kù)、實(shí)現(xiàn)知識(shí)推理的一個(gè)關(guān)鍵基礎(chǔ)性研究工作,具有重要的研究意義。 本文最后實(shí)現(xiàn)了一個(gè)中文詞匯知識(shí)獲取和語(yǔ)義計(jì)算平臺(tái),通過(guò)應(yīng)用上述算法,建立了一個(gè)包含中文詞匯知識(shí)獲取以及中文詞匯語(yǔ)義計(jì)算的綜合系統(tǒng),驗(yàn)證了本文各項(xiàng)研究工作的意義和算法的有效性。 本文的創(chuàng)新性工作主要有以下幾點(diǎn): 1、針對(duì)當(dāng)前未登錄詞識(shí)別的難點(diǎn)問(wèn)題,提出了基于詞性探測(cè)和詞共現(xiàn)有向圖的合成詞識(shí)別算法CWRWCDG,該算法先采用詞性探測(cè)從文本中獲取詞串,進(jìn)而由獲取到的詞串生成詞共現(xiàn)有向圖,借鑒Bellman-Ford算法思想,從詞共現(xiàn)有向圖中搜索多源點(diǎn)長(zhǎng)度最長(zhǎng)且權(quán)重值滿(mǎn)足給定條件的路徑,則該路徑所對(duì)應(yīng)的詞串為合成詞。實(shí)驗(yàn)結(jié)果表明該算法要優(yōu)于同類(lèi)算法。 2、中文合成詞標(biāo)注的難點(diǎn)在于詞性的確定,針對(duì)該問(wèn)題,提出了基于核心屬性滲透理論的中文合成詞詞性標(biāo)注算法,核心屬性滲透理論最早由Lieber于1980年提出,他認(rèn)為在英語(yǔ)中合成詞的詞性由合成詞的核心成分決定,本文將該理論應(yīng)用于中文合成詞詞性的標(biāo)注,并根據(jù)實(shí)際情況需要提供顯式標(biāo)注和隱式標(biāo)注兩種方式。 3、當(dāng)前文本主題詞提取算法主要從詞頻角度出發(fā),基于TF/IDF值,然而對(duì)于詞語(yǔ)分布較均衡的文本效果不理想,針對(duì)這種情況,提出了基于詞位置權(quán)重和增量詞集頻率的主題詞提取算法TTEITS。該算法認(rèn)為同一個(gè)詞在文本的不同位置出現(xiàn),對(duì)該詞是否成為主題詞的影響是不一樣的,同時(shí),在確定一個(gè)候選主題詞是否真正成為主題詞時(shí),不但計(jì)算該單個(gè)詞的權(quán)重(頻率),而且計(jì)算它對(duì)整個(gè)主題詞集的增量權(quán)重(頻率),若該增量大于某個(gè)給定的閾值,則判定該詞為主題詞,否則算法結(jié)束。該算法的優(yōu)點(diǎn)在于當(dāng)各候選主題詞出現(xiàn)次數(shù)都比較低、較平均時(shí),仍然能夠提取出最合適的主題詞。 4、研究主題詞集在自動(dòng)文摘上的應(yīng)用,提出了基于主題詞集的中文自動(dòng)文摘算法CASTTS。該算法先通過(guò)TTEITS算法提取文本主題詞,再由主題詞權(quán)重進(jìn)行加權(quán)計(jì)算各主題詞所在的句子權(quán)重,從而得出主題詞集對(duì)應(yīng)的每個(gè)句子的總權(quán)重,最后根據(jù)自動(dòng)文摘比例選取句子權(quán)重較大的幾個(gè)句子并按原文順序輸出文摘。實(shí)驗(yàn)結(jié)果表明,該方法所獲得的文摘質(zhì)量高,較接近于參考文摘,取得了良好的效果。 5、針對(duì)現(xiàn)有詞匯語(yǔ)義計(jì)算及文本相似度計(jì)算中存在的一些不足,基于知網(wǎng),巧妙的將文本相似度計(jì)算轉(zhuǎn)換為計(jì)算文本主題詞集相似度,提出了基于主題詞集的文本相似度計(jì)算方法TSCTTS。該方法先通過(guò)TTEITS算法提取文本主題詞,然后在知網(wǎng)義原層次體系結(jié)中構(gòu)獲取兩個(gè)詞語(yǔ)的語(yǔ)義距離,經(jīng)轉(zhuǎn)換公式得到兩個(gè)詞語(yǔ)的語(yǔ)義相似度,最后由主題詞集的語(yǔ)義相似度得到文本相似度。該算法應(yīng)用于文本分類(lèi)實(shí)驗(yàn),結(jié)果表明該算法有較好的分類(lèi)性能。
[Abstract]:......
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 龔書(shū);瞿有利;田盛豐;;基于語(yǔ)義的自動(dòng)文摘研究綜述[J];北京交通大學(xué)學(xué)報(bào);2009年05期
2 許云,樊孝忠,張鋒;基于知網(wǎng)的語(yǔ)義相關(guān)度計(jì)算[J];北京理工大學(xué)學(xué)報(bào);2005年05期
3 李鈍;曹元大;萬(wàn)月亮;;Internet中的新詞識(shí)別[J];北京郵電大學(xué)學(xué)報(bào);2008年01期
4 胡舜耕,劉曉宇,鐘義信;基于多Agent技術(shù)的自動(dòng)文摘系統(tǒng)的研究和設(shè)計(jì)[J];電子學(xué)報(bào);2001年02期
5 劉遠(yuǎn)超;王曉龍;徐志明;劉秉權(quán);;基于粗集理論的中文關(guān)鍵詞短語(yǔ)構(gòu)成規(guī)則挖掘[J];電子學(xué)報(bào);2007年02期
6 朱聰慧;趙鐵軍;鄭德權(quán);;基于無(wú)向圖序列標(biāo)注模型的中文分詞詞性標(biāo)注一體化系統(tǒng)[J];電子與信息學(xué)報(bào);2010年03期
7 劉挺,吳巖,王開(kāi)鑄;中文自動(dòng)文摘系統(tǒng)CAAS的研究與實(shí)現(xiàn)[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);1999年06期
8 李蕾,鐘義信,郭祥昊;面向特定領(lǐng)域的理解型中文自動(dòng)文摘系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2000年04期
9 趙巖;王曉龍;劉秉權(quán);關(guān)毅;;融合聚類(lèi)觸發(fā)對(duì)特征的最大熵詞性標(biāo)注模型[J];計(jì)算機(jī)研究與發(fā)展;2006年02期
10 杜偉夫;譚松波;云曉春;程學(xué)旗;;一種新的情感詞匯語(yǔ)義傾向計(jì)算方法[J];計(jì)算機(jī)研究與發(fā)展;2009年10期
相關(guān)博士學(xué)位論文 前1條
1 楊梅;現(xiàn)代漢語(yǔ)合成詞構(gòu)詞研究[D];南京師范大學(xué);2006年
相關(guān)碩士學(xué)位論文 前1條
1 孫靜;基于平行語(yǔ)料庫(kù)的無(wú)監(jiān)督中文詞性標(biāo)注研究[D];蘇州大學(xué);2010年
本文編號(hào):
2455185
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2455185.html