天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

中文詞匯知識(shí)獲取算法和語(yǔ)義計(jì)算研究及應(yīng)用

發(fā)布時(shí)間:2019-04-09 12:30
【摘要】:互聯(lián)網(wǎng)的飛速發(fā)展使其成為全球信息傳播和共享的最重要資源,其數(shù)據(jù)成幾何級(jí)數(shù)增長(zhǎng),然而要從互聯(lián)網(wǎng)上獲取有用的知識(shí)卻非常困難,“數(shù)據(jù)爆炸,知識(shí)貧乏”已成為當(dāng)前諸多專(zhuān)家學(xué)者需要迫切解決的問(wèn)題。 目前知識(shí)獲取的大多數(shù)研究都是從單純的計(jì)算機(jī)技術(shù)角度出發(fā),采取諸如規(guī)則、句式等從語(yǔ)法邏輯結(jié)構(gòu)層面來(lái)挖掘、提取知識(shí),然而新概念的不斷涌現(xiàn),導(dǎo)致許多新詞匯被創(chuàng)造出來(lái)。這些新詞匯由多個(gè)語(yǔ)素或多個(gè)詞組成,,當(dāng)前的分詞系統(tǒng),在收錄這些詞之前,會(huì)將它們切分成多個(gè)語(yǔ)素或詞,而導(dǎo)致當(dāng)前已有的知識(shí)獲取方法無(wú)法正確識(shí)別,更難于在語(yǔ)義層面上進(jìn)行比較。這將給知識(shí)獲取帶來(lái)新的難題,也使得當(dāng)前以信息檢索為主要技術(shù)的搜索引擎在處理網(wǎng)頁(yè)時(shí)采取了“非語(yǔ)義”的關(guān)鍵詞匹配的方式,以致于內(nèi)容查找準(zhǔn)確率低,語(yǔ)義計(jì)算的引入將有望改善這種狀況。 本文的主要研究工作有兩部分:中文詞匯知識(shí)獲取算法和中文詞匯語(yǔ)義計(jì)算方法。本文基于分詞系統(tǒng)之上,進(jìn)行合成詞的識(shí)別,解決未登錄詞無(wú)法正確識(shí)別的問(wèn)題;為合成詞建立詞性標(biāo)注模型,對(duì)合成詞進(jìn)行詞性標(biāo)注,消除詞性歧義,解決當(dāng)前詞性標(biāo)注模型無(wú)法直接應(yīng)用于合成詞的詞性標(biāo)注的問(wèn)題,同時(shí)修正分詞結(jié)果。在實(shí)現(xiàn)合成詞識(shí)別的基礎(chǔ)上進(jìn)行文本主題詞的提取,建立詞匯語(yǔ)義計(jì)算模型,使詞與詞之間可比較,用語(yǔ)義計(jì)算代替?zhèn)鹘y(tǒng)的關(guān)鍵詞匹配,是實(shí)現(xiàn)智能信息檢索的一個(gè)根本途徑;同時(shí)也是構(gòu)建詞匯語(yǔ)義知識(shí)庫(kù)、實(shí)現(xiàn)知識(shí)推理的一個(gè)關(guān)鍵基礎(chǔ)性研究工作,具有重要的研究意義。 本文最后實(shí)現(xiàn)了一個(gè)中文詞匯知識(shí)獲取和語(yǔ)義計(jì)算平臺(tái),通過(guò)應(yīng)用上述算法,建立了一個(gè)包含中文詞匯知識(shí)獲取以及中文詞匯語(yǔ)義計(jì)算的綜合系統(tǒng),驗(yàn)證了本文各項(xiàng)研究工作的意義和算法的有效性。 本文的創(chuàng)新性工作主要有以下幾點(diǎn): 1、針對(duì)當(dāng)前未登錄詞識(shí)別的難點(diǎn)問(wèn)題,提出了基于詞性探測(cè)和詞共現(xiàn)有向圖的合成詞識(shí)別算法CWRWCDG,該算法先采用詞性探測(cè)從文本中獲取詞串,進(jìn)而由獲取到的詞串生成詞共現(xiàn)有向圖,借鑒Bellman-Ford算法思想,從詞共現(xiàn)有向圖中搜索多源點(diǎn)長(zhǎng)度最長(zhǎng)且權(quán)重值滿(mǎn)足給定條件的路徑,則該路徑所對(duì)應(yīng)的詞串為合成詞。實(shí)驗(yàn)結(jié)果表明該算法要優(yōu)于同類(lèi)算法。 2、中文合成詞標(biāo)注的難點(diǎn)在于詞性的確定,針對(duì)該問(wèn)題,提出了基于核心屬性滲透理論的中文合成詞詞性標(biāo)注算法,核心屬性滲透理論最早由Lieber于1980年提出,他認(rèn)為在英語(yǔ)中合成詞的詞性由合成詞的核心成分決定,本文將該理論應(yīng)用于中文合成詞詞性的標(biāo)注,并根據(jù)實(shí)際情況需要提供顯式標(biāo)注和隱式標(biāo)注兩種方式。 3、當(dāng)前文本主題詞提取算法主要從詞頻角度出發(fā),基于TF/IDF值,然而對(duì)于詞語(yǔ)分布較均衡的文本效果不理想,針對(duì)這種情況,提出了基于詞位置權(quán)重和增量詞集頻率的主題詞提取算法TTEITS。該算法認(rèn)為同一個(gè)詞在文本的不同位置出現(xiàn),對(duì)該詞是否成為主題詞的影響是不一樣的,同時(shí),在確定一個(gè)候選主題詞是否真正成為主題詞時(shí),不但計(jì)算該單個(gè)詞的權(quán)重(頻率),而且計(jì)算它對(duì)整個(gè)主題詞集的增量權(quán)重(頻率),若該增量大于某個(gè)給定的閾值,則判定該詞為主題詞,否則算法結(jié)束。該算法的優(yōu)點(diǎn)在于當(dāng)各候選主題詞出現(xiàn)次數(shù)都比較低、較平均時(shí),仍然能夠提取出最合適的主題詞。 4、研究主題詞集在自動(dòng)文摘上的應(yīng)用,提出了基于主題詞集的中文自動(dòng)文摘算法CASTTS。該算法先通過(guò)TTEITS算法提取文本主題詞,再由主題詞權(quán)重進(jìn)行加權(quán)計(jì)算各主題詞所在的句子權(quán)重,從而得出主題詞集對(duì)應(yīng)的每個(gè)句子的總權(quán)重,最后根據(jù)自動(dòng)文摘比例選取句子權(quán)重較大的幾個(gè)句子并按原文順序輸出文摘。實(shí)驗(yàn)結(jié)果表明,該方法所獲得的文摘質(zhì)量高,較接近于參考文摘,取得了良好的效果。 5、針對(duì)現(xiàn)有詞匯語(yǔ)義計(jì)算及文本相似度計(jì)算中存在的一些不足,基于知網(wǎng),巧妙的將文本相似度計(jì)算轉(zhuǎn)換為計(jì)算文本主題詞集相似度,提出了基于主題詞集的文本相似度計(jì)算方法TSCTTS。該方法先通過(guò)TTEITS算法提取文本主題詞,然后在知網(wǎng)義原層次體系結(jié)中構(gòu)獲取兩個(gè)詞語(yǔ)的語(yǔ)義距離,經(jīng)轉(zhuǎn)換公式得到兩個(gè)詞語(yǔ)的語(yǔ)義相似度,最后由主題詞集的語(yǔ)義相似度得到文本相似度。該算法應(yīng)用于文本分類(lèi)實(shí)驗(yàn),結(jié)果表明該算法有較好的分類(lèi)性能。
[Abstract]:......
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 龔書(shū);瞿有利;田盛豐;;基于語(yǔ)義的自動(dòng)文摘研究綜述[J];北京交通大學(xué)學(xué)報(bào);2009年05期

2 許云,樊孝忠,張鋒;基于知網(wǎng)的語(yǔ)義相關(guān)度計(jì)算[J];北京理工大學(xué)學(xué)報(bào);2005年05期

3 李鈍;曹元大;萬(wàn)月亮;;Internet中的新詞識(shí)別[J];北京郵電大學(xué)學(xué)報(bào);2008年01期

4 胡舜耕,劉曉宇,鐘義信;基于多Agent技術(shù)的自動(dòng)文摘系統(tǒng)的研究和設(shè)計(jì)[J];電子學(xué)報(bào);2001年02期

5 劉遠(yuǎn)超;王曉龍;徐志明;劉秉權(quán);;基于粗集理論的中文關(guān)鍵詞短語(yǔ)構(gòu)成規(guī)則挖掘[J];電子學(xué)報(bào);2007年02期

6 朱聰慧;趙鐵軍;鄭德權(quán);;基于無(wú)向圖序列標(biāo)注模型的中文分詞詞性標(biāo)注一體化系統(tǒng)[J];電子與信息學(xué)報(bào);2010年03期

7 劉挺,吳巖,王開(kāi)鑄;中文自動(dòng)文摘系統(tǒng)CAAS的研究與實(shí)現(xiàn)[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);1999年06期

8 李蕾,鐘義信,郭祥昊;面向特定領(lǐng)域的理解型中文自動(dòng)文摘系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2000年04期

9 趙巖;王曉龍;劉秉權(quán);關(guān)毅;;融合聚類(lèi)觸發(fā)對(duì)特征的最大熵詞性標(biāo)注模型[J];計(jì)算機(jī)研究與發(fā)展;2006年02期

10 杜偉夫;譚松波;云曉春;程學(xué)旗;;一種新的情感詞匯語(yǔ)義傾向計(jì)算方法[J];計(jì)算機(jī)研究與發(fā)展;2009年10期

相關(guān)博士學(xué)位論文 前1條

1 楊梅;現(xiàn)代漢語(yǔ)合成詞構(gòu)詞研究[D];南京師范大學(xué);2006年

相關(guān)碩士學(xué)位論文 前1條

1 孫靜;基于平行語(yǔ)料庫(kù)的無(wú)監(jiān)督中文詞性標(biāo)注研究[D];蘇州大學(xué);2010年



本文編號(hào):2455185

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2455185.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)5e8e0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
日韩高清一区二区三区四区| 99久久国产精品成人观看| 91久久国产福利自产拍| 成人精品视频一区二区在线观看| 欧美一区二区三区十区| 伊人久久青草地综合婷婷| 国产精品亚洲一级av第二区| 日韩欧美国产精品中文字幕| 草草草草在线观看视频| 日韩精品一区二区不卡| 日韩人妻毛片中文字幕| 四季av一区二区播放| 亚洲精品中文字幕无限乱码| 成人精品网一区二区三区| 久久热这里只有精品视频| 亚洲永久一区二区三区在线| 欧美精品一区二区三区白虎| 日韩欧美黄色一级视频| 色婷婷视频免费在线观看| 亚洲视频一区自拍偷拍另类| 中文字幕乱码免费人妻av| 国产精品一区二区视频大全| 高清一区二区三区四区五区| 精品一区二区三区中文字幕 | 粉嫩国产一区二区三区在线| 欧美夫妻性生活一区二区| 日本美国三级黄色aa| 日韩精品福利在线观看| 免费在线成人午夜视频| 国产亚洲精品久久99| 亚洲av熟女一区二区三区蜜桃| 日韩一区中文免费视频| 在线亚洲成人中文字幕高清| 婷婷色香五月综合激激情| 国产免费人成视频尤物| 国内精品一区二区欧美| 国产亚洲系列91精品| 国产一级片内射视频免费播放| 大香蕉网国产在线观看av| 国产在线一区二区三区不卡| 久久精品国产亚洲av麻豆尤物|