天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 航空航天論文 >

面向航天領域的中文分詞算法研究與實現(xiàn)

發(fā)布時間:2020-03-23 08:44
【摘要】:自上世紀六十年代以來,我國航天事業(yè)飛速發(fā)展,積累了海量的航天信息資源。在對航天信息進行檢索和分析時,傳統(tǒng)的人工方式費時費力,已經(jīng)無法勝任航天信息檢索任務,必須依靠搜索引擎技術。中文分詞作為搜索引擎技術的關鍵性步驟,分詞的效果會極大的影響檢索的準確性。我國的中文分詞技術雖然位居世界前列,但是大部分中文分詞的研究集中在通用領域,很少有面向航天領域的中文分詞研究,因此,一個性能優(yōu)良的航天領域中文分詞算法對于航天信息檢索任務意義重大。本文主要是面向航天領域的中文分詞算法研究,首先研究了目前常見的三種中文分詞算法,分析并總結了傳統(tǒng)中文分詞方法存在的問題,針對航天領域術語的特點,在傳統(tǒng)中文分詞算法的基礎上提出了多策略融合中文分詞算法。本文提出的多策略融合中文分詞算法由三個模塊組成,分別是基于詞典的初分詞模塊、歧義消解模塊以及航天領域術語抽取模塊。在基于詞典的初分詞模塊,針對最大匹配算法存在的不足,本文提出了一種改進的最大匹配算法(DF-MM),同時基于中文詞語二字詞居多的特點,設計了一種帶詞長詞頻的雙哈希詞典構造機制。在歧義消解模塊,為了保證歧義消解的準確性和高效性,提出了一種統(tǒng)計和規(guī)則相結合的歧義消解方法:待切分語料經(jīng)過正向最大匹配算法和逆向最大匹配算法切分后,如果切分出的詞語數(shù)量不一致,根據(jù)“最少切分”原則,保留詞數(shù)少的切分形式作為最終的歧義消解結果,如果切分出的詞語數(shù)量相同,則采用Bi-Gram模型,分別計算兩種切分形式的概率,保留概率大的切分形式作為最終的歧義消解結果。在航天領域術語抽取模塊,采用目前流行的條件隨機場模型,將航天領域術語抽取任務轉(zhuǎn)化為序列標注問題,通過總結航天領域術語的特點,采用5-tag標記法、提取5種特征建立特征模板來完成航天領域術語抽取任務。多策略融合中文分詞算法結合了幾種傳統(tǒng)中文分詞算法的優(yōu)勢,其分詞主模塊選取基于詞典的中文分詞方法,保證了算法整體的高效性,為了克服中文分詞領域的歧義問題和未登錄詞問題,添加了歧義消解模塊和術語抽取模塊。通過實驗驗證,本文提出的多策略融合中文分詞算法以及各個子模塊的性能相比于傳統(tǒng)的方法均有所提升。最后,將多策略融合中文分詞算法應用到“航天智庫檢索系統(tǒng)”中,提高了系統(tǒng)分詞的準確性,為用戶提供更加精確的檢索結果。
【圖文】:

特征模板,中文分詞,多策略


西安電子科技大學碩士學位論文32圖3.5 特征模板3.5 本章小結本章是多策略融合中文分詞算法的設計。首先介紹了多策略融合中文分詞算法的整體流程,接下來介紹了基于詞典的初分詞模塊,在該模塊分析了最大匹配的缺點,在最大匹配算法的基礎上提出了 DF-MM 算法,,然后是歧義消解模塊,最后介紹了航天領域術語抽取的流程。

面向航天領域的中文分詞算法研究與實現(xiàn)


standard分詞結果
【學位授予單位】:西安電子科技大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:V41;TP391.1

【相似文獻】

相關期刊論文 前10條

1 江華麗;;中文分詞算法研究與分析[J];物聯(lián)網(wǎng)技術;2016年01期

2 吳亮;;一種改進的最大匹配分詞算法研究[J];現(xiàn)代商貿(mào)工業(yè);2010年09期

3 姚興山;;基于哈希算法的中文分詞算法的改進[J];圖書情報工作;2008年06期

4 蔡勇智;基于最大匹配分詞算法的中文詞語粗分模型[J];福建電腦;2005年09期

5 陳桂林,王永成,韓客松,王剛;一種改進的快速分詞算法[J];計算機研究與發(fā)展;2000年04期

6 林浩;韓冰;楊樂華;;一種基于改進最大匹配快速中文分詞算法[J];科技創(chuàng)新導報;2009年09期

7 宋國柱;陳俊杰;;基于雙字詞的動態(tài)最大匹配分詞算法的研究[J];太原科技大學學報;2009年03期

8 吳濤;張毛迪;陳傳波;;一種改進的統(tǒng)計與后串最大匹配的中文分詞算法研究[J];計算機工程與科學;2008年08期

9 韓如冰;葉得學;;問答系統(tǒng)的漢語分詞算法研究[J];數(shù)字技術與應用;2012年05期

10 張彩琴;袁健;;改進的正向最大匹配分詞算法[J];計算機工程與設計;2010年11期

相關會議論文 前9條

1 張秋亮;方凱;;基于中文分詞算法的鐵路客規(guī)查詢系統(tǒng)研究[A];第八屆中國智能交通年會論文集[C];2013年

2 陳曉蘇;鄒園斌;張文珂;;全切分圖與路徑表達式在分詞算法中的應用[A];第三屆學生計算語言學研討會論文集[C];2006年

3 曾華琳;史曉東;李堂秋;;基于上下文信息提取的概率分詞算法[A];第六屆漢語詞匯語義學研討會論文集[C];2005年

4 才智杰;索南仁欠;;藏文分詞算法研究[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年

5 蘇亮;孫斌;;一種基于Lucene的Hash改進中文分詞算法的實現(xiàn)[A];2007通信理論與技術新發(fā)展——第十二屆全國青年通信學術會議論文集(上冊)[C];2007年

6 劉善峰;李雅;陶建華;;基于詞位信息的HMM中文分詞算法[A];需將論文集名稱修改為“第十二屆全國人機語音通訊學術會議(NCMMSC2013)論文集[C];2013年

7 姜文斌;王志洋;劉群;呂雅娟;;基于馬爾可夫間隔標注的中文分詞算法[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年

8 王蘭成;田梅;侯雙;;PLS:一種基于信息自動標引的最小推進分詞算法及其實現(xiàn)[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年

9 徐潤華;陳小荷;;一種利用注疏的《左傳》分詞新方法[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

相關碩士學位論文 前10條

1 鄭國興;面向航天領域的中文分詞算法研究與實現(xiàn)[D];西安電子科技大學;2019年

2 趙恒淼;基于深度學習的中文分詞算法研究[D];山東科技大學;2018年

3 林葉川;基于互信息的壯文分詞算法研究及實現(xiàn)[D];中南民族大學;2018年

4 刁毓;基于本體的中文分詞算法的研究與實現(xiàn)[D];曲阜師范大學;2012年

5 王凱;中文分詞算法在工程建設材料搜索中的研究與應用[D];大連交通大學;2010年

6 林冬盛;中文分詞算法的研究與實現(xiàn)[D];西北大學;2011年

7 李良潔;基于統(tǒng)計和語義信息的中文分詞算法研究[D];青島科技大學;2015年

8 趙穎;基于文本類別的層次中文分詞算法研究[D];廣西大學;2012年

9 張曉淼;基于神經(jīng)網(wǎng)絡的中文分詞算法的研究[D];大連理工大學;2006年

10 彭璐;基于拼音標注的中文分詞算法研究[D];華中科技大學;2010年



本文編號:2596485

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/hangkongsky/2596485.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶ba072***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com