基于條件隨機(jī)場(chǎng)的《傷寒論》中醫(yī)術(shù)語自動(dòng)識(shí)別研究
本文關(guān)鍵詞:基于條件隨機(jī)場(chǎng)的《傷寒論》中醫(yī)術(shù)語自動(dòng)識(shí)別研究,由筆耕文化傳播整理發(fā)布。
【摘要】:中醫(yī)古籍是中醫(yī)學(xué)的主要知識(shí)資源,蘊(yùn)藏著豐富的臨床經(jīng)驗(yàn)知識(shí),這些經(jīng)驗(yàn)多以文獻(xiàn)的形式加以記錄并傳播。研究中醫(yī)的古籍文獻(xiàn),進(jìn)一步開發(fā)及整理中醫(yī)的文本信息,可為中醫(yī)文本的知識(shí)發(fā)現(xiàn)提供素材。然而,中醫(yī)書籍汗牛充棟,在經(jīng)歷了數(shù)千年的歷史變遷后,漢語語法和表達(dá)方式形成了巨大的古今差異,同時(shí),中醫(yī)術(shù)語也被賦予了獨(dú)特的表達(dá)形式。因此,在信息技術(shù)高速發(fā)展的今天,利用最新科技領(lǐng)域的技術(shù)和方法解決中醫(yī)發(fā)展中面臨的問題,也成為了歷史的需要。信息抽取技術(shù)可以利用計(jì)算機(jī)對(duì)文本信息進(jìn)行針對(duì)性抽取,以結(jié)構(gòu)化的形式將結(jié)果儲(chǔ)存到數(shù)據(jù)庫(kù)中,這種技術(shù)為人們從大量的信息數(shù)據(jù)中高效、準(zhǔn)確的找到自己真正需要的信息提供幫助,也為中醫(yī)診療信息化平臺(tái)的建設(shè)奠定基礎(chǔ)。 術(shù)語識(shí)別是信息抽取準(zhǔn)確與否的重要環(huán)節(jié),也是領(lǐng)域知識(shí)發(fā)現(xiàn)、機(jī)器翻譯、自動(dòng)問答、知識(shí)抽取、信息檢索、文本挖掘等應(yīng)用研究領(lǐng)域的基礎(chǔ)。本文通過對(duì)目前常用的幾種術(shù)語識(shí)別方法進(jìn)行了對(duì)比分析,認(rèn)為基于統(tǒng)計(jì)和規(guī)則相結(jié)合的方法更適用于中醫(yī)文獻(xiàn)的研究。通過介紹四種常用的統(tǒng)計(jì)模型:隱馬爾科夫模型、最大熵模型、最大熵馬爾科夫模型和條件隨機(jī)場(chǎng)模型,分析了這些模型分別應(yīng)用于中醫(yī)術(shù)語抽取時(shí)的優(yōu)勢(shì)與不足,本研究最終選定條件隨機(jī)場(chǎng)模型進(jìn)行中醫(yī)術(shù)語抽取實(shí)驗(yàn),并對(duì)該算法的應(yīng)用方法進(jìn)行了詳細(xì)闡述。《傷寒論》作為中醫(yī)四大經(jīng)典著作之一,貫穿并指導(dǎo)著臨床實(shí)踐,其學(xué)術(shù)價(jià)值和實(shí)用價(jià)值經(jīng)久不衰。以《傷寒論》作為文本對(duì)象,利用條件隨機(jī)場(chǎng)算法對(duì)其進(jìn)行術(shù)語識(shí)別研究,以期實(shí)現(xiàn)中醫(yī)術(shù)語自動(dòng)識(shí)別模型,并為中醫(yī)信息化的發(fā)展提供參考。 本研究的目的:(1)從中醫(yī)信息化發(fā)展的角度出發(fā),實(shí)現(xiàn)中醫(yī)術(shù)語的自動(dòng)識(shí)別過程,為下一步中醫(yī)診療信息化平臺(tái)的建設(shè)提供基礎(chǔ)支持。(2)從術(shù)語識(shí)別模型的性能出發(fā),采用條件隨機(jī)場(chǎng)融合多特征的方法,進(jìn)行不同特征組合的多組對(duì)比實(shí)驗(yàn),尋找對(duì)模型性能影響最佳的特征組合。(3)從中醫(yī)學(xué)文本的研究角度出發(fā),試圖尋求可以幫助醫(yī)學(xué)研究者從中醫(yī)古籍文本中自動(dòng)獲取知識(shí)的方法,為中醫(yī)學(xué)者們的進(jìn)一步研究提供一個(gè)可用的輔助工具。 方法:本論文是在國(guó)家自然科學(xué)基金項(xiàng)目“基于自動(dòng)問答系統(tǒng)的中醫(yī)診療認(rèn)知模式研究(No.81072897)”和“基于系統(tǒng)復(fù)雜性的中醫(yī)診療信息集成可視化建模研究(No.81273876)”的資助下進(jìn)行的。實(shí)驗(yàn)選用明·趙開美的復(fù)刻宋本《傷寒論》作為文本對(duì)象;開源軟件CRF++0.58工具包作為條件隨機(jī)場(chǎng)模型的實(shí)現(xiàn)。(1)首先分析了目前分詞方法的不足及其在中醫(yī)文本分詞應(yīng)用中的局限,選定采用基于字的分詞方法進(jìn)行術(shù)語識(shí)別實(shí)驗(yàn)。(2)然后對(duì)文本進(jìn)行數(shù)據(jù)清洗,特征的選擇與標(biāo)注,特征模板編寫等準(zhǔn)備工作。(3)根據(jù)實(shí)驗(yàn)設(shè)計(jì)的不同,將測(cè)試文本和訓(xùn)練文本按要求分為四組:字符本身、類別標(biāo)簽;字符本身、詞邊界、類別標(biāo)簽;字符本身、詞性、類別標(biāo)簽;字符本身、詞性、詞邊界、類別標(biāo)簽。(4)把訓(xùn)練文本和事先編寫好的特征模板文件帶入到CRF++訓(xùn)練工具包中,獲得一個(gè)模型文件。(5)再把上一步獲得的模型文件和測(cè)試文本帶入到CRF++測(cè)試工具包中,獲得識(shí)別結(jié)果。(6)對(duì)結(jié)果進(jìn)行測(cè)評(píng),分析四組不同實(shí)驗(yàn)的識(shí)別性能差異。 結(jié)果:(1)從對(duì)照組和實(shí)驗(yàn)組來看,特征的引入大大提高了模型的識(shí)別效能;(2)從實(shí)驗(yàn)二和實(shí)驗(yàn)三來看,實(shí)驗(yàn)二準(zhǔn)確率、召回率和F值均高于實(shí)驗(yàn)三,說明引入“詞邊界”特征比引入“詞性”特征更有助于提高模型的性能;(3)從實(shí)驗(yàn)四和其它三組實(shí)驗(yàn)結(jié)果來看,引入字本身、詞邊界、詞性、類別標(biāo)簽的組合特征,無論是準(zhǔn)確率、召回率、還是F值,都較其他實(shí)驗(yàn)高,說明該組合特征模型的識(shí)別效能最優(yōu)。 結(jié)論:(1)本實(shí)驗(yàn)利用計(jì)算機(jī)實(shí)現(xiàn)了《傷寒論》中醫(yī)術(shù)語的識(shí)別研究,并且得到了較為良好的識(shí)別效果。(2)從實(shí)驗(yàn)結(jié)果可以看出,即使是性能最好的第四組實(shí)驗(yàn),其結(jié)果仍與目前的生物醫(yī)學(xué)領(lǐng)域命名實(shí)體識(shí)別和英文新聞?lì)I(lǐng)域命名實(shí)體識(shí)別結(jié)果存在差距。其原因可能是受到《傷寒論》語法及術(shù)語特點(diǎn)的影響。如“發(fā)汗吐下后,虛煩不得眠”、“寸口脈浮大,而醫(yī)反下之”與“脈浮而大,心下反硬”,這里的“下”在第一條和第二條里均是指中醫(yī)治法中的“下法”,在第三條中僅代表方位詞,諸如這樣的詞為術(shù)語識(shí)別的準(zhǔn)確率帶來了影響。(3)本論文在前人工作的基礎(chǔ)上,提出了基于條件隨機(jī)場(chǎng)的《傷寒論》中醫(yī)術(shù)語自動(dòng)識(shí)別方法,實(shí)驗(yàn)表明引入多特征融合的模型比單一特征的模型效能要好,可以推斷,引入更多的特征或許會(huì)進(jìn)一步提高實(shí)驗(yàn)結(jié)果。(4)信息抽取技術(shù)在中醫(yī)結(jié)構(gòu)化電子病歷及中醫(yī)專業(yè)領(lǐng)域搜索引擎建立中發(fā)揮重要的基礎(chǔ)作用,對(duì)此展開研究為中醫(yī)信息化的發(fā)展帶來重要的現(xiàn)實(shí)意義。(5)針對(duì)當(dāng)前的術(shù)語自動(dòng)識(shí)別現(xiàn)狀,下一步工作需要借助計(jì)算機(jī)技術(shù)的發(fā)展,繼續(xù)擴(kuò)充訓(xùn)練文本的大小,提煉出更多有效的特征,完善數(shù)據(jù)處理及模板規(guī)則,探索更加有效的識(shí)別模型。
【關(guān)鍵詞】:《傷寒論》 術(shù)語抽取 條件隨機(jī)場(chǎng) 中醫(yī)術(shù)語
【學(xué)位授予單位】:北京中醫(yī)藥大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:R222.2
【目錄】:
- 中文摘要5-7
- Abstract7-10
- 前言10-11
- 文獻(xiàn)綜述11-21
- 1. 研究背景和意義11-12
- 2. 相關(guān)技術(shù)研究現(xiàn)狀與進(jìn)展12-18
- 2.1 信息抽取技術(shù)研究12-14
- 2.2 信息抽取技術(shù)的分類14-15
- 2.3 命名實(shí)體識(shí)別研究15-18
- 3. 醫(yī)學(xué)術(shù)語識(shí)別研究進(jìn)展18-19
- 3.1 生物醫(yī)學(xué)術(shù)語識(shí)別研究進(jìn)展18-19
- 3.2 中醫(yī)術(shù)語識(shí)別研究現(xiàn)狀19
- 4. 本章小結(jié)19-21
- 第一章 條件隨機(jī)場(chǎng)模型在中醫(yī)術(shù)語識(shí)別中的優(yōu)勢(shì)21-30
- 1. 統(tǒng)計(jì)模型概述21
- 2. 基于條件隨機(jī)場(chǎng)的中醫(yī)術(shù)語識(shí)別模型概要21-23
- 3. 其他常用的術(shù)語識(shí)別統(tǒng)計(jì)模型23-27
- 3.1 隱馬爾科夫模型23-25
- 3.2 最大熵模型25-26
- 3.3 最大熵馬爾科夫模型26-27
- 4. 四種模型應(yīng)用于中醫(yī)術(shù)語識(shí)別的優(yōu)勢(shì)比較27-29
- 5. 本章小結(jié)29-30
- 第二章 基于條件隨機(jī)場(chǎng)的《傷寒論》術(shù)語識(shí)別研究30-41
- 1. 研究對(duì)象及工具的使用30-34
- 1.1 文本選擇30
- 1.2 實(shí)驗(yàn)環(huán)境30
- 1.3 CRF++工具包的格式要求30-32
- 1.4 特征模板的準(zhǔn)備32-33
- 1.5 執(zhí)行過程33-34
- 2. 分詞方法的選擇34-36
- 2.1 中文文本分詞方法34-35
- 2.2 基于詞的分詞方法的局限性35-36
- 2.3 基于字的分詞方法的適用性36
- 3. 《傷寒論》文本預(yù)處理36-38
- 3.1 數(shù)據(jù)清洗36-37
- 3.2 特征選擇37-38
- 3.3 類別標(biāo)識(shí)38
- 4. 《傷寒論》術(shù)語識(shí)別方法38-39
- 4.1 術(shù)語識(shí)別的步驟38-39
- 4.2 術(shù)語識(shí)別的框架39
- 5. 本章小結(jié)39-41
- 第三章 基于條件隨機(jī)場(chǎng)的《傷寒論》術(shù)語識(shí)別實(shí)驗(yàn)驗(yàn)證、結(jié)果與分析41-49
- 1. 基于條件隨機(jī)場(chǎng)的《傷寒論》術(shù)語識(shí)別實(shí)驗(yàn)設(shè)計(jì)41
- 2. 數(shù)據(jù)示例及實(shí)驗(yàn)結(jié)果41-46
- 3. 實(shí)驗(yàn)測(cè)評(píng)標(biāo)準(zhǔn)46
- 4. 基于條件隨機(jī)場(chǎng)的《傷寒論》術(shù)語識(shí)別結(jié)果分析46-48
- 5. 本章小結(jié)48-49
- 第四章 術(shù)語抽取技術(shù)在中醫(yī)領(lǐng)域的應(yīng)用展望49-51
- 1. 信息抽取技術(shù)輔助電子病歷實(shí)現(xiàn)結(jié)構(gòu)化49
- 2. 信息抽取技術(shù)為中醫(yī)專業(yè)領(lǐng)域搜索引擎的建立提供支持49-51
- 結(jié)論51-52
- 參考文獻(xiàn)52-56
- 致謝56-57
- 個(gè)人簡(jiǎn)歷57
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 張五輩;白宇;王裴巖;張桂平;;一種中醫(yī)名詞術(shù)語自動(dòng)抽取方法[J];沈陽航空航天大學(xué)學(xué)報(bào);2011年01期
2 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計(jì)算機(jī)工程與應(yīng)用;2003年10期
3 劉豹;張桂平;蔡?hào)|風(fēng);;基于統(tǒng)計(jì)和規(guī)則相結(jié)合的科技術(shù)語自動(dòng)抽取研究[J];計(jì)算機(jī)工程與應(yīng)用;2008年23期
4 鄭家恒;菅小艷;;農(nóng)作物信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2006年07期
5 鄭強(qiáng);劉齊軍;王正華;朱云平;;生物醫(yī)學(xué)命名實(shí)體識(shí)別的研究與進(jìn)展[J];計(jì)算機(jī)應(yīng)用研究;2010年03期
6 盧炳衛(wèi);;關(guān)于自動(dòng)問答技術(shù)的研究[J];農(nóng)業(yè)圖書情報(bào)學(xué)刊;2006年01期
7 姜吉發(fā),王樹西;一種自舉的二元關(guān)系和二元關(guān)系模式獲取方法[J];中文信息學(xué)報(bào);2005年02期
8 袁毓林;;語義角色的精細(xì)等級(jí)及其在信息處理中的應(yīng)用[J];中文信息學(xué)報(bào);2007年04期
9 馮志偉;;一個(gè)新興的術(shù)語學(xué)科——計(jì)算術(shù)語學(xué)[J];術(shù)語標(biāo)準(zhǔn)化與信息技術(shù);2008年04期
10 祝清松;冷伏海;;自動(dòng)術(shù)語識(shí)別存在的問題及發(fā)展趨勢(shì)綜述[J];圖書情報(bào)工作;2012年18期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 孫承杰;基于判別式模型的生物醫(yī)學(xué)文本挖掘相關(guān)問題研究[D];哈爾濱工業(yè)大學(xué);2008年
本文關(guān)鍵詞:基于條件隨機(jī)場(chǎng)的《傷寒論》中醫(yī)術(shù)語自動(dòng)識(shí)別研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):416805
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/416805.html