中醫(yī)古籍圖像文獻的自由標引方法研究
發(fā)布時間:2020-07-07 14:39
【摘要】: 隨著古籍?dāng)?shù)字化工作的深入開展,中醫(yī)古籍?dāng)?shù)字化工作也逐漸由簡單的圖像掃描向中醫(yī)古籍文獻的智能檢索方向發(fā)展。而檢索是目的,標引是手段。要實現(xiàn)對中醫(yī)古籍文獻地有效檢索,就必須對中醫(yī)古籍文獻的標引進行深入研究。因此,本論文在借鑒以往研究的基礎(chǔ)上,從圖書館為中醫(yī)古籍文獻研究者提供服務(wù)的角度出發(fā),希望通過將現(xiàn)代文獻的自由標引方法與中醫(yī)古籍全文圖像數(shù)據(jù)庫相結(jié)合的研究來對中醫(yī)古籍圖像文獻的標引利用做一些探討,從而為中醫(yī)研究者查閱和利用中醫(yī)古籍文獻提供更為可靠和更為便捷的服務(wù)。 1研究現(xiàn)狀 目前中醫(yī)古籍?dāng)?shù)字化工作主要還是通過掃描設(shè)備和校對設(shè)備完成文獻載體的轉(zhuǎn)換,基本屬于“電子圖書”類型。而中醫(yī)古籍全文數(shù)據(jù)庫的構(gòu)建工作基本上都處于正在進行狀態(tài)。雖然現(xiàn)有的中醫(yī)古籍全文數(shù)據(jù)庫,如中華醫(yī)典、中醫(yī)藥古代文獻知識庫、龍語瀚堂典籍?dāng)?shù)據(jù)庫之“中醫(yī)藥文獻”數(shù)據(jù)庫等各有特色,或以重新錄入見長,或以解析標注見長,或以解決古籍生僻字的輸入問題見長,均取得了一定的成果,但是也還普遍存在一些問題。如標引深度差異大、準確把握難度大;基于全文文本的檢索、檢準率低;后控檢索應(yīng)用少、檢全率低等。 針對存在的問題,本論文結(jié)合全文數(shù)據(jù)庫本身的特點,遵循面向用戶對象的原則,對自由標引的研究現(xiàn)狀進行了分析。本論文具體闡述了自由標引的概念、使用范圍、優(yōu)點、缺點及解決方法、應(yīng)用前景等問題,并通過對主題詞標引與自由標引在標引深度、標引一致性、標引專指度、擴檢和縮檢能力、標引人員、標引速度、標引成本、面向用戶能力、詞匯更新等方面的比較分析,得出自由標引方法對于全文數(shù)據(jù)庫的創(chuàng)建和滿足現(xiàn)代用戶的檢索需求更具優(yōu)勢。同時,針對自由標引一致性差的缺點,本論文還對解決這一問題的方法即建立后控詞表進行了分析。本論文對后控詞表的概念、控制原理、功能及其決定因素、編制方式、國內(nèi)外研究現(xiàn)狀等方面進行了具體的介紹。從而在理論上說明了在標引時采用自由標引加上后控詞表的方法,可以最好的實現(xiàn)全文數(shù)據(jù)庫的檢索功能。 2研究對象、內(nèi)容和目標 本論文的研究對象是中醫(yī)古籍圖像文獻。其實質(zhì)就是中醫(yī)古籍文獻的全文圖像數(shù)據(jù)庫。本研究具體應(yīng)用的數(shù)據(jù)庫稱之為中醫(yī)古籍閱覽系統(tǒng)。 本論文的研究內(nèi)容和目標主要有兩項: 第一,應(yīng)用自由標引的方法對中醫(yī)古籍圖像文獻進行分析標引,總結(jié)出各類中醫(yī)古籍圖像文獻的具體標引規(guī)則,為今后繼續(xù)標引提供一個統(tǒng)一的示范。 第二,對提取的標引用詞進一步予以分析歸納,總結(jié)出后控詞表的具體設(shè)計方案和整個數(shù)據(jù)庫的檢索方案,進一步完善中醫(yī)古籍圖像文獻數(shù)據(jù)庫的檢索功能。 3研究目的和意義 本論文的研究可以兼顧中醫(yī)古籍文獻的保護和利用;可以為標引人員提供標引依據(jù),不僅有利于降低標引成本、提高標引速度和標引質(zhì)量,而且有利于提高標引一致性,保障檢索效率;可以為儉索用戶提供便捷服務(wù),節(jié)省大量查閱文獻資料的時間,有利于促進中醫(yī)學(xué)的知識發(fā)現(xiàn)與知識創(chuàng)新;可以為今后研究提供示范與參考。 4研究方法 本論文的研究方法主要有自由標引加后控詞表的方法、文獻分析法、比較法和統(tǒng)計學(xué)方法。 自由標引加后控詞表的方法是本論文重點研究和應(yīng)用的方法。其中,本論文將自由標引的方法與中醫(yī)古籍文獻的目錄、標題和主題相結(jié)合來對中醫(yī)古籍圖像文獻進行標引,稱之為“目錄的深加工”。它具體是指在對中醫(yī)古籍圖像文獻進行自由標引時,先以全書目錄中的各條內(nèi)容作為標引內(nèi)容,在此基礎(chǔ)上,將正文中明確寫到而目錄中沒有的各級標題和各段主題也作為標引內(nèi)容進一步予以標引。這種標引方法不僅可以全面反應(yīng)每本書的具體框架,使用戶對整本書的內(nèi)容一目了然,實現(xiàn)快速瀏覽和快速定位;而且這樣提取的標引用詞是十分客觀的,不會存在標引人員由于主觀原因而對用戶造成的不便與誤導(dǎo),可以實現(xiàn)有效檢索。 與此同時,本論文還運用文獻分析法、比較法、統(tǒng)計學(xué)方法對各類中醫(yī)古籍圖像文獻以及不同的標引方法和檢索策略進行具體分析,以便更好的達到本論文的研究目的。 5本論文的主要研究工作 5.1各類中醫(yī)古籍圖像文獻的具體標引方法研究 本論文采用《中國中醫(yī)古籍總目》的分類方法將中醫(yī)古籍分為醫(yī)經(jīng)、基礎(chǔ)理論、傷寒金匱、診法、針灸、本草、方書、臨證各科、養(yǎng)生、醫(yī)案、醫(yī)史醫(yī)論醫(yī)話、綜合性著作(主要是叢書)十二大類,并對每類書的具體標引方法進行了研究。以下以本草類中醫(yī)古籍圖像文獻的自由標引方法為例進行簡要說明。 在編寫結(jié)構(gòu)上,本草類的書除了與一般醫(yī)書共有的序(敘)、跋、目錄、凡例或附錄等以外,正文結(jié)構(gòu)也有自己的特點。完整的本草書一般是先分卷,再分大類,然后再列藥名,其后再列藥物的性味歸經(jīng)和主治等。在本草書中,藥名、藥物的性味歸經(jīng)和主治一般是必有的,其它的結(jié)構(gòu)則或有或無。由此,其各種書的標引方法也就不同。大體分為以下三級情況: 1、一級標引 正文結(jié)構(gòu):正文不分卷,直接列出藥名,其后再列藥物的性味歸經(jīng)和主治等。 標引方法:只將藥名作為標引用詞標出即可。 2、二級標引 正文結(jié)構(gòu): (1)正文不分卷,先列大類,然后列藥名,其后再列藥物的性味歸經(jīng)和主治等。 (2)正文分卷,每卷下直接列出藥名,然后列出藥物的性味歸經(jīng)和主治等。 標引方法: (1)先標出大類,再標出藥名,其余不標。 (2)先標出卷名,再標出藥名,其余不標。 3、三級標引 正文結(jié)構(gòu):正文分卷,每卷下先列大類,然后再列藥名,其后再列藥物的性味歸經(jīng)和主治等。 標引方法:先標出卷名,再標出大類,然后標出藥名。 5.2后控詞表的設(shè)計方案 詞表范圍:包括各類中醫(yī)古籍文獻中的中醫(yī)用詞。如醫(yī)經(jīng)、基礎(chǔ)理論、傷寒金匱、診法、針灸、本草、方書、臨證各科、養(yǎng)生、醫(yī)案、醫(yī)史醫(yī)論醫(yī)話、叢書十二類書中的用詞。 詞表控制程度:主要控制詞匯的同義關(guān)系、近義關(guān)系、上位關(guān)系、下位關(guān)系和關(guān)聯(lián)關(guān)系。對于詞匯的古今對照關(guān)系,由于情況比較復(fù)雜、難度很大,本詞表暫不涉及。 詞匯來源:主要包括標引人員所標出的自由標引用詞、現(xiàn)有詞表和其它中醫(yī)專業(yè)工具書中的詞匯和用戶檢索策略用詞。 詞匯類型:主要是中醫(yī)專業(yè)用詞,如陰陽、人參等;也可以是單詞,如頭、瘧等;或是短句,如治頭痛等。 詞表結(jié)構(gòu)及構(gòu)建步驟: 1、收集整理標引用詞 利用標引軟件古籍編輯器對中醫(yī)古籍圖像文獻進行標引后,得到的是xml格式的標引文件。通過對xml格式文件的計算機處理,可以將全部的標引用詞抽出,形成一個詞表。 在這個詞表中,共設(shè)三個字段,即標引用詞、標識詞和語義關(guān)系。 標引用詞,是指自由標引提取的標引用詞,數(shù)據(jù)類型設(shè)為文本型。 標識詞,是指每個標引用詞在數(shù)據(jù)庫后控檢索中的識別詞,一般為常規(guī)或正式的用詞,數(shù)據(jù)類型設(shè)為文本型。 語義關(guān)系,是指標引用詞與標識詞之間的語義關(guān)系,包括Y(用)、C(參)、S(屬)、F(分)等項,數(shù)據(jù)類型設(shè)為文本型。其中,“Y(用)”指同義關(guān)系;“C(參)”指近義關(guān)系;“S(屬)”指上位關(guān)系;“F(分)”指下位關(guān)系。 按標引用詞的升序?qū)@個詞表進行排序,并對其中重復(fù)或無檢索作用的標引用詞進行剔除。其中無檢索作用的標引用詞主要是指僅用于表示文章整體框架,而不用于檢索的詞,如“序”、“目錄”、“卷一”、“附方”、“附錄”等。 借助現(xiàn)有的詞表或相關(guān)工具書對詞表中的標識詞、語義關(guān)系進行修改和補充。 再按標識詞、標引用詞、語義關(guān)系的升序依次進行排序,形成一個初步的后控詞表。 2、形成比較完善的后控詞表 在上述后控詞表的基礎(chǔ)上,以標識詞為分類依據(jù),對標引用詞進行聚類分析,創(chuàng)建可供不斷完善的后控詞表。 在這個后控詞表中,共設(shè)七個字段,即類號、標識詞、同義詞、近義詞、上位詞、下位詞和關(guān)聯(lián)詞。其中類號,是指標識詞的順序號,用整數(shù)表示,數(shù)據(jù)類型設(shè)為數(shù)值型; 標識詞,同上述后控詞表中的標識詞; 同義詞,是指與標識詞有同義關(guān)系的標引用詞,即上述后控詞表中與標識詞的語義關(guān)系為“Y(用)”的標引用詞,數(shù)據(jù)類型設(shè)為文本型; 近義詞,是指與標識詞有近義關(guān)系的標引用詞,即上述后控詞表中與標識詞的語義關(guān)系為“C(參)”的標引用詞,數(shù)據(jù)類型設(shè)為文本型; 上位詞,是指與標識詞有上位關(guān)系的標引用詞,即上述后控詞表中與標識詞的語義關(guān)系為“F(分)”的標引用詞,數(shù)據(jù)類型設(shè)為文本型; 下位詞,是指與標識詞有下位關(guān)系的標引用詞,即上述后控詞表中與標識詞的語義關(guān)系為“S(屬)”的標引用詞,數(shù)據(jù)類型設(shè)為文本型;。 另外,還增設(shè)了一個字段,即關(guān)聯(lián)詞。它是指與標識詞關(guān)聯(lián)密切的標引用詞,語義關(guān)系用“L(聯(lián))”表示,數(shù)據(jù)類型設(shè)為文本型。 詞表形式:①機讀版;②印刷版(必要時)。前者便于動態(tài)維護和管理,因而以前者為主。 5.3中醫(yī)古籍閱覽系統(tǒng)的功能改善 2005年,根據(jù)科技部“再生性古籍保護”項目的要求,中國中醫(yī)科學(xué)院圖書館依托自身的技術(shù)力量,開發(fā)了中醫(yī)古籍閱覽系統(tǒng)。 該系統(tǒng)就是試圖利用自由標引的方法來實現(xiàn)對中醫(yī)古籍圖像文獻的有效檢索。本論文通過上述研究對該系統(tǒng)做了進一步的改善,并對系統(tǒng)采用的主要技術(shù)、系統(tǒng)對硬件軟件的要求、系統(tǒng)檢索界面、系統(tǒng)具體功能等方面進行了較為全面地介紹。尤其是系統(tǒng)功能方面,不僅詳細介紹了該系統(tǒng)的類目瀏覽直接翻看全書、簡單檢索和組合檢索、全文檢索、后控檢索、圖文關(guān)聯(lián)檢索等功能,而且將通過本論文的研究而設(shè)計的比較完善的中醫(yī)古籍閱覽系統(tǒng)與中醫(yī)藥古代文獻知識庫和龍語瀚堂典籍?dāng)?shù)據(jù)庫之“中醫(yī)藥文獻”數(shù)據(jù)庫在標引內(nèi)容與深度、檢索選項、類目瀏覽、直接翻看全書、書名檢索、內(nèi)容提要檢索、作者檢索、館藏地檢索、圖片信息檢索、書籍信息檢索、模糊檢索、精確檢索、涵蓋部分關(guān)鍵詞、涵蓋全部關(guān)鍵詞、同義詞檢索、近義詞檢索、上位詞檢索、下位詞檢索、關(guān)聯(lián)詞檢索、圖文關(guān)聯(lián)檢索、圖文對照瀏覽、超大字庫等方面進行了比較研究,進一步說明了本論文所做研究的必要性和優(yōu)越性。 6結(jié)論 本論文結(jié)合中醫(yī)古籍圖像文獻特點,通過對中醫(yī)古籍圖像文獻的自由標引方法研究得出以下結(jié)論: 第一,按照“目錄深加工”的方法對各類中醫(yī)古籍圖像文獻進行自由標引,不僅可以客觀而全面的反映中醫(yī)古籍文獻的內(nèi)容,而且可以為今后的標引工作提供示范。 第二,在自由標引的基礎(chǔ)上創(chuàng)建后控詞表,有利于大大提高檢索效果。 第三,中醫(yī)古籍閱覽系統(tǒng)的創(chuàng)建與完善需要在借鑒其它數(shù)據(jù)庫優(yōu)點的基礎(chǔ)上,綜合利用多種先進的計算機技術(shù)才能實現(xiàn)。 本論文中采用的各種方法和技術(shù)都是現(xiàn)有的,本論文的創(chuàng)新之處在于將這些方法和技術(shù)有機的結(jié)合在一起,使建立一個文獻資料可靠、檢索性能優(yōu)良、用戶使用便捷的中醫(yī)古籍圖像文獻數(shù)據(jù)庫成為可能。
【學(xué)位授予單位】:中國中醫(yī)科學(xué)院
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2008
【分類號】:G254
【圖文】:
中醫(yī)古籍圖像文獻的自由標引方法{講究數(shù)或附錄等以外,正文結(jié)構(gòu)也有自己的特點。根據(jù)正文內(nèi)容,醫(yī)經(jīng)類的書分為以下兩種情況:1、與《內(nèi)經(jīng)》有關(guān)的著作標引方法:(l)《內(nèi)經(jīng)》原文或注釋,只要將各篇名稱標出即可。(2)《內(nèi)經(jīng)》類編或發(fā)揮,只要按目錄進行標引即可,有的目錄之下還的也要標出。如果沒有目錄的,直接按正文中的標題進行標引即可。引示例:(l)《黃帝內(nèi)經(jīng)素問靈樞》
’Jl1頁四時”2、一l萬(圖5),“卷之幾”、“陰陽”(圖6)標出即可!峨y經(jīng)》有關(guān)的著作如標引方法:只要將八十一難的名稱標出即可,每難的具體條文不用標出。果有圖片注釋的,要將圖片的名稱也標出。36
’Jl1頁四時”2、一l萬(圖5),“卷之幾”、“陰陽”(圖6)標出即可!峨y經(jīng)》有關(guān)的著作如標引方法:只要將八十一難的名稱標出即可,每難的具體條文不用標出。果有圖片注釋的,要將圖片的名稱也標出。36
本文編號:2745244
【學(xué)位授予單位】:中國中醫(yī)科學(xué)院
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2008
【分類號】:G254
【圖文】:
中醫(yī)古籍圖像文獻的自由標引方法{講究數(shù)或附錄等以外,正文結(jié)構(gòu)也有自己的特點。根據(jù)正文內(nèi)容,醫(yī)經(jīng)類的書分為以下兩種情況:1、與《內(nèi)經(jīng)》有關(guān)的著作標引方法:(l)《內(nèi)經(jīng)》原文或注釋,只要將各篇名稱標出即可。(2)《內(nèi)經(jīng)》類編或發(fā)揮,只要按目錄進行標引即可,有的目錄之下還的也要標出。如果沒有目錄的,直接按正文中的標題進行標引即可。引示例:(l)《黃帝內(nèi)經(jīng)素問靈樞》
’Jl1頁四時”2、一l萬(圖5),“卷之幾”、“陰陽”(圖6)標出即可!峨y經(jīng)》有關(guān)的著作如標引方法:只要將八十一難的名稱標出即可,每難的具體條文不用標出。果有圖片注釋的,要將圖片的名稱也標出。36
’Jl1頁四時”2、一l萬(圖5),“卷之幾”、“陰陽”(圖6)標出即可!峨y經(jīng)》有關(guān)的著作如標引方法:只要將八十一難的名稱標出即可,每難的具體條文不用標出。果有圖片注釋的,要將圖片的名稱也標出。36
【引證文獻】
相關(guān)期刊論文 前1條
1 劉洪;徐燕;經(jīng)岷;宋宇;張稚鯤;;健身氣功歌訣、口訣整理及數(shù)字化[J];中華醫(yī)學(xué)圖書情報雜志;2013年12期
相關(guān)碩士學(xué)位論文 前3條
1 褚嘉欣;數(shù)字化古籍知識管理研究[D];鄭州大學(xué);2018年
2 成小榮;《審查征集驗方》整理與數(shù)字化研究[D];山西中醫(yī)藥大學(xué);2017年
3 李兵;中醫(yī)古籍?dāng)?shù)字化整理方案研究[D];中國中醫(yī)科學(xué)院;2009年
本文編號:2745244
本文鏈接:http://sikaile.net/tushudanganlunwen/2745244.html
最近更新
教材專著