天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

館藏資源語(yǔ)義化關(guān)鍵技術(shù)及實(shí)證研究

發(fā)布時(shí)間:2017-01-01 00:53

  本文關(guān)鍵詞:館藏資源語(yǔ)義化關(guān)鍵技術(shù)及實(shí)證研究,由筆耕文化傳播整理發(fā)布。


當(dāng)前位置:首頁(yè) >> 互聯(lián)網(wǎng) >> 館藏資源語(yǔ)義化關(guān)鍵技術(shù)及實(shí)證研究


樓 雯: 館藏資源語(yǔ)義化關(guān)鍵技術(shù)及實(shí)證研究 Lou Wen: An Empirical Study on Key Technologies of Library Resource Semantization

027

館藏資源語(yǔ)義化關(guān)鍵技術(shù)及實(shí)證研究*
樓 雯

摘 要 本文從微觀層面設(shè)計(jì)了館藏資源語(yǔ)義化模型

, 描述了館藏資源語(yǔ)義化的關(guān)鍵技術(shù), 并利用武漢大學(xué)圖書館館藏 “美洲各國(guó)軍事” 資源 類目的數(shù)據(jù)對(duì)模型進(jìn)行了檢驗(yàn)。從館藏資源到語(yǔ)義資源需要經(jīng)過(guò)信息提取技術(shù)、 語(yǔ)義關(guān)系提取技 術(shù)和形式化技術(shù)的支持。實(shí)驗(yàn)分析發(fā)現(xiàn)館藏資源語(yǔ)義化模型所述的流程可用, 后續(xù)研究可以著眼于資源統(tǒng)一化。圖 5。 表 3。參考文獻(xiàn) 53。 關(guān)鍵詞 館藏資源 語(yǔ)義化 分詞 概念提取 關(guān)系提取 形式化 分類號(hào) G250

An Empirical Study on Key Technologies of Library Resource Semantization
Lou Wen
ABSTRACT This paper designs a model so as to figure out the entire process and key technologies of library resource semantization. The model was tested with America's military category data from Wuhan University Library's bibliographic retrieval systems. Interchange from library resources to semantic resources are supported by key technologies such as information extraction, relationship extraction, and formalization. Empirical analysis supports the feasibility of the model and further research should be focused on resource consolidation. 5 figs. 3 tabs. 53 refs. KEY WORDS Library resources. ization.
[ 5 ] 文獻(xiàn)中心 等, 紛紛將其資源語(yǔ)義化, 在互聯(lián)網(wǎng)上

Semantization.

Segmentation.

Concept extraction.

Relationship extraction.

Formal-

語(yǔ)義網(wǎng)的提出至今已有十幾年時(shí)間, 人們對(duì)語(yǔ) 義網(wǎng)環(huán)境下的生活充滿期待, 眾多機(jī)構(gòu)和個(gè)人將身 使之成為語(yǔ)義網(wǎng)的 邊的信息資源發(fā)布成語(yǔ)義信息, 凡是將 一部分。信息資源語(yǔ)義化的形式有很多種, 人們掌握的知識(shí)通過(guò)先進(jìn)技術(shù)轉(zhuǎn)化成機(jī)器能夠理 解的語(yǔ)言, 都可認(rèn)為信息被語(yǔ)義化了, 所以發(fā)布語(yǔ) 義信息的途徑不僅僅是構(gòu)建成本體或關(guān)聯(lián)數(shù)據(jù)。 但本體和關(guān)聯(lián)數(shù)據(jù)是目前學(xué)者們首肯的語(yǔ)義化方 式, 近年來(lái), 世界著名機(jī)構(gòu)如 BBC 、 路透社 、 維 基百科 、 美國(guó)國(guó)會(huì)圖書館 、 中國(guó)國(guó)家科技圖書
[ 3 ] [ 4 ] [ 1 ] [ 2 ]

W3C 設(shè)計(jì)了全民關(guān)聯(lián) 發(fā)布和提供查詢。2007 年, 最大程度地接近了語(yǔ)義網(wǎng)。 數(shù)據(jù)的計(jì)劃, 信息資源語(yǔ)義化已經(jīng)成為知識(shí)交流和知識(shí)共 享的必經(jīng)之路, 圖書館作為蘊(yùn)含巨大信息資源和知 識(shí)的集合, 館藏資源的語(yǔ)義化在世界一些地區(qū)已經(jīng) 成為語(yǔ)義網(wǎng)建設(shè)的重要組成部分, 在另一些地區(qū)也 即將成為重點(diǎn)研究的對(duì)象。語(yǔ)義網(wǎng)經(jīng)過(guò)十幾年的 時(shí)間還未能實(shí)現(xiàn), 不僅僅是浩瀚的信息海洋造成 的, 也因?yàn)檎Z(yǔ)義化過(guò)程中會(huì)遇到種種邏輯難題和技

( 批準(zhǔn)號(hào): 11&ZD152) 的研究 * 本文系國(guó)家社科基金重大項(xiàng)目“基于語(yǔ)義的館藏資源深度聚合與可視化展示研究” 成果之一。 Email: hotwen_l@ sina. com 通訊作者: 樓雯, 2013 年 11 月 November, 2013

028

Journal of Library Science in China

術(shù)難題。語(yǔ)義網(wǎng)的實(shí)現(xiàn)是一個(gè)層層推進(jìn)的過(guò)程, 首 進(jìn)而帶 先將一部分易于語(yǔ)義化的現(xiàn)有資源語(yǔ)義化, 動(dòng)其他部分的語(yǔ)義化, 而圖書館就是現(xiàn)成的實(shí)驗(yàn)對(duì) 總 象。本文專門為館藏資源的語(yǔ)義化設(shè)計(jì)了模型, 結(jié)歸納了語(yǔ)義化過(guò)程的關(guān)鍵技術(shù), 并用兩個(gè)實(shí)驗(yàn)揭 示了模型和關(guān)鍵技術(shù)的可行性, 旨在為館藏資源的 語(yǔ)義化進(jìn)程提供參考。

元數(shù)據(jù)、 本體和關(guān)聯(lián)數(shù)據(jù)視為數(shù)字 些學(xué)者將 RDF、 微觀層面的技術(shù) 圖書館實(shí)踐中的關(guān)鍵技術(shù)。另外,
[ 16 - 18 ] 、 包括了概念提取、 概念轉(zhuǎn)換 互操作、 語(yǔ)義互

概念格 聯(lián)、 SOA 格、

[ 19 - 23 ]

, 中觀層面的技術(shù)包括了語(yǔ)義網(wǎng)

[ 24 ]

[ 25 - 27 ] 、 , 本體構(gòu)建、 本體映射、 本體進(jìn)化

可以看到, 這些研究重點(diǎn)描述了數(shù)字圖書館語(yǔ)義化 的某種技術(shù), 并沒(méi)有形成一套完整的流程和技術(shù) 體系。 ( 3) 知識(shí)服務(wù)的關(guān)鍵技術(shù) 語(yǔ)義網(wǎng)和數(shù)字圖書館的建設(shè)和實(shí)現(xiàn)實(shí)際上都 是為了知識(shí)交流和知識(shí)共享, 因此上文提到的許多 研究已經(jīng)表現(xiàn)出知識(shí)組織或個(gè)性化服務(wù)的內(nèi)容和 關(guān)鍵技術(shù) 用方法
[ 9, 15 - 16, 19 - 22 ]

1 相關(guān)研究
館藏資源首先是一種信息資源, 是所有信息 其次是圖書館特有的資源, 再次館藏資 的一部分, 源經(jīng)過(guò)人類和機(jī)器的理解轉(zhuǎn)化為知識(shí), 所以它還是 一種顯性的知識(shí)資源。館藏資源具有這三個(gè)含義, 其語(yǔ)義化的相關(guān)研究也可以從這三個(gè)方面進(jìn)行 分析。 ( 1) 語(yǔ)義網(wǎng)的關(guān)鍵技術(shù) 實(shí)現(xiàn)語(yǔ)義網(wǎng)的技術(shù)是連接館藏資源語(yǔ)義化與 萬(wàn)維語(yǔ)義網(wǎng)的關(guān)鍵, 目前的研究多以總結(jié)語(yǔ)義網(wǎng)技 術(shù)和提出新型語(yǔ)義化技術(shù)為主。在本體研究的熱 潮中, 相關(guān)學(xué)者已將語(yǔ)義網(wǎng)的關(guān)鍵技術(shù)默認(rèn)為本體 這一類的研究包括了全面介紹語(yǔ)義 及其相關(guān)技術(shù), OWL 和 網(wǎng)信息組織的技術(shù)和方法, 并總結(jié)出 RDF、 本體是語(yǔ)義網(wǎng)的核心技術(shù)
[ 6 -7 ]

。不僅如此, 有的研究總結(jié)了

數(shù)據(jù)挖掘技術(shù)在圖書館建設(shè)中的具體使 聚類技術(shù)、
[ 28 - 30 ]

; 認(rèn)為手工決策技術(shù)、 基于內(nèi)容的推薦
[ 31 ]

系統(tǒng)、 基于本體的服務(wù)系統(tǒng)和智能信息推拉技術(shù)是 個(gè)性化服務(wù)的技術(shù)支持 ; 提出基于讀者行為的 。這些是對(duì)知識(shí)服務(wù) 知識(shí)服務(wù)關(guān)鍵技術(shù)有讀者特征提取技術(shù)、 興趣模型 分析技術(shù)和協(xié)同推薦技術(shù)
[ 32 ] [ 33 ] 技術(shù)特征的總結(jié)和探討。還有文獻(xiàn) 利用關(guān)聯(lián)數(shù)

據(jù)將多種數(shù)據(jù)源的知識(shí)關(guān)聯(lián)到一起形成語(yǔ)義擴(kuò)展, 則是對(duì)關(guān)鍵技術(shù)的應(yīng)用。 近年來(lái), 隨著館藏資源語(yǔ)義化進(jìn)程的加快, 一 些學(xué)者提出了有建設(shè)性的語(yǔ)義化模型和框架, 為館 藏資源語(yǔ)義化和知識(shí)服務(wù)提供了參考
[ 34 - 36 ]

。本文強(qiáng)調(diào)廣義的

語(yǔ)義化, 因此這些總結(jié)出的關(guān)鍵技術(shù)并不能代表所 有的語(yǔ)義網(wǎng)技術(shù)。在新型技術(shù)的研究上, 有學(xué)者提
[ 8 ] 知識(shí)的自動(dòng)分類技 出了語(yǔ)義化網(wǎng)絡(luò)的學(xué)習(xí)算法 、 [ 9 ] [ 10 ] 術(shù) 、 微格式技術(shù) 可以作為語(yǔ)義網(wǎng)實(shí)現(xiàn)的關(guān)鍵

。上述

有的則僅 研究有的僅設(shè)計(jì)了模型或進(jìn)行實(shí)驗(yàn)驗(yàn)證, 描述一部分技術(shù), 尚缺乏對(duì)館藏資源語(yǔ)義化過(guò)程整 套系統(tǒng)關(guān)鍵技術(shù)的歸納總結(jié)。因此本文設(shè)計(jì)了館 并描述其中各個(gè)部分的關(guān)鍵 藏資源語(yǔ)義化模型, 技術(shù)。

技術(shù), 但這些技術(shù)的使用環(huán)境較為局限, 研究也缺 乏全面性。當(dāng)然也有學(xué)者認(rèn)識(shí)到總結(jié)歸納語(yǔ)義網(wǎng) 關(guān)鍵技術(shù)的必要性 問(wèn)題。 ( 2) 數(shù)字圖書館的關(guān)鍵技術(shù) 數(shù)字圖書館在館藏資源從數(shù)字化到語(yǔ)義化的 數(shù)字圖書館相關(guān)技術(shù)的研究 過(guò)程中起著重要作用, 包括了對(duì)語(yǔ)義化技術(shù)的應(yīng)用以及微觀、 中觀層面技 術(shù)的研究。在技術(shù)的應(yīng)用方面, 目前學(xué)者偏向于利 用 RDF、 元數(shù)據(jù)、 本體和關(guān)聯(lián)數(shù)據(jù)
[ 12 - 15 ] [ 11 ]

, 但只描述了問(wèn)題, 并未解決

2 館藏資源語(yǔ)義化模型
館藏資源語(yǔ)義化主要包括信息的提取、 語(yǔ)義關(guān) 系的提取、 形式化和應(yīng)用等步驟, 圖 1 顯示了館藏 資源語(yǔ)義化的主要過(guò)程。 數(shù)字時(shí)代的圖書館已不再是紙質(zhì)圖書的集合 地, 現(xiàn)有的館藏資源有很多種, 若要把所有館藏資 源語(yǔ)義化, 則要考慮到所有形式的館藏資源。

進(jìn)行圖書書

目的語(yǔ)義化或提出新的知識(shí)組織方法, 也就是說(shuō)這
總第三九卷 第二〇八期 Vol. 39. No. 208

樓 雯: 館藏資源語(yǔ)義化關(guān)鍵技術(shù)及實(shí)證研究 Lou Wen: An Empirical Study on Key Technologies of Library Resource Semantization

029

圖 1 館藏資源語(yǔ)義化模型 盡管不同的資源類型有不同的行文格式和出 版樣式, 但是它們均具有外部特征和內(nèi)部特征。外 部特征包括題名、 著者、 編號(hào)、 分類號(hào) / 名和出版發(fā) 內(nèi)部特征則包括正文、 摘要和主題等。館 行項(xiàng)等, 藏資源語(yǔ)義化的過(guò)程中, 內(nèi)外部特征的語(yǔ)義化內(nèi)容 語(yǔ)義化的過(guò)程也不同, 因此需要區(qū)別對(duì)待。 不同, 對(duì)內(nèi)外部特征分別預(yù)處理后, 則進(jìn)入信息的 提取步驟, 這一步主要運(yùn)用的關(guān)鍵技術(shù)統(tǒng)稱為信息 提取技術(shù)。內(nèi)部特征是表示資源主題內(nèi)容的信息 集合
[ 37 ]

詞之間有等級(jí)和非等級(jí)的關(guān)系, 可以通過(guò)基于 來(lái), 關(guān)聯(lián)規(guī)則的、 基于聚類的、 基于語(yǔ)法規(guī)則的提取方 法得來(lái)。 不論內(nèi)部特征還是外部特征, 概念和關(guān)系的強(qiáng) 弱都需要經(jīng)過(guò)相似度計(jì)算才能確定。當(dāng)概念和關(guān) 系都提取出來(lái)后, 就可以形成三元組, 對(duì)三元組形 從而將館藏資源轉(zhuǎn)換成語(yǔ)義資源。 式化,

3 館藏資源語(yǔ)義化關(guān)鍵技術(shù)
3. 1 信息提取相關(guān)技術(shù) 信息提取是指從結(jié)構(gòu)化信息、 半結(jié)構(gòu)化信息和 非結(jié)構(gòu)化信息中提取概念或?qū)嵗⑵浯鎯?chǔ)成事 實(shí)信息的過(guò)程
[ 38 ]

, 表示方式多為文字段落, 需要進(jìn)行分詞處

理才能將內(nèi)部特征顯現(xiàn)出來(lái), 在分詞過(guò)程中, 由于 分詞的方法和注意事項(xiàng)也不同, 語(yǔ)言語(yǔ)種的不同, 總體來(lái)說(shuō)分詞時(shí)需要考慮分詞算法、 詞性標(biāo)注和組 詞規(guī)則。經(jīng)過(guò)分詞后的段落已經(jīng)是零散的信息點(diǎn), 要提取有用的信息點(diǎn), 運(yùn)用到的關(guān)鍵技術(shù)是概念提 取技術(shù), 概念提取技術(shù)又可以進(jìn)行細(xì)分。外部特征 的概念提取沒(méi)有內(nèi)部特征繁雜, 外部特征是已經(jīng)被 主題標(biāo)引后的信息, 可直接視為概念, 但仍需進(jìn)行 消歧、 過(guò)濾等處理, 防止重名、 特殊情況的出現(xiàn)。 內(nèi)外部特征經(jīng)過(guò)核心詞篩選后, 就可以進(jìn)行 語(yǔ)義關(guān)系提取的步驟。核心詞主要依靠已有敘詞 表和領(lǐng)域?qū)<襾?lái)篩選。語(yǔ)義關(guān)系提取技術(shù)包括計(jì) 量分析技術(shù)和提取方法。外部特征之間的關(guān)系可 這里所說(shuō)的 以很清楚地用計(jì)量分析技術(shù)表現(xiàn)出來(lái), 計(jì)量分析可以是文獻(xiàn)計(jì)量分析、 信息計(jì)量分析、 科 學(xué)計(jì)量分析和網(wǎng)絡(luò)計(jì)量分析, 分析方法有共詞分 析、 耦合分析、 共引分析等。而內(nèi)部特征之間的關(guān) 需要利用文本中詞之間的關(guān)系體現(xiàn)出 系種類繁多,

。結(jié)構(gòu)化信息和半結(jié)構(gòu)化信息

( 如文獻(xiàn)外部特征) 提取概念較為方便, 從非結(jié)構(gòu) 化信息( 如文本) 提取概念需要對(duì)文本中的字詞進(jìn) 行取舍, 如何判斷取舍則需要分詞技術(shù)、 命名實(shí)體 識(shí)別和概念提取技術(shù)。 ( 1) 分詞技術(shù) 分詞技術(shù)是自然語(yǔ)言處理的研究范疇, 國(guó)內(nèi)外 學(xué)者對(duì)自然語(yǔ)言理解展開(kāi)了深入的研究。西文分 基 詞方法大致可歸為三大類: 基于語(yǔ)法的分析法、 于語(yǔ)法與語(yǔ)義相結(jié)合的分析法和基于語(yǔ)義的分析 SimpleAnalyzer、 法三類, 常用的分詞工具有 Lucene、 WhitespaceAnalyzer 等。漢語(yǔ)分詞方法有基于詞典 基于統(tǒng)計(jì)的分詞方法、 基于理解的分 的分詞方法、 詞方法
[ 39 ]

;谠~典的分詞方法需要一個(gè)標(biāo)準(zhǔn)詞

一般用正向最大匹配算法、 逆向最大匹配算法 典,
2013 年 11 月 November, 2013

030

Journal of Library Science in China

和最小切分算法使待分詞文本與詞典匹配, 匹配成 功的詞則被切分; 基于統(tǒng)計(jì)的分詞方法不需要詞 典, 如果把詞看作固定的字的組合, 相鄰的字共同 則把這些字當(dāng)作一個(gè) 出現(xiàn)的次數(shù)超過(guò)一定閾值, 詞; 基于理解的分詞方法是機(jī)器學(xué)習(xí)的算法, 機(jī)器 在分詞的同時(shí)進(jìn)行語(yǔ)法、 句法和語(yǔ)義分析, 需要經(jīng) 過(guò)大量的學(xué)習(xí)試驗(yàn)集才能確定精度。 詞性標(biāo)注就是利用計(jì)算機(jī)給文本中的詞標(biāo)上 “電腦” 、 “美麗” 如 是名詞 是形容詞等。詞性 詞類, 標(biāo)注有助于機(jī)器識(shí)別。自然語(yǔ)言常會(huì)出現(xiàn)詞組、 兼 詞( 一個(gè)詞具有多個(gè)詞性) 和新詞, 給詞性標(biāo)注帶 來(lái)很大困難, 組詞規(guī)則可以解決一部分難題。雖然 有現(xiàn)有的詞性詞典和組詞規(guī)則, 但使用時(shí)還要考慮 到實(shí)際情況, 有些專有性強(qiáng)的分詞文本更多利用專 用敘詞表。 國(guó)內(nèi)自動(dòng)分詞系統(tǒng)主要有清華 SEG 分詞系 統(tǒng)、 復(fù)旦分詞系統(tǒng)、 北大計(jì)算機(jī)研究所分詞系統(tǒng)和 中國(guó)科學(xué)院 ICTCLAS ( Institute of Computing Technology, Chinese Lexical Analysis System)
[ 40 - 41 ]

( 3) 概念提取方法 有 分詞后的文本已經(jīng)成為概念的離散的集合, 些可能是錯(cuò)誤的概念, 需要概念提取方法將其完 提取語(yǔ)義概念的方法 善。總結(jié)多年來(lái)學(xué)者的研究, gram 的方法、 有基于詞典的方法、 基于 N基于互信
[ 44 ] 息的方法、 基于上下文信息的方法和混合方法 ,

其中基于互信息的和基于上下文信息的方法有助 于提取合成詞。①基于詞典的方法, 又稱為基于規(guī) 則的方法, 該方法有一套標(biāo)準(zhǔn)的詞典與分詞后的結(jié) 果進(jìn)行匹配, 匹配成功的詞則成為待選概念。這種 方法提取出的概念精準(zhǔn)度高, 但方法的約束性太 強(qiáng), 符合標(biāo)準(zhǔn)的自然語(yǔ)言或相似詞均無(wú)法被提取出 gram 的方法, 來(lái)。②基于 N這種方法將相鄰的 N “人 個(gè)分詞文本中的詞組合起來(lái), 形成新概念, 如 們 / n 的 / u 腦子 / n 里 / f 就 / d 會(huì) / v 出現(xiàn) / v 英勇 / a gram 結(jié)果為 “人們的 ” 、 “的腦 的 / u 形象 / n ” 的 2” 、 “腦子里 ” 、 “里就 ” 、 “就會(huì) ” 、 “會(huì)出現(xiàn) ” 、 “出現(xiàn) 子 ” 、 “英勇的 ” 、 “的形象” , 英勇 可以看出結(jié)果往往出 現(xiàn)不是詞的概念, 錯(cuò)誤率較高。因此有時(shí)根據(jù)實(shí)際 情況會(huì)多次選擇不同的 N 來(lái)提高準(zhǔn)確率。③基于 互信息的方法, 互信息是統(tǒng)計(jì)語(yǔ)言學(xué)模型中度量?jī)?個(gè)詞之間關(guān)聯(lián)程度的指標(biāo), 通過(guò)計(jì)算 A 詞和 B 詞 相鄰出現(xiàn)在文本總詞數(shù)中的概率, 確定合成詞 AB 是否為概念詞。④基于上下文信息的方法, 概念之 B 詞的上文 間的上下文與概念有緊密聯(lián)系, 設(shè) A、 同有 C 詞, 計(jì)算此情況出現(xiàn)的概率, 概率越高說(shuō)明 合成詞 AB 越可能是概念詞。⑤ 混合方法就是將 搭配使用后提取概念的效果更 以上方法取長(zhǎng)補(bǔ)短, 比如可以先用基于詞典的方法將標(biāo)準(zhǔn)詞提取出 佳, gram 算法形成新詞, 來(lái), 再將剩下的通過(guò) N利用基 于互信息的或基于上下文的方法對(duì)新詞進(jìn)行過(guò)濾, 最終形成整套的待選概念。 3. 2 語(yǔ)義關(guān)系提取相關(guān)技術(shù) 語(yǔ)義關(guān)系多被分為等級(jí)關(guān)系和非等級(jí)關(guān)系, 提 取方法大為不同。等級(jí)關(guān)系是樹(shù)型結(jié)構(gòu), 與聚類技 術(shù)的結(jié)果類似, 因此多用層次聚類算法提; 非等級(jí) 關(guān)系在現(xiàn)實(shí)生活中出現(xiàn)更多, 形式多樣, 比如地理位 置關(guān)系、 人物關(guān)系、 屬性關(guān)系等, 因此提取方法也有多

。IC-

TCLAS 主要功能包括中文分詞、 詞性標(biāo)注、 命名實(shí) 體識(shí)別、 新詞識(shí)別, 系統(tǒng)基于層疊隱馬模型( Cascaded Hidden Markov Model, CHMM) 而設(shè)計(jì), 利用了 具有開(kāi)源的特 基于詞典的和基于統(tǒng)計(jì)的分詞方法, 點(diǎn), 應(yīng)用較為廣泛。 ( 2) 命名實(shí)體識(shí)別 命名實(shí)體識(shí)別是信息處理技術(shù)的關(guān)鍵基礎(chǔ)技 術(shù), 命名實(shí)體是文本信息中的基本單位, 是固有名 縮寫等的唯一標(biāo)識(shí) 稱、
[ 42 ]

。命名實(shí)體識(shí)別即發(fā)現(xiàn)

命名實(shí)體并進(jìn)行類型的標(biāo)注。命名實(shí)體的識(shí)別可 分為命名實(shí)體的識(shí)別和新詞的抽取兩種類型。通 《中國(guó)人名大詞典 》 、 《世界 用的識(shí)別過(guò)程一般依據(jù) 地名翻譯大辭典》 等現(xiàn)有的資料與文本進(jìn)行匹配, 并標(biāo)注上實(shí)體類型
[ 43 ]

。除詞典形式的已有資料

外, 國(guó)內(nèi)外學(xué)者已建立了通用本體的新的組織方 式, 更快捷準(zhǔn)確地識(shí)別命名實(shí)體。正是在現(xiàn)有資料 的基礎(chǔ)上, 像 ICTCLAS 均可以實(shí)現(xiàn)命名實(shí)體識(shí)別 的功能。但基于詞典的識(shí)別方法有很大的局限性, 作為新詞的命名實(shí)體無(wú)法被標(biāo)注, 這時(shí)則需要利用 概念提取方法。
總第三九卷 第二〇八期 Vol. 39. No. 208

樓 雯: 館藏資源語(yǔ)義化關(guān)鍵技術(shù)及實(shí)證研究 Lou Wen: An Empirical Study on Key Technologies of Library Resource Semantization

031

種, 如關(guān)聯(lián)規(guī)則、 計(jì)量分析方法和語(yǔ)法規(guī)則等。 ( 1) 相似度計(jì)算 相似度計(jì)算貫穿概念提取和關(guān)系提取的始 終。常用的計(jì)算方法有四類: ①基于特征的計(jì)算方 法, 兩個(gè)概念若擁有的共性越多, 說(shuō)明兩者相似度 反之則差異性越大, 這種方法又被稱為 Tver越大, sky 指數(shù)
[ 45 ]

偏重如何將 果說(shuō)本體在表示概念及其相互關(guān)系時(shí), 而計(jì)量分析則能夠幫助本體挖 其表現(xiàn)得更有內(nèi)涵, 掘出概念間是何種關(guān)系
[ 36 ]

。計(jì)量分析的主要方法

有共詞分析、 耦合分析和共引分析等, 提供的計(jì)算 結(jié)果是兩個(gè)概念共同出現(xiàn)的次數(shù), 從而確定兩者的 作者 A 和作者 B、 作者 A 和 關(guān)系強(qiáng)度。舉例來(lái)說(shuō), 作者 C 共同撰寫過(guò)某些文章, 定義兩者關(guān)系均為 “合作” , B 和 C 究竟誰(shuí)與 A 合 這是淺層次的關(guān)系, 計(jì)量分析的結(jié)果可以表達(dá)出來(lái), 從而得到 作密切, “強(qiáng)合作” “弱合作” 關(guān)系和 關(guān)系等, 也可以用具體 的相似度數(shù)值表現(xiàn)強(qiáng)弱關(guān)系。 值得一提的是, 關(guān)聯(lián)規(guī)則也是數(shù)據(jù)挖掘的重要 方法, 利用關(guān)聯(lián)規(guī)則可以發(fā)現(xiàn)概念之間潛在的語(yǔ)義 關(guān)系。關(guān)聯(lián)規(guī)則的原理是從原始數(shù)據(jù)集中找出高 利用高頻集產(chǎn)生規(guī)則, 也可用規(guī)則檢驗(yàn)數(shù)據(jù) 頻集,
[ 53 ] 項(xiàng)是否滿足條件, 經(jīng)典的算法有 Apriori 算法 。

, Dice 系數(shù) 其可變形為 Tanimoto 系數(shù)、

等。②基于距離的計(jì)算方法, 其基本思想是計(jì)算出 則相似度越低, 反之則相 的兩個(gè)概念的距離越遠(yuǎn), 似度越高, 在本體中一般利用概念距離根節(jié)點(diǎn)的路 徑長(zhǎng)度計(jì)算兩者距離。③基于信息論的計(jì)算方法, 兩個(gè)概念擁有的共同信息越多, 說(shuō)明相似度越 高
[ 46 ]

, 信息論的方法是基于特征的計(jì)算方法的變

形, 共有信息的度量只能依靠共有特征的度量。④ 混合方法是通過(guò)概念的同義詞集、 語(yǔ)義鄰居概念和 概念特征多重指標(biāo)綜合計(jì)算概念間的相似度 ( 2) 聚類技術(shù) 聚類技術(shù)是數(shù)據(jù)挖掘的重要方法, 不同的聚 類方法可以提取到不同概念之間的關(guān)系。國(guó)內(nèi)外 二維聚類和 研究聚類技術(shù)依對(duì)象可分為一維聚類、 多維聚類, 或概念聚類、 詞聚類、 文本聚類和文獻(xiàn)聚 類; 依算法可分為基于劃分的方法、 層次聚類方法、 基于密度的方法、 基于網(wǎng)格的方法和基于模型的方 法。①基于劃分的方法將聚類對(duì)象劃分為幾個(gè)初 初始組被反復(fù)迭代進(jìn)行優(yōu)化直至不能再改 始組, means 算 法 及 其 變 進(jìn), 劃分 法 的 著 名 算 法 有 K形
[ 48 ] [ 47 ]

。

語(yǔ)法規(guī)則也是提取非等級(jí)關(guān)系的關(guān)鍵, 非等級(jí)關(guān)系 中謂詞的選擇主要依靠語(yǔ)法規(guī)則進(jìn)行提取, 西文和 漢語(yǔ)都有特定的語(yǔ)法將字和詞組成句子, 如一個(gè)完 整的句子至少包括主謂賓結(jié)構(gòu), 分析語(yǔ)法結(jié)構(gòu)可以 從而了解詞和句子的語(yǔ)義關(guān)系。 分析句法, 3. 3 形式化技術(shù) 無(wú)論是哪種語(yǔ)義資源, 都需要承載工具才能將 其發(fā)布到語(yǔ)義網(wǎng)中, 這種承載的工具就是形式化語(yǔ) 言和工具。由 W3C 領(lǐng)銜的語(yǔ)義語(yǔ)言開(kāi)發(fā)已經(jīng)形成 Metadata、 RIL、 WSDL、 RRL、 XTM、 RDF、 了 規(guī) 模, RDFS、 XML、 OWL、 FOAF、 DC、 RDA 等語(yǔ)言的出現(xiàn), 豐富了形式化語(yǔ)言的內(nèi)容。形式化工具依托形式 RDFS、 XML 和 化語(yǔ)言被開(kāi)發(fā)出來(lái), 如適用于 RDF、 OWL 的 Protégé、 Jena、 Apollo、 Ontolingua 和 WebODE Drupal、 DB等工具, 關(guān)聯(lián)數(shù)據(jù)發(fā)布工具 D2RServer、 pedia 等。

, Clarance 算法[49]等; ②層次聚類方法是一種

先將聚類對(duì)象獨(dú)立成 自底向上或自頂向下的方法, 每個(gè)原子類, 再利用某些相似度規(guī)則進(jìn)行逐層聚
[ 50 ] 類, 主要算法是 CURE 算法 ; ③基于密度的方法

不同于層次聚類方法中計(jì)算原子類之間的距離, 而 是從聚類對(duì)象的密度出發(fā), 主要用于空間數(shù)據(jù)的聚
[ 51 ] 類, 典型算法是 DBSCAN 算法 ; ④基于網(wǎng)格的方

法將數(shù)據(jù)劃分為有限的單元格, 再分析單元格中的
[ 52 ] 數(shù)據(jù)進(jìn)行聚類, 如 STING 算法 ; ⑤基于模型的方

4 實(shí)驗(yàn)與討論
為了驗(yàn)證館藏資源語(yǔ)義化模型的可用性, 體現(xiàn) 語(yǔ)義化關(guān)鍵技術(shù)的可行性, 下文分別針對(duì)館藏資源 的內(nèi)外部特征設(shè)計(jì)了實(shí)驗(yàn), 揭示館藏資源語(yǔ)義化過(guò)
2013 年 11 月 November, 2013

法是將某一聚類對(duì)象抽象成一個(gè)模型, 再?gòu)钠渌?對(duì)象中尋找最優(yōu)的和模型匹配。 ( 3) 計(jì)量分析技術(shù) 計(jì)量分析能夠確定概念之間的關(guān)系強(qiáng)度, 如

032
各國(guó)軍事” 類圖書信息。

Journal of Library Science in China

程。實(shí)驗(yàn)數(shù)據(jù)為隨機(jī)選取的武漢大學(xué)圖書館館藏 ) “美洲 書目檢索系統(tǒng)中的 E7( 中國(guó)圖書館分類號(hào)

種, 將其按全記錄格式下載并預(yù)處理后, 得到 307 75 個(gè)出版單位, 179 個(gè)標(biāo)引 個(gè)著者( 含團(tuán)體著者) , 主題詞, 將武漢大學(xué)圖書館書目標(biāo)引卡片格式的各 個(gè)字段作為語(yǔ)義概念, 則得到如圖 2 所示的類目 體系。

4. 1 實(shí)驗(yàn)一 — — —館藏資源外部特征的語(yǔ)義化過(guò)程 ( 1) 在武漢大學(xué)圖書館中, E7 類圖書共 167

圖 2 軍事本體一類目等級(jí)體系 ( 2) 定義類目屬性, 包括類目本身的屬性( Object Property) 和類目的數(shù)據(jù)屬性( Data Property) , 類 目本身的屬性表示各類目之間的關(guān)系, 比如題名類 隸屬于軍事本體一類, 題名類由出版單位類出版等 等; 數(shù)據(jù)屬性規(guī)定了類目數(shù)據(jù)的特征, 比如其他分 系統(tǒng)號(hào)不能為空等。 類號(hào)的數(shù)據(jù)類型為雙精度型, 類目之間的關(guān)系與出版事實(shí)相符, 不再贅述。 ( 3) 添加實(shí)例。將著者、 出版單位等概念設(shè)置 為各類目的實(shí)例, 此過(guò)程中需要確定實(shí)例的準(zhǔn)確 性, 即進(jìn)行核心詞匯的篩選, 因?yàn)轭}名、 分類號(hào)、 系 統(tǒng)號(hào)和出版單位均為固定數(shù)據(jù), 只需檢查即可, 所 以篩選的主要內(nèi)容是著者和主題詞。 ( 4) 定義實(shí)例屬性, 即提取實(shí)例間的關(guān)系。類目 體系中的一些實(shí)例關(guān)系是特定的, 比如題名被分到 出版單位出版某一本書, 某著者撰寫某 某一分類號(hào), 一題名, 這是淺層的語(yǔ)義關(guān)系。另有一些實(shí)例的關(guān) 系較為復(fù)雜, 比如著者之間的關(guān)系, 主題詞之間的關(guān) 系, 著者和主題詞之間的關(guān)系, 有著者合作關(guān)系, 主 題詞共現(xiàn)關(guān)系, 著者主題詞共現(xiàn)關(guān)系等。下面僅舉 307 位著者中有合作關(guān) 例說(shuō)明著者合作關(guān)系的提取, 兩兩合作次數(shù)為 400, 所以共有 400 系的作者 215 位, 對(duì)著者合作關(guān)系, 在整個(gè)合作網(wǎng)絡(luò)中不同關(guān)系對(duì)的 關(guān)系強(qiáng)弱不同, 利用共現(xiàn)分析得到兩兩著者的合作 c2 ) = 次數(shù), 并按基于特征的相似度計(jì)算公式 S( c1 , 2 × f( c1 ∩ c2 ) ∩ c2 ) + f( c1 - c2 ) + f( c2 - c1 ) 4. 2 實(shí)驗(yàn)二— — —館藏資源內(nèi)部特征的語(yǔ)義化過(guò)程 ( 1) 武漢大學(xué)圖書館館藏書目檢索系統(tǒng)中有 關(guān)圖書內(nèi)部特征的標(biāo)引字段有內(nèi)容簡(jiǎn)介、 摘要、 網(wǎng) 絡(luò)摘要, 本文選取 E7 類圖書的內(nèi)部特征作為原始 167 本圖書中只有 99 本有此內(nèi)部特征, 數(shù)據(jù), 將這 些內(nèi)部特征下載并存儲(chǔ)成 TXT 文檔。 ( 2) 分詞。本文利用中國(guó)科學(xué)院的分詞軟件 ICTCLAS, 將圖書的文本內(nèi)容進(jìn)行切分, 分詞的結(jié) 果如表 2 所示。 ( 3) 概念提取及核心詞匯的篩選。將所有文 gram 的提取方法, 本合并為一個(gè)文本, 利用基于 N結(jié)合組詞規(guī)則, 將文本分詞結(jié)果提取成概念詞。利 《英漢軍事大詞典》 用 進(jìn)行核心詞匯的篩選, 從而 f( ci ) 得到兩兩著者的共現(xiàn)關(guān)系強(qiáng)度( 見(jiàn)表 1) 。其中, f ( c1 ∩c2 ) 表示 c1 和 c2 共同 為著者單獨(dú)出現(xiàn)的次數(shù), f( c1 - c2 ) 表示 c1 出現(xiàn)而 c2 不出現(xiàn)的次 出現(xiàn)的次數(shù), f( c2 - c1 ) 表示 c2 出現(xiàn)而 c1 不出現(xiàn)的次數(shù)。在表 1 數(shù), 中, 語(yǔ)義相似度只有 2 個(gè)數(shù)值, 但整個(gè)合作網(wǎng)絡(luò)肯定 在進(jìn)行語(yǔ)義標(biāo)注時(shí)不能將數(shù)值 會(huì)出現(xiàn)更多的數(shù)值, 作為關(guān)系表示, 于是要將語(yǔ)義相似度抽象化表示, 比 0. 4 的 如將相似度值為 0. 67 的關(guān)系表示為高度相關(guān), 關(guān)系表示為中度相關(guān), 則得到如表 1 所示的著者語(yǔ) 義關(guān)系對(duì)及三元組。 ( 5) 形式化。利用 RDF 語(yǔ)言將所有三元組形 式化, 最后形成軍事本體一, 如圖 3 所示。

[ 2 × f( c

1

]

總第三九卷 第二〇八期 Vol. 39. No. 208

樓 雯: 館藏資源語(yǔ)義化關(guān)鍵技術(shù)及實(shí)證研究 Lou Wen: An Empirical Study on Key Technologies of Library Resource Semantization

033

表 1 軍事本體一中著者兩兩關(guān)系語(yǔ)義相似度計(jì)算過(guò)程( f( c1 ) ≥3)
c1 莫里斯 莫里斯 莫里斯 莫里斯 蔡曉惠 蔡曉惠 蔡曉惠 蔡曉惠 蔡曉惠 赫恩 赫恩 赫恩 赫恩 赫恩 c2 蔡曉惠 符金宇 靳綺雯 林賢明 靳綺雯 林賢明 米琳 莫里斯 墨菲 白堃 胡升新 李進(jìn) 易亮 鄭金艷 f( c1 ) 3 3 3 3 3 3 3 3 3 3 3 3 3 3 f( c2 ) f( c1 ∩c2 ) f( c1 - c2 ) f( c2 - c1 ) S( c1 , c2 ) 3 1 2 1 2 1 1 3 1 1 1 1 1 1 2 1 2 1 2 1 1 2 1 1 1 1 1 1 1 2 1 2 1 2 2 1 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0. 67 0. 4 0. 67 0. 4 0. 67 0. 4 0. 4 0. 67 0. 4 0. 4 0. 4 0. 4 0. 4 0. 4 相關(guān)性 高度相關(guān) 中度相關(guān) 高度相關(guān) 中度相關(guān) 高度相關(guān) 中度相關(guān) 中度相關(guān) 高度相關(guān) 中度相關(guān) 中度相關(guān) 中度相關(guān) 中度相關(guān) 中度相關(guān) 中度相關(guān) 三元組 < 莫里斯, 高度相關(guān), 蔡曉惠 > < 莫里斯, 中度相關(guān), 符金宇 > < 莫里斯, 高度相關(guān), 靳綺雯 > < 莫里斯, 中度相關(guān), 林賢明 > < 蔡曉惠, 高度相關(guān), 靳綺雯 > < 蔡曉惠, 中度相關(guān), 林賢明 > < 蔡曉惠, 中度相關(guān), 米琳 > < 蔡曉惠, 高度相關(guān), 莫里斯 > < 蔡曉惠, 中度相關(guān), 墨菲 > < 赫恩, 中度相關(guān), 白堃 > < 赫恩, 中度相關(guān), 胡升新 > < 赫恩, 中度相關(guān), 李進(jìn) > < 赫恩, 中度相關(guān), 易亮 > < 赫恩, 中度相關(guān), 鄭金艷 >

圖 3 軍事本體一( 部分) 組成本體的類目體系( 見(jiàn)圖 4) 。 ( 4) 語(yǔ)義關(guān)系的提取。首先確定概念之間的 等級(jí)關(guān)系, 利用層次聚類的算法將相似度較高的一 “國(guó)家” “半殖民地國(guó) 批概念對(duì)提取出來(lái), 比如 和 ” 、 “冷戰(zhàn)時(shí)代” “后冷戰(zhàn)時(shí)代 ” 、 “關(guān)系” “合作 家 和 和 等。再利用基于距離的相似度計(jì)算方法計(jì)算 關(guān)系” 出鄰近詞的相似度, 提取高相似度的鄰近詞, 比如 “同盟關(guān)系” “合作關(guān)系 ” 、 “互動(dòng)行為” “關(guān)系” 、 和 和 “組織體制” “體制革新” 和 等。 第二步確定概念之間的非等級(jí)關(guān)系, 概念之
2013 年 11 月 November, 2013

034

Journal of Library Science in China

表 2 圖書文本分詞結(jié)果( 部分)
/ w 人們 / n 的 / u 腦子 / n 里 / f 就 / d 會(huì) / v 出現(xiàn) / v 一個(gè) / m 英勇 / an 、 / w 威嚴(yán) / an 、 /w 暴 只要 / c 一 / m 提起 / v 巴 / j 頓 / q , / w 善戰(zhàn) / v 的 / u 美軍 / n 司令官 / n 形象 / n 。 / w 人們 / n 稱 / v 他 / r 為 / v“/ w 有 / v 指揮 / v 大軍 / n 的 / u 天才 / n 躁/a 、 ” /w , / w 特別 / d 擅長(zhǎng) / v 進(jìn)攻 / vn、 / w 追擊 / v 和 / c 裝甲 / b 作戰(zhàn) / v 。 / w 《/ w 巴頓 / nr 將軍 / nz 戰(zhàn)爭(zhēng) / n 回憶錄 / n 》 /w / w 西歐 / ns 期間 / f 的 / u 日記 / n , / w 在 / p 戰(zhàn)爭(zhēng) / n 剛剛 / d 結(jié) 是 / v 他 / r 根據(jù) / p 自己 / r 在 / p 二戰(zhàn) / j 轉(zhuǎn)戰(zhàn) / v 北非 / ns 、 / w 也 / d 是 / v 他 / r 本人 / r 唯一 / b 的 / u 有關(guān) / vn 二戰(zhàn) / j 的 / u 連續(xù)性 / n 記載 / v 。 / w 回顧 / 束 / v 時(shí) / ng 撰寫 / v 的 / u , / w 除了 / p 戰(zhàn)役 / n 與 / c 屠戮 / v , / w 還有 / v 一些 / m 重要 / a 人物 / n 。 / w v 第二 / m 次 / q 世界大戰(zhàn) / l , 整整 / d 二十 / m 世紀(jì) / n 。 / w 美國(guó) / ns 一直 / d 是 / v 世界 / n 第一 / m 強(qiáng) / a 國(guó) / n 。 / w 冷戰(zhàn) / n 結(jié)束 / v 后 / f 美國(guó) / ns 所 / / w 至少 / d 可 / v 以 / p 保持 / v 二三十 / m 年 / q 。 / w 今天 / t , / w 美國(guó) / ns u 占據(jù) / v 的 / u 唯一 / b 超級(jí)大國(guó) / n 地位 / n , / w 是 / v 影響 / v 中國(guó) / ns 經(jīng)濟(jì) / n 發(fā)展 / vn 和 / c 政治 / n 桅頂 / n 的 / b 是 / v 中國(guó) / ns 最 / d 重要 / a 的 / u 外交 / n 對(duì)手 / n , / w 美國(guó) / ns 也 / d 是 / v 中國(guó) / ns 事實(shí)上 / l 最 / d 大 / a 的 / u 貿(mào)易 / vn 伙伴 / n , /w 最 / d 大 / a 外部 / f 力量 / n ; / nx 同時(shí) / c , / w 是 / v 同 / p 中國(guó) / ns 在 / p 教育 / vn、 / w 科學(xué) / a 文化 / n 、 / w 技術(shù) / n 等 / 在 / p 中國(guó) / ns 的 / u 第一 / m 大 / a 投資國(guó) / n , u 領(lǐng)域 / n 交往 / vn 最 / d 多 / a 的 / u 國(guó)家 / n , / w 所以 / c 我們 / r 需要 / v 借鑒 / v 發(fā)達(dá) / a 資本主義 / n 國(guó)家 / n 的 / u 經(jīng)驗(yàn) / n, / w 全面 / ad 了解 / v 美國(guó) / ns , / w 深入 / ad 研究 / v 美國(guó) / ns 。 / w

圖 4 軍事本體二類目等級(jí)體系( 部分)

總第三九卷 第二〇八期 Vol. 39. No. 208

樓 雯: 館藏資源語(yǔ)義化關(guān)鍵技術(shù)及實(shí)證研究 Lou Wen: An Empirical Study on Key Technologies of Library Resource Semantization

035

間的非等級(jí)關(guān)系分為類目之間的非等級(jí)關(guān)系、 類目 與實(shí)例間的非等級(jí)關(guān)系和實(shí)例之間的非等級(jí)關(guān)系。 首先確定類目之間的非等級(jí)關(guān)系, 利用關(guān)聯(lián)規(guī)則的 “將軍” “司令” , 提取方法得到同級(jí)關(guān)系, 比如 和 利 用語(yǔ)法規(guī)則的提取方法得到具有謂語(yǔ)語(yǔ)詞的關(guān)系, 比如 < 半殖民地國(guó)家, 躍升, 強(qiáng)國(guó) > , 這樣就可以確 定類目的等級(jí)體系結(jié)構(gòu)( 見(jiàn)圖 4) 。 再添加實(shí)例, 在文本中, 核心詞匯之外的詞均 可能成為實(shí)例, 為方便實(shí)驗(yàn), 本文將表 3 中非類目 概念的詞視為實(shí)例, 因?yàn)閷?shí)例無(wú)需從文本中再次提 取, 但要確定的是特定的實(shí)例應(yīng)該隸屬于哪個(gè)類, 相當(dāng)于要確定類目與實(shí)例之間的關(guān)系?梢岳 將類目和實(shí)例間的兩兩相似度計(jì) 相似度計(jì)算方法,

相似度高的則認(rèn)為某實(shí)例是某類目的實(shí) 算出來(lái), “中國(guó)” “半殖民地國(guó)家” , “第二 比如 是 的實(shí)例 例, “戰(zhàn)爭(zhēng)” , “巴頓” “司令官” 次世界大戰(zhàn)” 是 的實(shí)例 是 的實(shí)例等。需要說(shuō)明的是, 在有限的文本集合中, 不是所有的實(shí)例都能找到對(duì)應(yīng)的類目, 也不是所有 的類目都包含實(shí)例。 最后一種非等級(jí)關(guān)系是實(shí)例之間的關(guān)系, 同 樣利用關(guān)聯(lián)規(guī)則和語(yǔ)法規(guī)則的提取方法得到語(yǔ)詞 < 巴頓, 關(guān)系, 比如 < 美國(guó), 對(duì)手, 中國(guó) > , 擅長(zhǎng), 追 擊 > 等。 ( 5) 形式化。除了像軍事本體一利用本體語(yǔ) 言進(jìn)行形式化外, 還可利用 Protégé 工具構(gòu)建本體, 如圖 5 所示。

gram 且符合組詞規(guī)則的概念提取結(jié)果( 部分) 表 3 基于 Ngram 基于 2半殖民地國(guó)家 導(dǎo)彈管制 競(jìng)爭(zhēng)能力 防務(wù)戰(zhàn)備 海岸警衛(wèi)隊(duì) 國(guó)際軍控 合作關(guān)系 作戰(zhàn)方式 /b + /n /n + /v / vn + / n / n + / vn /s + /n /n + /n /n + /n /v + /n 組詞規(guī)則 gram 基于 3導(dǎo)彈防御計(jì)劃 國(guó)家安全戰(zhàn)略 發(fā)達(dá)資本主義國(guó)家 后冷戰(zhàn)時(shí)代 軍事合作關(guān)系 戰(zhàn)略防御思想 美俄關(guān)系 互動(dòng)行為 組詞規(guī)則 /n + /v + /n / n + / an + / n /a + /n + /n /f + /n + /n /n + /n + /n /n + /v + /n /j + /j + /n / n + / ng + / v

圖 5 軍事本體二( 部分)

2013 年 11 月 November, 2013

036
4. 3 討論

Journal of Library Science in China

據(jù)和方法的深入理解后才能使用。

從上述兩個(gè)實(shí)驗(yàn)的過(guò)程和結(jié)果可以發(fā)現(xiàn), 館 藏資源語(yǔ)義化是需要一定條件的。首先, 不同類型 的圖書館要選擇不同的語(yǔ)義化過(guò)程和關(guān)鍵技術(shù)。 語(yǔ)義化過(guò)程是建立在已有館藏資源數(shù)字化基礎(chǔ)上 的, 目前有些小型高校圖書館、 公共圖書館并不支 因此離語(yǔ)義網(wǎng)還有 持館藏資源的公開(kāi)檢索和利用, 一定距離, 離館藏資源的完全語(yǔ)義化則更遠(yuǎn), 這種 圖書館首先應(yīng)該進(jìn)行完整的主題標(biāo)引及規(guī)范的內(nèi) 外部特征信息組織。其次, 館藏資源的數(shù)字化豐富 程度與關(guān)鍵技術(shù)的選擇密切相關(guān)。實(shí)驗(yàn)中武漢大 學(xué)圖書館的摘要收錄較為完整, 如果一個(gè)圖書館只 語(yǔ)義化時(shí)則只需要按照 數(shù)字化了圖書的外部特征, 實(shí)驗(yàn)一的流程進(jìn)行, 也就是說(shuō)數(shù)字化豐富程度越 高, 選擇的語(yǔ)義化關(guān)鍵技術(shù)就越多越復(fù)雜, 這也是 關(guān)鍵技術(shù)的 與館藏資源建設(shè)階段呈正比的。最后, 使用技巧是語(yǔ)義化人員培訓(xùn)時(shí)的重要內(nèi)容。從實(shí) 驗(yàn)二中看到關(guān)鍵技術(shù)并不是統(tǒng)統(tǒng)使用, 而應(yīng)針對(duì)不 同數(shù)據(jù)特征進(jìn)行篩選, 總的來(lái)講, 不同數(shù)據(jù)源的外 部特征語(yǔ)義化過(guò)程均與實(shí)驗(yàn)一類似, 但關(guān)系提取時(shí) 要注意沒(méi)有引文的數(shù)據(jù)不能用共引分析; 學(xué)科專業(yè) 程度高的數(shù)據(jù)源在信息提取時(shí)選擇基于詞典和基 gram 的方法較好較快, 如實(shí)驗(yàn)二; 特定表達(dá)形 于 N式的數(shù)據(jù)源則選擇基于互信息和基于上下文信息 的方法較準(zhǔn)確, 如詩(shī)歌、 小說(shuō); 而不論數(shù)據(jù)源專業(yè)程 度如何,, 文本中的語(yǔ)義關(guān)系均很復(fù)雜, 提取語(yǔ)義關(guān) 系時(shí), 關(guān)聯(lián)規(guī)則、 聚類算法和語(yǔ)法規(guī)則需要結(jié)合使 用。因此, 這些關(guān)鍵技術(shù)需要經(jīng)過(guò)語(yǔ)義化人員對(duì)數(shù) 館藏資源語(yǔ)義化還需要一個(gè)長(zhǎng)期的過(guò)程, 本 文從微觀層面描述了館藏資源語(yǔ)義化的全過(guò)程, 設(shè) 總結(jié)出館藏資源語(yǔ)義化 計(jì)了館藏資源語(yǔ)義化模型, 關(guān)鍵技術(shù)主要是信息提取相關(guān)技術(shù)、 語(yǔ)義關(guān)系提取 相關(guān)技術(shù)和形式化技術(shù), 分支技術(shù)則包括分詞技 術(shù)、 命名實(shí)體識(shí)別、 概念提取技術(shù)、 相似度計(jì)算方 法、 聚類技術(shù)、 計(jì)量分析技術(shù)、 關(guān)聯(lián)規(guī)則、 形式化語(yǔ) 言和工具等技術(shù)與方法。 本文利用武漢大學(xué)圖書館館藏資源的不同特 征分別進(jìn)行了館藏資源語(yǔ)義化模型的實(shí)驗(yàn), 對(duì)外部 特征主要采用了關(guān)鍵技術(shù)中的相似度計(jì)算方法、 計(jì) 形式化語(yǔ)言和工具, 對(duì)內(nèi)部特征主要 量分析技術(shù)、 gram 算法和組詞規(guī)則結(jié) 基于 N采用了分詞技術(shù)、 合的概念提取技術(shù)和基于語(yǔ)法規(guī)則和關(guān)聯(lián)規(guī)則結(jié) 合的關(guān)系提取技術(shù)等, 分別驗(yàn)證了館藏資源語(yǔ)義化 模型中針對(duì)不同特征而設(shè)計(jì)的語(yǔ)義化流程。事實(shí) 上, 現(xiàn)實(shí)生活中的語(yǔ)義網(wǎng)不可能單獨(dú)存在, 不可能 外部特征擁有 館藏資源內(nèi)部特征擁有一個(gè)語(yǔ)義網(wǎng), 另外一個(gè)語(yǔ)義網(wǎng), 實(shí)驗(yàn)中的語(yǔ)義化內(nèi)容其實(shí)是可以 合并的, 就是將內(nèi)部特征語(yǔ)義資源整合入外部特征 語(yǔ)義資源, 或兩者融合為整體的語(yǔ)義資源。因此館 藏資源語(yǔ)義化模型尚可改進(jìn), 這是今后研究的 方向。

5 結(jié)語(yǔ)

參考文獻(xiàn)
[1 ] 楊愛(ài)武. 基于關(guān)聯(lián)數(shù)據(jù)的圖書館創(chuàng)新服務(wù)研究 [ J] . 圖書與情報(bào), 2012( 3) : 85 - 88. ( Yang Aiwu. The research of library innovation service based on linked data[ J] . Library and Informaion, 2012( 3) : 85 - 88. ) [2 ] 新浪科技. 路透社發(fā)布 Calais 網(wǎng)絡(luò)服務(wù)開(kāi)放式 API [ EB / OL] .[ 2013 - 04 - 29] . http: / / tech. sina. com. cn / i /20080131 /14382008679. shtml. ( Sina Technique. Reuters published a Calais Web services open API [ EB / OL] .[ 2013 - 04 - 29] . http: / / tech. sina. com. cn / i /20080131 /14382008679. shtml. ) [3 ] 張海粟, [ J] . 計(jì)算機(jī)應(yīng)用研究, 2011 ( 8) : 2807 - 馬大明, 鄧智龍. 基于維基百科的語(yǔ)義知識(shí)庫(kù)及其構(gòu)建方法研究 2811. ( Zhang Haili, Ma Daming, Deng Zhilong. Semantic knowledge bases construction based on Wikipedia[ J] . Application Research of Computers, 2011( 8) : 2807 - 2811. ) [4 ] 夏翠娟, J] . 中國(guó)圖書館學(xué)報(bào), 2012 ( 2 ) : 49 - 58. ( Xia Cuijuan,Liu 劉煒, 趙亮, 等. 關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)及其實(shí)現(xiàn)[ 總第三九卷 第二〇八期 Vol. 39. No. 208

樓 雯: 館藏資源語(yǔ)義化關(guān)鍵技術(shù)及實(shí)證研究 Lou Wen: An Empirical Study on Key Technologies of Library Resource Semantization

037

Wei,Zhao Liang, et al. The current technologies and tools for linked data: A case of Drupal[ J] . Journal of Library Sci2012( 2) : 49 - 58. ) ence in China, [5 ] 喬曉東, [ J] . 數(shù)字圖書館論壇, 2012( 2) : 54 - 60. ( Qiao Xia白海燕, 梁冰. NSTL 的關(guān)聯(lián)數(shù)據(jù)構(gòu)建與應(yīng)用場(chǎng)景設(shè)想 Bai Haiyan, Liang Bing. Construction of linked data and design of application scenes in NSTL[ J] . Digital Liodong, 2012( 2) : 54 - 60. ) brary Forum, [ M ] . 上海: 學(xué)林出版社, 2008. ( Dai Weimin. Information organization technolo[6 ] 戴維民. 語(yǔ)義網(wǎng)信息組織技術(shù)與方法 gy and method on semantic web[ M ] . Shanghai: Academia Press, 2008. ) [7 ] 李青山, [ J] . 計(jì)算機(jī)科學(xué), 2002( 6) : 86 - 89. ( Li Qingshan,Chenping. Research on 陳平. 語(yǔ)義化互聯(lián)網(wǎng)的關(guān)鍵技術(shù) key techniques of semantic web[ J] . Computer Science, 2002( 6) : 86 - 89. ) [8 ] 姚紹文. 語(yǔ)義化 web 的關(guān)鍵技術(shù)及其應(yīng)用研究 [ D ] . 成都: 電子科技大學(xué), 2002. ( Yao Shaowen. Research on key issues and application of semantic web[ D ] . Chengdu: University of Electronic Science and Technology of China, 2002. ) [ D ] . 上海: 復(fù)旦大學(xué), 2009. ( Dai Yintang. Research on key tech[9 ] 代印唐. 基于語(yǔ)義網(wǎng)絡(luò)的知識(shí)協(xié)作關(guān)鍵技術(shù)研究 nologies of semantic networks based on knowledge collaboration[ D ] . Shanghai: Fudan University, 2009. ) 10] 厲毅, [ J] . 中國(guó)教育信息化, 2012( 17) : 30 - 33. ( Li Yi,Zheng Wei. [ 鄭煒. 數(shù)字學(xué)習(xí)網(wǎng)站資源的微格式語(yǔ)義化組織 Digital learning website semantic organization based on micro formats[ J] . China Education Info, 2012( 17) : 30 - 33. ) [ 11] 羅慶云, J] . 甘肅聯(lián)合大學(xué)學(xué)報(bào)( 自然科學(xué)版) , 2007 ( 5 ) : 75 - 79. 趙巾幗. 語(yǔ)義化 Web 的理論基礎(chǔ)與技術(shù)基礎(chǔ)[ ( Luo Qingyun, Zhao Jinguo. Semantics web rationale and technology base[ J] . Journal of Gansu Lianhe University ( Natural Sciences) , 2007( 5) : 75 - 79. ) [ 12] 朱大麗. 圖書館目錄數(shù)據(jù)關(guān)聯(lián)的語(yǔ)義化探析— — —充溢著背景知識(shí)的圖書館目錄數(shù)據(jù)[ J] . 圖書館學(xué)研究, 2012 ( 1) : 54 - 58, 95. ( Zhu Dali. Library catalog data linked semantization: Full of background knowledge library catalog data [ J] . Research on Library Science, 2012( 1) : 54 - 58, 95. ) 13] 白海燕, J] . 現(xiàn)代圖書情報(bào)技術(shù), 2010 ( 9 ) : 18 - 27. ( Bai [ 喬曉東. 基于本體和關(guān)聯(lián)數(shù)據(jù)的書目組織語(yǔ)義化研究[ Qiao Xiaodong. Study of semantic bibliography base on ontology and linked data[ J] . New Technology of LiHaiyan, brary and Information Science, 2010( 9) : 18 - 27. ) 14] 歐石燕. 面向關(guān)聯(lián)數(shù)據(jù)的語(yǔ)義數(shù)字圖書館資源描述與組織框架設(shè)計(jì)與實(shí)現(xiàn) [ J] . 中國(guó)圖書館學(xué)報(bào), 2012 ( 6) : 58 - [ oriented framework for resource description and organiza71. ( Ou Shiyan. Design and implementation of a linked dataJ] . Journal of Library Science in China, 2012( 6) : 58 - 71. ) tion in semantic digital libraries[ [ 15] 王軍, J] . 中國(guó)圖書館學(xué)報(bào), 2012 ( 4 ) : 39 - 45. ( Wang Jun,Bu 卜書慶. 網(wǎng)絡(luò)環(huán)境下知識(shí)組織規(guī)范的研究與設(shè)計(jì)[ Shuqing. A study and design on the standard for the networked knowledge organization system[ J] . Journal of Library Science in China, 2012( 4) : 39 - 45. ) 16] 王麗華. 基于語(yǔ)義網(wǎng)的數(shù)字圖書館的關(guān)鍵技術(shù) [ J] . 情報(bào)雜志, 2004( 4) : 5 - 8. ( Wang Lihua. Key technology of dig[ ital library based on semantic web[ J] . Journal of Information, 2004( 4) : 5 - 8. ) [ 17] 王睿佳, [ J] . 大學(xué)圖書館學(xué)報(bào), 2012( 5) : 71 - 76. 劉耀. 面向科技文獻(xiàn)的多模態(tài)語(yǔ)義關(guān)聯(lián)特征提取與表達(dá)體系研究 ( Wang Ruijia, Liu Yao. Study on the feature extraction and expression system of multimodal semantic information for scientific and technical literature[ J] . Journal of Academic Library, 2012( 5) : 71 - 76. ) [ 18] 董慧, )— — —語(yǔ)義信息的提。 J] . 情報(bào)學(xué)報(bào), 2006 ( 4) : 余傳明, 姜贏, 等. 基于本體的數(shù)字圖書館檢索模型研究( Ⅱ 451 - 461. ( Dong Hui, Yu Chuanming, Jiang Ying, et al. Research on the ontologybased retrieval model of digital liJ] . Journal of the China Society for Scientific and Technical Information, brary( II) —Semantic information acquisition [ 2006( 4) : 451 - 461. ) [ 19] 劉煒. 基于本體的數(shù)字圖書館語(yǔ)義互操作 [ D ] . 上海: 復(fù)旦大學(xué), 2006. ( Liu Wei. Ontologybased semantic interoperaD ] . Shanghai: Fudan University, 2006. ) bility for digital libraries[ [ 20] 韓毅. 語(yǔ)義網(wǎng)格環(huán)境下數(shù)字圖書館知識(shí)組織策略與應(yīng)用研究 [ D ] . 長(zhǎng)春: 吉林大學(xué), 2008. ( Han Yi. Study on digital 2013 年 11 月 November, 2013

038
2008. ) ty,

Journal of Library Science in China

library knowledge organization strategy and application under semantic grid environment[ D ] . Changchun: Jilin Universi[ 21] 牟冬梅. 數(shù)字圖書館知識(shí)組織語(yǔ)義互聯(lián)策略及其應(yīng)用研究 [ D ] . 長(zhǎng)春: 吉林大學(xué), 2009. ( Mou Dongmei. Study on seD ] . Changchun: Jilin Universimantic interconnection strategy and application on digital library knowledge organization[ 2009. ) ty, 22] 滕廣青. 基于概念格的數(shù)字圖書館知識(shí)組織研究 [ D ] . 長(zhǎng)春: 吉林大學(xué), 2012. ( Teng Guangqing. Research on knowl[ edge organization based on concept lattice of digital library[ D ] . Changchun: Jilin University, 2012. ) [ 23] 董慧, — —?dú)v史領(lǐng)域知識(shí)推理機(jī)制 [ J] . 情報(bào)學(xué)報(bào), 余傳明, 徐國(guó)虎, 等. 基于本體的數(shù)字圖書館檢索模型研究( Ⅳ) — 2006( 6) : 666 - 678. ( Dong Hui, Yu Chuanming, Xu Guohu, et al. Research on ontologybased retrieval model of digital library( Ⅳ) — — —Inference mechanism of history domain knowledge[ J] . Journal of the China Society for Scientific and Technical Information, 2006( 6) : 666 - 678. ) 24] 劉成山, [ J] . 情報(bào)雜志, 2008( 1) : 49 - 54. ( Liu Chengshan, Liu Huailiang. Digit[ 劉懷亮. 基于語(yǔ)義網(wǎng)的數(shù)字圖書館 al library based on semantic web[ J] . Journal of Information, 2008( 1) : 49 - 54. ) 25] 賈保先, J] . 聊城大學(xué)學(xué)報(bào)( 自然科學(xué)版) , 2009 [ 鮑素貞, 楊吉宏. 虛擬數(shù)字圖書館語(yǔ)義平臺(tái)建設(shè)關(guān)鍵技術(shù)研究[ ( 4) : 93 - 96. ( Jia Baoxian, Bao Suzhen, Yang Jihong. Research on key issues of virtual digital library semantic platform [ J] . Journal of Liaocheng University ( Natural Science Edition) , 2009( 4) : 93 - 96. ) 26] 董慧, )— — —體系結(jié)構(gòu)解析 [ J] . 情報(bào)學(xué)報(bào), 2006( 3) : 269 [ 楊寧, 余傳明, 等. 基于本體的數(shù)字圖書館檢索模型研究(Ⅰ - 275. ( Dong Hui, Yang Ning, Yu Chuanming, et al. Research on the ontologybased retrieval model of digital library (Ⅰ ) —Explanation of the architecture[ J] . Journal of the China Society for Scientific and Technical Information, 2006 ( 3) : 269 - 275. ) [ 27] 董慧, — —?dú)v史領(lǐng)域資源本體構(gòu)建[ J] . 情報(bào)學(xué)報(bào), 余傳明, 楊寧, 等. 基于本體的數(shù)字圖書館檢索模型研究( Ⅲ) — 2006( 5) : 564 - 574. ( Dong Hui, Yu Chuanming, Yang Ning, et al. Research on the ontologybased retrieval model of — —History domain ontology building[ J] . Journal of the China Society for Scientific and Technical digital library( Ⅲ) — Information, 2006( 5) : 564 - 574. ) 28] 潘偉. 個(gè)性化信息服務(wù)的關(guān)鍵技術(shù)— — —聚類分析 [ J] . 現(xiàn)代情報(bào), 2007( 10) : 212 - 214. ( Pan Wei. Personalized in[ J] . Modern Information, 2007( 10) : 212 - 214. ) formation service key technologies—cluster analysis[ 29] 李靜. 數(shù)據(jù)挖掘技術(shù)在高校圖書館個(gè)性化服務(wù)中的應(yīng)用研究 [ D ] . 天津: 天津大學(xué), 2012. ( Li Jing. Study and appli[ cation of data mining technology in personalized service of the university libraries [D] . Tianjin: Tianjin University, 2012. ) [ 30] 趙紅霞. 數(shù)據(jù)挖掘技術(shù)和 RSS 技術(shù)在圖書館個(gè)性化服務(wù)中的應(yīng)用[ D] . 鄭州: 解放軍信息工程大學(xué), 2008. ( Zhao D ] . Zhengzhou: The PLA InforHongxia. Data mining technology and RSS technical on electronic library application[ mation Engineering University, 2008. ) [ 31] 周慶. 圖書館個(gè)性化信息服務(wù)的技術(shù)支持 [ J] . 大學(xué)圖書情報(bào)學(xué)刊, 2008 ( 6) : 60 - 64. ( Zhou Qing. The technology J] . Journal of Academic Library and Information Science, support to the individualized information service in libraries[ 2008( 6) : 60 - 64. ) [ 32] 張煒, [ J] . 圖書館論壇, 2010( 1) : 62 - 64. ( Zhang 洪霞. 基于 OPAC 讀者行為挖掘的個(gè)性化服務(wù)系統(tǒng)關(guān)鍵技術(shù)分析 Wei,Hong Xia. The analysis of key technology in individual service system based on the OPAC reader behavior excavaJ] . Library Tribune, 2010( 1) : 62 - 64. ) tion[ [ 33] 王思麗, J] . 現(xiàn)代圖書情報(bào)技術(shù), 2011 ( 11 ) : 17 - 23. 祝忠明. 利用關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)機(jī)構(gòu)知識(shí)庫(kù)的語(yǔ)義擴(kuò)展研究[ ( Wang Sili, Zhu Zhongming. Study on the semantic expansion of institutional repository based on linked data[ J] . New 2011( 11) : 17 - 23. ) Technology of Library and Information Science, [ 34] 賀德方, [ J] . 中國(guó)圖書館學(xué)報(bào), 2012( 4) : 79 - 87. ( He Defang,Zeng 曾建勛. 基于語(yǔ)義的館藏資源深度聚合研究 總第三九卷 第二〇八期 Vol. 39. No. 208

樓 雯: 館藏資源語(yǔ)義化關(guān)鍵技術(shù)及實(shí)證研究 Lou Wen: An Empirical Study on Key Technologies of Library Resource Semantization

039

Jianxun. Study on indepth integration of library collections based on semantics[ J] . Journal of Library Science in Chi2012( 4) : 79 - 87. ) na, [ 35] 邱均平, [ J] . 中國(guó)圖書館學(xué)報(bào), 2012( 4) : 71 - 78. ( Qiu Junping, 余凡. 基于計(jì)量分析的館藏資源語(yǔ)義化理論研究 Yu Fan. Theoretical research on semantization of library resources based on informetric analysis [ J] . Journal of Library 2012( 4) : 71 - 78. ) Science in China, 36] 邱均平, J] . 中國(guó)圖書館學(xué)報(bào), 2012 ( 6 ) : 89 - 99. ( Qiu Junping,Lou [ 樓雯. 基于共現(xiàn)分析的語(yǔ)義信息檢索研究[ Wen. Semantic information retrieval research based on cooccurrence analysis [ J] . Journal of Library Science in China, 2012( 6) : 89 - 99. ) [ 37] 符福垣, )[ J] . 情報(bào)科學(xué), 1985( 6) : 72. ( Fu Fuyuan,Wu Xianhu. Basic concepts 吳顯滬. 情報(bào)科學(xué)的基本概念( 三 of information science( Ⅲ )[ J] . Information Science, 1985( 6) : 72. ) [ 38] 袁璐, J] . 計(jì)算機(jī)工程與應(yīng)用, 2012 ( 9 ) : 138 - 141. 蒙祖強(qiáng), 許珂. 依存分析和 HMM 相結(jié)合的信息抽取方法[ ( Yuan Lu, Meng Zuqiang, Xu Ke. Method of text information extraction based on dependency parsing and HMM [ J] . Computer Engineering and Applications, 2012( 9) : 138 - 141. ) 39] 熊回香, [ J] . 圖書情報(bào)工作, 2008( 4) : 81 - 84. ( Xiong Huixiang,Xia Lixin. The review [ 夏立新. 漢語(yǔ)分詞技術(shù)綜述 of Chinese automatic word segmentation technology [ J] . Library and Information Service, 2008( 4) : 81 - 84. ) [ 40] ICTCLAS 漢語(yǔ)分詞系統(tǒng)[ EB / OL] .[ 2013 - 05 - 01] . http: / / ictclas. org / index. html. ( ICTCLAS Chinese word seg[ EB / OL] .[ 2013 - 05 - 01] . http: / / ictclas. org / index. html. ) mentation system [ 41] 分詞算法 [ EB / OL] .[ 2013 - 05 - 02] . http: / / blog. csdn. net / cozmic / article / details /659591. ( Segmentation[ EB / OL] . [ 2013 - 5 - 2] . http: / / blog. csdn. net / cozmic / article / details /659591. ) 42] 丁卓冶. 中文命名實(shí)體識(shí)別的研究 [ D ] . 大連: 大連理工大學(xué), 2008. ( Ding Zhuozhi. A study on Chinese named entity [ recognition[ D ] . Dalian: Dalian University of Technology, 2008. ) 43] 潘家銘. 基于 Wikipedia 的中文命名實(shí)體識(shí)別研究[ D] . 廣州: 中山大學(xué), 2008. ( Pan Jiaming. A study on Chinese [ D ] . Guangzhou: Sun Yatsen University, 2008. ) named entity recognition based on Wikipedia [ [ 44] Velardi P, Missikoff M, Basili R. Identification of relevant terms to support the construction of domain ontology[ C]/ / PA: AssociaProceedings of the workshop on Human Language Technologies and Knowledge Management. Stroudsburg, 2001: 1 - 8. tion for Computational Linguistics, [ 45] Tversky A. A feature of similarity[ J] . Psychological Review, 1977, 84( 4) : 327 - 352. [ 46] Valerie C. Fuzzy semantic distance measures between ontological concepts [ J] . IEEE Annual Meeting of the Fuzzy Information, 2004: 635 - 640. [ 47] Rodriguez M A, Egenhofer M J. Determining semantic similarity among entity classes from different ontologies[ J] . IEEE 2003, 15( 2) : 442 - 456. Transactions on Knowledge and Data Engineering, [ 48] Macqueen J. Some methods for classification and analysis of multivariate observations[ C]/ / Lucien M, Le C, Jerzy N. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California 1967, 281 - 297. Press, [ 49] Ng R, Han J. Efficient and effective cluster method for spatial data mining[ C]/ / Bocca J, Darke M, Zanio C. Proceedings of the 20th International Conference of Very Large Data Bases. San Francisco,CA: Morgan Kaufmann Publisher, 1994: 144 - 155. [ 50] Guha S, Rastogi R, Shim K. CURE: An efficient clustering algorithm for large databases[ C]/ / Laura M H,Ashutosh T. Proceedings of the ACM SIGMOD Conference, Seattle, Washington: ACM Press, 1998: 73 - 84. [ 51] Ester M, Kriegel H P, Sander J, et al. Adensitybased algorithm for discovering clusters in large spatial databases with C]/ / Evangelos S,Jiawei H,Usama M F. Proceedings of the 2nd ACM SIGKDD International Conference on noise[ Knowledge Discovery and Data Mining. Portland, Oregon: AAAI Press, 1996: 226 - 231. 2013 年 11 月 November, 2013

040

Journal of Library Science in China

英法兩國(guó)分別實(shí)施網(wǎng)絡(luò)資源法定呈繳制度
英國(guó)自2013年4月6日起正式實(shí)施電子出版物法定呈繳制度。 電子書、 電子期刊以及可被存儲(chǔ)在 CDROM 和從網(wǎng)站下載的電子出版物等網(wǎng)絡(luò)電子資源, 將被送存至大英圖書館為首的六家圖書館, 以實(shí)施對(duì) 國(guó)家文化和數(shù)字格式內(nèi)容的收集和保存。 法國(guó)在2006年8月1日通過(guò)的法國(guó)文化遺產(chǎn)規(guī)章( Code du patrimoine) 規(guī)定, 法定呈繳制度的覆蓋范圍 延伸至互聯(lián)網(wǎng)領(lǐng)域。 法國(guó)國(guó)家圖書館可以對(duì)法國(guó)境內(nèi)的網(wǎng)站資源進(jìn)行采集、 保存, 并向公眾開(kāi)放, 出版商 不能阻撓圖書館的采集工作, 并應(yīng)該向法國(guó)國(guó)家圖書館提供在線資源。 根據(jù)2012年12月公布的新修法令, 法國(guó)國(guó)家視聽(tīng)研究院( Inathèque de France) 負(fù)責(zé)采集與視聽(tīng)通信相關(guān)的網(wǎng)站( 以廣播電視為主) , 法國(guó)國(guó) “任何在法國(guó)出版( 或進(jìn)口) ” 2013年8月法國(guó)國(guó)家圖 家圖書館負(fù)責(zé)采集其他所有類型的網(wǎng)站, 收集 的資源。 書館已發(fā)布工作進(jìn)展以及問(wèn)題釋疑。 “電子出版物” 顯然, 英法兩國(guó)的實(shí)施路徑有別: 英國(guó)由六家圖書館聯(lián)合實(shí)施將呈繳范圍擴(kuò)大到 的法 “數(shù)字資 定呈繳制度, 法國(guó)則是將網(wǎng)絡(luò)典藏歸屬在文化遺產(chǎn)保護(hù)的范疇中, 對(duì)包括互聯(lián)網(wǎng)網(wǎng)站內(nèi)容在內(nèi)的 源” 進(jìn)行采集。 英法兩國(guó)國(guó)家圖書館的網(wǎng)絡(luò)資源典藏制度, 對(duì)歐盟乃至世界范圍的國(guó)家圖書館推動(dòng)相關(guān)工 作具有引領(lǐng)作用。 資料來(lái)源 1. Introduction to legal deposit. http: / / bl. uk / aboutus / legaldeposit / introduction / index. html. 2. Legal deposit for websites and electronic publications. http: / / bl. uk / aboutus / legaldeposit / websites / index. html. Releases / Clicktosavethena3. Click to save the nation's digital memory. http: / / pressandpolicy. bl. uk / Presstionsdigitalmemory61b. aspx. 4. Qu'est-ce que le dép?t légal? http: / / bnf. fr / fr / professionnels / depot_legal_definition / s. depot_legal_mission. html. 5. Digital legal deposit. http: / / bnf. fr / en / professionals / digital_legal_deposit. html. ( 顧立平 姚偉欣 張舵 整理)

[ 52] Wang W, Yang J, Muntz R. STING: A statistical information grid approach to spatial data mining[ C]/ / Matthias J, Michael J C, Klaus R D,et al. Proceedings of the 23rd Conference on VLDB. Athens,Greece: Morgan Kaufmann, 1997: 186 - 195. [ 53] Chang Rui, Liu Zhiyi. An improved Apriori algorithm [ C]/ / Proceedings of 2011 International Conference on Electronics and Optoelectronics. Washington, DC: IEEE Computer Society, 2011: 476 - 478.

樓 雯 武漢大學(xué)信息管理學(xué)院博士研究生。通訊地址: 武漢大學(xué)信息管理學(xué)院。郵編: 430072。 ( 收稿日期: 2013 - 05 - 03)
總第三九卷 第二〇八期 Vol. 39. No. 208



  本文關(guān)鍵詞:館藏資源語(yǔ)義化關(guān)鍵技術(shù)及實(shí)證研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):230389

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/xxkj/230389.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5e7f8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
日本不卡在线一区二区三区| 国产精品日本女优在线观看| 欧美日韩最近中国黄片| 亚洲中文字幕人妻系列| 欧美成人免费夜夜黄啪啪| 亚洲少妇人妻一区二区| 国产不卡在线免费观看视频| 亚洲一区二区精品国产av| 成人亚洲国产精品一区不卡| 久久中文字幕中文字幕中文| 亚洲国产av在线视频| 亚洲午夜av一区二区| 亚洲综合伊人五月天中文| 亚洲精品福利视频在线观看| 日韩一区欧美二区国产| 老司机精品一区二区三区| 亚洲最大的中文字幕在线视频| 国产精品久久久久久久久久久痴汉| 亚洲一区二区三区四区性色av| 国产亚洲精品岁国产微拍精品| 大屁股肥臀熟女一区二区视频| 香蕉久久夜色精品国产尤物| 欧美欧美日韩综合一区| 国产又粗又猛又爽色噜噜| 少妇特黄av一区二区三区| 日本女优一色一伦一区二区三区| 成人你懂的在线免费视频| 在线免费视频你懂的观看| 成人日韩在线播放视频| 伊人久久五月天综合网| 国产精品不卡免费视频| 日韩精品中文在线观看| 国产成人午夜福利片片| 午夜日韩在线观看视频| 日韩丝袜诱惑一区二区| 国产精品美女午夜福利| 熟女一区二区三区国产| 国产精品二区三区免费播放心| 国产对白老熟女正在播放| 亚洲国产成人av毛片国产| 国产精品久久精品国产|