天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 碩博論文 > 社科碩士論文 >

數(shù)字版權資源庫的構建中Lucene技術的應用研究

發(fā)布時間:2014-09-26 09:37

【摘要】 隨著互聯(lián)網(wǎng)的飛速發(fā)展,信息的存儲與傳播方式發(fā)生了巨大的變化。由于數(shù)字資源的易擴散和易傳播性,數(shù)字資源給人們帶來極大便利的同時,也給數(shù)字版權管理工作帶來了前所未有的挑戰(zhàn)。首先,數(shù)字版權資源依靠傳統(tǒng)的存儲方式,不能有效解決日益增長的數(shù)字資源的存儲問題。其次,對于海量的數(shù)字作品如何從中快速搜索有用的信息變的越來越困難。因此構建一個對數(shù)字作品具有海量存儲和快速搜索功能的數(shù)字版權資源庫是必要的。本文采用Hadoop框架下的HDFS分布式文件系統(tǒng),解決數(shù)字作品的海量存儲問題;在數(shù)字版權資源庫的快速搜索方面,先采用Lucene全文檢索技術對版權元數(shù)據(jù)信息創(chuàng)建索引,并對索引文件進行搜索;然后采用Elasticsearch分布式搜索技術對Luc ene的索引文件進行分片存儲和分布式搜索;最后本搜索引擎為用戶提供友好的操作功能:數(shù)字作品管理,數(shù)字版權管理,資源庫索引,資源庫搜索等。本文的難點和創(chuàng)新點如下:分析了數(shù)字版權資源的特征,設計了易于擴展、高度容錯、支持海量數(shù)據(jù)集的云存儲方案;研究Lucene技術,設計了數(shù)字版權資源元數(shù)據(jù)全文檢索方案;采用Elasticsearch對資源庫的索引文件進行分片處理,實現(xiàn)了數(shù)字版權資源庫的分布式索引和分布式搜索。本文主要成果是運用HDFS分布式文件系統(tǒng)實現(xiàn)數(shù)字版權資源的海量存儲,采用Lucene全文檢索和Elasticsearch索引分片技術對版權資源庫進行分布式索引和快速檢索。最終構建了一個高效的、分布式的數(shù)字版權資源庫,保證海量數(shù)字作品的安全可靠存儲,促進數(shù)字版權產(chǎn)業(yè)的資源整合,減少數(shù)字作品的傳播成本,為數(shù)字作品版權信息的登記、備案、搜索和檢測提供底層支撐。 

【關鍵詞】 數(shù)字版權資源庫; 海量存儲; 倒排索引; 分詞; 分布式搜索; 


1緒論

1.1課題研究背景
在數(shù)字版權管理方面,國內(nèi)外上有許多著名的數(shù)字版權管理系統(tǒng)及產(chǎn)品,比如微軟公司的公司的公司的和北大方正的等。另外中科院自動化所和香港大學等研究機構也都對數(shù)字版權管理技術的體系結(jié)構和關鍵算法進行了深入的探索與研究⑴。在各種數(shù)字版權管理系統(tǒng)及產(chǎn)品研究中,為方便數(shù)字版權資源的數(shù)據(jù)整合,需要構建一個完整的、規(guī)范的數(shù)字版權資源庫,這樣可以有效的促進數(shù)字版權資源的貿(mào)易和流通,提高了數(shù)字版權管理工作效率。中國版權保護中心在對版權保護技術和法律法規(guī)的研究分析后,認為從根本上解決數(shù)字作品產(chǎn)業(yè)鏈各個參弓者的利益分享和技術創(chuàng)新,實現(xiàn)快速高效的維權機制,是瓦聯(lián)網(wǎng)上數(shù)字版權保護的主要問題。為了解決述問題,中國版權保護中心結(jié)合中國國情提出了數(shù)字版權唯一標識符簡稱,并通過高新技術乎段解決的數(shù)字版權資源信總的海量存儲和快速搜索題,提出了數(shù)字版權資源庫的構建與應用研究,并實現(xiàn)數(shù)字作品的海量存儲和快速搜索。

1.2國內(nèi)外研究現(xiàn)狀及趨勢
近年來,數(shù)字版權管理技術已經(jīng)應用到電子書、圖片、音頻、視頻等領域,但還存在一些有待解決的難點問題,針對國內(nèi)數(shù)字內(nèi)容服務方面,還有一定的研究空間。比如數(shù)字版權元數(shù)據(jù)的標準化,數(shù)字版權資源庫的構建,數(shù)字作品的盜版檢測和數(shù)字作品的權利轉(zhuǎn)移等技術的研究。目前國內(nèi)外有很多各種各樣的資源庫,如醫(yī)學資源庫、教育資源庫、圖書資源庫,但是對于數(shù)字版權資源庫卻很少,數(shù)字版權資源庫主要存儲的是數(shù)字作品的版權信息,為數(shù)字版權管理提供底層支撐。本課題以數(shù)字版權內(nèi)容備案和數(shù)字版權內(nèi)容搜索為核心,收集整理大量數(shù)字版權信息,利用技術手段針對數(shù)字內(nèi)容進行特征備案,形成數(shù)字版權資源數(shù)據(jù)庫。數(shù)字版權資源信息包括數(shù)字作品元數(shù)據(jù)信息和和數(shù)字作品源文件,同時為數(shù)字作品信息提供海量存儲和快速搜索等服務。
..............

2相關技術介紹

2.1云存儲技術
傳統(tǒng)的技術架構已經(jīng)越來越不適應海故數(shù)據(jù)的處要求,憑借其在海量數(shù)據(jù)處理領域的領先技術,在激烈的行業(yè)競爭中街很大的優(yōu)勢,其中的兩個技術就是分布式存儲和分布式計算框架。其設汁想來源于的和這兩篇學術文章,它最年的應用是為搜索引擎建立索引和提供快速搜索功能“?蚣苤幸怖ǚ植际轿募到y(tǒng)和并行計算,其中分布式文件系統(tǒng)具有靠性、高安全性和擴展性等優(yōu)點。云存儲不只是具體的存儲設備,而是釆用集群技術將大量的機器集合起來組成一個具有海量存儲和并行訪問等功能的集群這種通過應用軟件和存儲設備來實現(xiàn)存儲服務的功能,即是云儲存。

如上圖所示在集群中有多個集群節(jié)點組成,在集群中有一個名節(jié)點和多個數(shù)據(jù)節(jié)點。名節(jié)點保存元數(shù)據(jù)信息和志操作信息,通過名節(jié)點可以獲取具體的數(shù)據(jù)存放的塊位置信息和塊的操作信息。數(shù)據(jù)節(jié)點保存具體的塊集群中的塊默認大小是,每個塊都有多個副本來保證數(shù)據(jù)的可靠性。名節(jié)點是任務的管理者數(shù)掘節(jié)點執(zhí)行具體的任務。同樣集群中只能有一個,可以有多個?蛻舳丝梢酝ㄟ^來訪問也可以直接訪問。

2.2 Lucene全文檢索技術
下面來介紹一下全文檢索工具包的優(yōu)點:是基于語言開發(fā)的,具有面丨句對象的特性。提供了簡單易用的索引和搜索,具有良好的擴展性。具有獨立的文本分〗處理接口,通過實現(xiàn)索引文件的創(chuàng)建,程序員可以根據(jù)業(yè)務需要實現(xiàn)具體的文本分析接口來擴展新的文件格式。工具包對于文本索引和搜索其冇一套高效解決方案,程序員只需要根據(jù)具體業(yè)務調(diào)的接—就可以實現(xiàn)自己的搜索引擎,其查詢包括:布爾查詢、短語查詢、模糊査詢、多字段査詢等等。

3數(shù)字版權資源痄搜索引擎的研究............14
3.1數(shù)字版權資源庫的休系架構.................14
3.2數(shù)字版權資源庫的二存儲技術...........................15
4數(shù)字版權資源庫搜索引擎的設計與實現(xiàn).........................26
4.1數(shù)字版權資源庫搜索引擎的設計............................26
4.1.1需求分析....................26
5實驗結(jié)果分析..................44
5.1系統(tǒng)實驗環(huán)境...............44
5.2實驗數(shù)據(jù)準備.....................44
5.3海量存儲...............45

5實驗結(jié)果分析

5.1系統(tǒng)實驗環(huán)境
云存儲集群:臺機器系統(tǒng);分布式搜索集群:臺機器系統(tǒng);主要技術、開發(fā)環(huán)境;運行環(huán)境;框架。

5.2實驗數(shù)據(jù)準備
數(shù)字版權資源庫包括數(shù)字版權元數(shù)據(jù)和數(shù)字作品的源文件,均來源于中國版權保護中心的真實的數(shù)字作品信息,木文測試數(shù)據(jù)量在選擇大小在四個數(shù)量級:萬條記錄、條記錄、萬條記錄、萬條記萬條記錄。在此四個數(shù)量級上比較索引的創(chuàng)建時間和索引文件大小,搜索的查詢時間,比較查詢的內(nèi)容對于查詢字段有:作品名稱、作者、作品說明,對于和分布式搜索査詢內(nèi)容都是全文檢索,本系統(tǒng)測試比較了查詢詞“家鄉(xiāng)基礎閱讀”。其體的測試數(shù)據(jù)準備如下表所示。本文所采用的支持高并發(fā)的數(shù)掘存儲,在集群搭建完畢后,采用文件大小分別是等四個級別來測試分布式文件系統(tǒng)的上傳和下載性能,將四類文件上傳到文件系統(tǒng)上,如下圖所示。
..............

6總結(jié)與展望

目前數(shù)字版權產(chǎn)業(yè)的發(fā)展趨勢是要求系統(tǒng)平臺化、服務規(guī)范化、功能一體化。數(shù)字版權資源庫搜索引擎的相關技術和策略正在面臨巨大的挑戰(zhàn),數(shù)字版權資源信息的飛速增長,缺乏規(guī)范統(tǒng)一的資源庫,并對其提供快速搜索服務等問題,從而不利于數(shù)字版權的監(jiān)管和發(fā)展。為了解決這些問題,本文采用了基于的全文檢索技術,在海量數(shù)字源文件存儲方面采用了云存儲技術;其中對的索引文件,采用進行分布式索引和分布式搜索,從而構建了基于的數(shù)字版權資源庫搜索引擎,并且對數(shù)字版權資源庫的構建過程做了詳細的介紹,本文的難點和創(chuàng)新點如下:分析了數(shù)字版權資源的特征,設計了易于擴展、高度容錯、支持海量數(shù)據(jù)集的云存儲方案;研究技術,設計了數(shù)字版權資源元數(shù)據(jù)全文檢索方案;對資源庫的索引文件進行分片處理,實現(xiàn)了數(shù)字版權資源厙的分布式索引和分布式搜索。該系統(tǒng)中,也可能存在很多問題,比如,與其他系統(tǒng)的集成問題;诘臄(shù)字版權資源庳搜索引擎已基本成形,從最辱接觸全文檢索技術,到學習分布式文件系統(tǒng),到堪于對的索引文件;行分片段存儲和搜索的各種工、技術研究學,最后實現(xiàn)整個數(shù)字版資源庫搜索引擎,在研究學習過,不僅提高了軟件編程實現(xiàn)的能力,而且對云存儲和全文檢索技術了一定的理解。
...................

參考文獻:



本文編號:9233

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/shuoshibiyelunwen/9233.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶b6bdc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
女同伦理国产精品久久久| 国产传媒免费观看视频| 好吊妞视频免费在线观看| 不卡中文字幕在线免费看| 中文字幕人妻日本一区二区| 熟妇久久人妻中文字幕| 不卡视频在线一区二区三区| 日韩性生活视频免费在线观看| 这里只有九九热精品视频| 少妇被粗大进猛进出处故事| 高清免费在线不卡视频| 一本久道久久综合中文字幕| 亚洲一区二区精品福利| 麻豆看片麻豆免费视频| 又黄又爽禁片视频在线观看| 熟女一区二区三区国产| 东北老熟妇全程露脸被内射| 激情视频在线视频在线视频| 亚洲精品一区二区三区免| 日韩黄片大全免费在线看| 黄色美女日本的美女日人| 夫妻性生活一级黄色录像| 精品偷拍一区二区三区| 亚洲熟妇av一区二区三区色堂 | 亚洲视频在线观看你懂的| 国产成人精品午夜福利| 精品一区二区三区免费看| 风韵人妻丰满熟妇老熟女av | 精品国产一区二区欧美| 亚洲三级视频在线观看免费| 日本女人亚洲国产性高潮视频| 在线懂色一区二区三区精品| 国产三级视频不卡在线观看| 免费一级欧美大片免费看| 日韩在线一区中文字幕| 国产一区二区久久综合| 国产精品国三级国产专不卡| 国产亚洲精品一二三区| 日韩精品中文字幕亚洲| 精品欧美一区二区三久久| 午夜福利视频偷拍91|