基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務研究
摘 要:
摘 要:隨著我國網(wǎng)絡通信的不斷創(chuàng)新進步,數(shù)字圖書館逐漸獲得良好的應用,為人們提供便利有效的信息,然而,人們在享受其便利的同時,信息龐大而種類多樣也一直困擾著人們,并成為阻礙數(shù)字圖書館個性化服務發(fā)展的重要阻礙。鑒于此,本文引入數(shù)據(jù)挖掘技術,在闡述數(shù)據(jù)挖掘的含義、類別以及數(shù)字圖書館個性化的服務基礎上,重點就基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務展開探討,以為數(shù)字圖書館的建設提供技術支持。
關鍵詞:
關鍵詞:數(shù)據(jù)挖掘 數(shù)字圖書館 個性化服務
近年來,隨著我國國民經(jīng)濟的快速增長及網(wǎng)絡通信的不斷進步,數(shù)字圖書館作為以計算機為媒介,集信息數(shù)據(jù)收集、創(chuàng)建、加工和儲存等服務為一體的信息平臺,逐步獲得了社會的廣泛認可與應用,其不僅方便快捷,具有龐大的信息總量,且節(jié)省空間、更新迅速。然而,龐大多樣的信息也加劇了用戶檢索的困難,增加了操作的復雜度。因此,引入數(shù)據(jù)挖掘,發(fā)展基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務意義重大。
1 數(shù)字圖書館個性化服務
數(shù)字圖書館個性化服務,主要是指根據(jù)系統(tǒng)對其用戶的行為和習慣進行一定的記錄和分析,然后判斷用戶的偏好與特定的需求等,進而向其提供符合其特點的個性化服務的過程。個性化服務的本質即針對性,針對不同的喜好與選修的信息用戶可以采用不同的服務方式,并且提供不同的能夠滿足其個性服務內(nèi)容。個性服務的另一層面即主動性,主要是指系統(tǒng)會根據(jù)用戶的信息和需求提供相對應的服務。具體而言,數(shù)字圖書館個性化服務主要涉及以下幾方面。
(1)私人書架,或稱私人信息資源庫,即數(shù)字圖書館在為讀者提供個性化服務的過程中,記錄讀者的歷史訪問關鍵詞、歷史瀏覽信息、定制以及推送信息的資源等分類保存私人信息的空間。
。2)個性化檢索,主要是指根據(jù)用戶申請材料與檔案及其歷史搜索關鍵字與瀏覽數(shù)據(jù)等信息來分析并判斷此讀者的興趣愛好,以自動為讀者分類,將其可能感興趣的內(nèi)容顯示出來的同時過濾無關信息,進而為讀者提供個性化的服務。
(3)信息的分類定制,即數(shù)字圖書館用戶可以根據(jù)自己的需求與目標,設置最為合適且貼切的信息類型、信息資源表現(xiàn)形式以及系統(tǒng)的服務策略等。
(4)信息的推送,一種以推送技術為核心和動力的主動性的信息服務方式,即通過設置一定的標準和協(xié)議,根據(jù)用戶的需求與愛好,計算機網(wǎng)絡會自主的將用戶可能會感興趣的信息發(fā)送給用戶的一種個性化服務。
。5)信息垂直門戶,主要是指與信息綜合性門戶或信息水平門戶相對應的一種服務方式,它可通過一定的程序匯集網(wǎng)絡上有關某一主題的大量專題信息并進行進一步的挖掘與加工,進而最大程度的滿足用戶對于某一方面的專業(yè)性的個性需求。
。6)虛擬咨詢,為提供最專業(yè)的個性服務,滿足用戶的多樣需求,數(shù)字圖書館個性化服務體系應構建一個與用戶溝通、接收咨詢、反饋信息的服務平臺,即虛擬咨詢平臺,可包含郵件、留言板、直接對話、聊天等多種形式,咨詢服務提供者可是相關領域的專家,也可是相應的知識庫等。
。7)數(shù)據(jù)挖掘,即通過運用數(shù)據(jù)挖掘、聯(lián)機分析等技術對用戶的歷史訪問的信息進行分析總結,以發(fā)現(xiàn)其關聯(lián),判斷讀者的興趣偏好等,繼而為讀者開展個性化的服務。
2 數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘,又稱知識發(fā)現(xiàn),主要指在對大量的、不完整的、含義模糊的數(shù)據(jù)或數(shù)據(jù)庫進行統(tǒng)計分析的基礎上,發(fā)現(xiàn)其中隱含或潛在的一些有用知識,并通過對其綜合、歸納以及推理并揭示各個事件之間的相互關聯(lián),進而達到預測事情發(fā)展、輔助工作的作用。一般,數(shù)據(jù)挖掘因為研究對象的數(shù)據(jù)結構與形式的不同而各不相同,其主要的分為三類。
一是數(shù)據(jù)挖掘,主要針對數(shù)值與數(shù)據(jù),其最常用的方法包含有統(tǒng)計分析法、歸納學習法、神經(jīng)網(wǎng)絡分析法、仿生物技術及遺傳算法等。其中,不同的方法具有不同的特點、功能與應用。因此,數(shù)值或數(shù)據(jù)挖掘過程中的方法選擇至關重要,若條件允許,可多種方法結合,進而達到優(yōu)勢互補的效果。二是Web數(shù)據(jù)挖掘,主要是指通過數(shù)據(jù)挖掘方法及相關技術的應用,發(fā)現(xiàn)各種Web數(shù)據(jù)中隱含的有用信息,幫助人們提取知識,進而不斷改進站點設計,以促進電子商務進一步的改進和發(fā)展。三是文本數(shù)據(jù)挖掘,主要是指以文本信息為挖掘對象,,通過數(shù)據(jù)挖掘算法與信息檢索算法的結合使用,達到對大量文本信息的特征分析、文本摘要、分類聚類及探索性的數(shù)據(jù)分析處理等,其常用的技術方法主要包含詞頻向量表示法、詞串法及文本聚類法等。
3 基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務體系構建
數(shù)字圖書館個性化服務體系,即通過系統(tǒng)的服務方式與策略設計,滿足讀者多樣需求,使得讀者以最小的投入獲得最為切合的信息資源的服務過程。因此,基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務體系的構建必須以大量、真實有效的數(shù)據(jù)信息為基礎和前提,即基礎數(shù)據(jù)庫的積累與建設至關重要。結合相關實踐,構建個性化服務體系應注重以下幾方面。
其一,原始信息和用戶特征的提取與收集,這主要是指圖書館在讀者登陸訪問時,應系統(tǒng)完整的記下其相關的個人的信息、瀏覽的信息以及行為特征等。個人信息包含姓名、性別、年齡、職業(yè)、學歷、偏好以及IP地址等;瀏覽信息則主要包含對某主題的訪問次數(shù)、訪問時間、下載次數(shù)及檢索記錄等;通過Web軟件對上訴信息的記錄,分析獲取其行為特征與偏好,進而提供更精確的個性服務。
其二,數(shù)據(jù)的預處理及轉換。一般,經(jīng)過上訴過程,數(shù)字圖書館會搜集到大量的信息,此時應進行數(shù)據(jù)預處理。數(shù)據(jù)轉換則主要通過分析數(shù)據(jù)特征,依靠維變換方法減少變量數(shù)目、分類構建數(shù)據(jù)倉庫等。
其三,確定目標,開展數(shù)據(jù)挖掘。數(shù)據(jù)挖掘之前應首先結合實際,制定清晰細化的目標。數(shù)據(jù)挖掘時則應根據(jù)相應的目標和數(shù)據(jù)特點選擇計算方式,進而對經(jīng)過凈化和轉換后的數(shù)據(jù)庫進行數(shù)據(jù)挖掘。
其四,結果分析與調整,即對數(shù)據(jù)挖掘的結果進行合理的解釋和適當?shù)脑u價,若發(fā)現(xiàn)潛在的矛盾與問題時,應注重應用預先可信的知識與理論對其進行檢查和解釋,并最終解決此矛盾。
其五,對于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務體系的結構,筆者認為應采用數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和聯(lián)機分析處理等技術共同對用戶信息資源和訪問瀏覽等數(shù)據(jù)進行分析和挖掘,從中探索、發(fā)現(xiàn)彼此之間的關聯(lián),進而為用戶開展個性化服務,筆者認為個性化服務系統(tǒng)的結構應如下圖所示。此個性化服務應包含:異構文獻資源整合,即為便利讀者對于異構平臺中的信息資源的獲取而構建的統(tǒng)一檢索平臺;數(shù)據(jù)倉庫,即對數(shù)據(jù)倉庫中的數(shù)據(jù)組織根據(jù)不同的主題進行再組織;OLAP,通過對多維組織的數(shù)據(jù)進行各類分析,以能從多種維度查看。
4 結論
數(shù)字圖書館個性化的服務改變了圖書情報機構僵硬的運作方式,也為數(shù)字圖書館的進一步發(fā)展與創(chuàng)新提供了廣闊的發(fā)展空間與發(fā)展前景。然而,因數(shù)字圖書館個性化服務體系的構建精細龐大,需多種高新技術支持,仍存在成熟度不足等問題,有待進一步的發(fā)展,但筆者相信,數(shù)據(jù)挖掘等技術的逐步精進及相關研究的不斷深入必然會對數(shù)字圖書館個性化服務建設帶來創(chuàng)造性的影響。
參考文獻:
[1]朱明.數(shù)據(jù)挖掘[M].合肥:中國科學技術大學出版社,2002.
[2]李琳琳.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘在圖書館決策管理中的應用[J].科技情報開發(fā)與經(jīng)濟,2008(1).
本文編號:14540
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/14540.html