基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務(wù)研究
摘 要:
摘 要:隨著我國網(wǎng)絡(luò)通信的不斷創(chuàng)新進(jìn)步,數(shù)字圖書館逐漸獲得良好的應(yīng)用,為人們提供便利有效的信息,然而,人們在享受其便利的同時,信息龐大而種類多樣也一直困擾著人們,并成為阻礙數(shù)字圖書館個性化服務(wù)發(fā)展的重要阻礙。鑒于此,本文引入數(shù)據(jù)挖掘技術(shù),在闡述數(shù)據(jù)挖掘的含義、類別以及數(shù)字圖書館個性化的服務(wù)基礎(chǔ)上,重點就基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務(wù)展開探討,以為數(shù)字圖書館的建設(shè)提供技術(shù)支持。
關(guān)鍵詞:
關(guān)鍵詞:數(shù)據(jù)挖掘 數(shù)字圖書館 個性化服務(wù)
近年來,隨著我國國民經(jīng)濟(jì)的快速增長及網(wǎng)絡(luò)通信的不斷進(jìn)步,數(shù)字圖書館作為以計算機(jī)為媒介,集信息數(shù)據(jù)收集、創(chuàng)建、加工和儲存等服務(wù)為一體的信息平臺,逐步獲得了社會的廣泛認(rèn)可與應(yīng)用,其不僅方便快捷,具有龐大的信息總量,且節(jié)省空間、更新迅速。然而,龐大多樣的信息也加劇了用戶檢索的困難,增加了操作的復(fù)雜度。因此,引入數(shù)據(jù)挖掘,發(fā)展基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務(wù)意義重大。
1 數(shù)字圖書館個性化服務(wù)
數(shù)字圖書館個性化服務(wù),主要是指根據(jù)系統(tǒng)對其用戶的行為和習(xí)慣進(jìn)行一定的記錄和分析,然后判斷用戶的偏好與特定的需求等,進(jìn)而向其提供符合其特點的個性化服務(wù)的過程。個性化服務(wù)的本質(zhì)即針對性,針對不同的喜好與選修的信息用戶可以采用不同的服務(wù)方式,并且提供不同的能夠滿足其個性服務(wù)內(nèi)容。個性服務(wù)的另一層面即主動性,主要是指系統(tǒng)會根據(jù)用戶的信息和需求提供相對應(yīng)的服務(wù)。具體而言,數(shù)字圖書館個性化服務(wù)主要涉及以下幾方面。
(1)私人書架,或稱私人信息資源庫,即數(shù)字圖書館在為讀者提供個性化服務(wù)的過程中,記錄讀者的歷史訪問關(guān)鍵詞、歷史瀏覽信息、定制以及推送信息的資源等分類保存私人信息的空間。
(2)個性化檢索,主要是指根據(jù)用戶申請材料與檔案及其歷史搜索關(guān)鍵字與瀏覽數(shù)據(jù)等信息來分析并判斷此讀者的興趣愛好,以自動為讀者分類,將其可能感興趣的內(nèi)容顯示出來的同時過濾無關(guān)信息,進(jìn)而為讀者提供個性化的服務(wù)。
(3)信息的分類定制,即數(shù)字圖書館用戶可以根據(jù)自己的需求與目標(biāo),設(shè)置最為合適且貼切的信息類型、信息資源表現(xiàn)形式以及系統(tǒng)的服務(wù)策略等。
(4)信息的推送,一種以推送技術(shù)為核心和動力的主動性的信息服務(wù)方式,即通過設(shè)置一定的標(biāo)準(zhǔn)和協(xié)議,根據(jù)用戶的需求與愛好,計算機(jī)網(wǎng)絡(luò)會自主的將用戶可能會感興趣的信息發(fā)送給用戶的一種個性化服務(wù)。
(5)信息垂直門戶,主要是指與信息綜合性門戶或信息水平門戶相對應(yīng)的一種服務(wù)方式,它可通過一定的程序匯集網(wǎng)絡(luò)上有關(guān)某一主題的大量專題信息并進(jìn)行進(jìn)一步的挖掘與加工,進(jìn)而最大程度的滿足用戶對于某一方面的專業(yè)性的個性需求。
(6)虛擬咨詢,為提供最專業(yè)的個性服務(wù),滿足用戶的多樣需求,數(shù)字圖書館個性化服務(wù)體系應(yīng)構(gòu)建一個與用戶溝通、接收咨詢、反饋信息的服務(wù)平臺,即虛擬咨詢平臺,可包含郵件、留言板、直接對話、聊天等多種形式,咨詢服務(wù)提供者可是相關(guān)領(lǐng)域的專家,也可是相應(yīng)的知識庫等。
(7)數(shù)據(jù)挖掘,即通過運(yùn)用數(shù)據(jù)挖掘、聯(lián)機(jī)分析等技術(shù)對用戶的歷史訪問的信息進(jìn)行分析總結(jié),以發(fā)現(xiàn)其關(guān)聯(lián),判斷讀者的興趣偏好等,繼而為讀者開展個性化的服務(wù)。
2 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘,又稱知識發(fā)現(xiàn),主要指在對大量的、不完整的、含義模糊的數(shù)據(jù)或數(shù)據(jù)庫進(jìn)行統(tǒng)計分析的基礎(chǔ)上,發(fā)現(xiàn)其中隱含或潛在的一些有用知識,并通過對其綜合、歸納以及推理并揭示各個事件之間的相互關(guān)聯(lián),進(jìn)而達(dá)到預(yù)測事情發(fā)展、輔助工作的作用。一般,數(shù)據(jù)挖掘因為研究對象的數(shù)據(jù)結(jié)構(gòu)與形式的不同而各不相同,其主要的分為三類。
一是數(shù)據(jù)挖掘,主要針對數(shù)值與數(shù)據(jù),其最常用的方法包含有統(tǒng)計分析法、歸納學(xué)習(xí)法、神經(jīng)網(wǎng)絡(luò)分析法、仿生物技術(shù)及遺傳算法等。其中,不同的方法具有不同的特點、功能與應(yīng)用。因此,數(shù)值或數(shù)據(jù)挖掘過程中的方法選擇至關(guān)重要,若條件允許,可多種方法結(jié)合,進(jìn)而達(dá)到優(yōu)勢互補(bǔ)的效果。二是Web數(shù)據(jù)挖掘,主要是指通過數(shù)據(jù)挖掘方法及相關(guān)技術(shù)的應(yīng)用,發(fā)現(xiàn)各種Web數(shù)據(jù)中隱含的有用信息,幫助人們提取知識,進(jìn)而不斷改進(jìn)站點設(shè)計,以促進(jìn)電子商務(wù)進(jìn)一步的改進(jìn)和發(fā)展。三是文本數(shù)據(jù)挖掘,主要是指以文本信息為挖掘?qū)ο螅,通過數(shù)據(jù)挖掘算法與信息檢索算法的結(jié)合使用,達(dá)到對大量文本信息的特征分析、文本摘要、分類聚類及探索性的數(shù)據(jù)分析處理等,其常用的技術(shù)方法主要包含詞頻向量表示法、詞串法及文本聚類法等。
3 基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務(wù)體系構(gòu)建
數(shù)字圖書館個性化服務(wù)體系,即通過系統(tǒng)的服務(wù)方式與策略設(shè)計,滿足讀者多樣需求,使得讀者以最小的投入獲得最為切合的信息資源的服務(wù)過程。因此,基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務(wù)體系的構(gòu)建必須以大量、真實有效的數(shù)據(jù)信息為基礎(chǔ)和前提,即基礎(chǔ)數(shù)據(jù)庫的積累與建設(shè)至關(guān)重要。結(jié)合相關(guān)實踐,構(gòu)建個性化服務(wù)體系應(yīng)注重以下幾方面。
其一,原始信息和用戶特征的提取與收集,這主要是指圖書館在讀者登陸訪問時,應(yīng)系統(tǒng)完整的記下其相關(guān)的個人的信息、瀏覽的信息以及行為特征等。個人信息包含姓名、性別、年齡、職業(yè)、學(xué)歷、偏好以及IP地址等;瀏覽信息則主要包含對某主題的訪問次數(shù)、訪問時間、下載次數(shù)及檢索記錄等;通過Web軟件對上訴信息的記錄,分析獲取其行為特征與偏好,進(jìn)而提供更精確的個性服務(wù)。
其二,數(shù)據(jù)的預(yù)處理及轉(zhuǎn)換。一般,經(jīng)過上訴過程,數(shù)字圖書館會搜集到大量的信息,此時應(yīng)進(jìn)行數(shù)據(jù)預(yù)處理。數(shù)據(jù)轉(zhuǎn)換則主要通過分析數(shù)據(jù)特征,依靠維變換方法減少變量數(shù)目、分類構(gòu)建數(shù)據(jù)倉庫等。
其三,確定目標(biāo),開展數(shù)據(jù)挖掘。數(shù)據(jù)挖掘之前應(yīng)首先結(jié)合實際,制定清晰細(xì)化的目標(biāo)。數(shù)據(jù)挖掘時則應(yīng)根據(jù)相應(yīng)的目標(biāo)和數(shù)據(jù)特點選擇計算方式,進(jìn)而對經(jīng)過凈化和轉(zhuǎn)換后的數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘。
其四,結(jié)果分析與調(diào)整,即對數(shù)據(jù)挖掘的結(jié)果進(jìn)行合理的解釋和適當(dāng)?shù)脑u價,若發(fā)現(xiàn)潛在的矛盾與問題時,應(yīng)注重應(yīng)用預(yù)先可信的知識與理論對其進(jìn)行檢查和解釋,并最終解決此矛盾。
其五,對于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務(wù)體系的結(jié)構(gòu),筆者認(rèn)為應(yīng)采用數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理等技術(shù)共同對用戶信息資源和訪問瀏覽等數(shù)據(jù)進(jìn)行分析和挖掘,從中探索、發(fā)現(xiàn)彼此之間的關(guān)聯(lián),進(jìn)而為用戶開展個性化服務(wù),筆者認(rèn)為個性化服務(wù)系統(tǒng)的結(jié)構(gòu)應(yīng)如下圖所示。此個性化服務(wù)應(yīng)包含:異構(gòu)文獻(xiàn)資源整合,即為便利讀者對于異構(gòu)平臺中的信息資源的獲取而構(gòu)建的統(tǒng)一檢索平臺;數(shù)據(jù)倉庫,即對數(shù)據(jù)倉庫中的數(shù)據(jù)組織根據(jù)不同的主題進(jìn)行再組織;OLAP,通過對多維組織的數(shù)據(jù)進(jìn)行各類分析,以能從多種維度查看。
4 結(jié)論
數(shù)字圖書館個性化的服務(wù)改變了圖書情報機(jī)構(gòu)僵硬的運(yùn)作方式,也為數(shù)字圖書館的進(jìn)一步發(fā)展與創(chuàng)新提供了廣闊的發(fā)展空間與發(fā)展前景。然而,因數(shù)字圖書館個性化服務(wù)體系的構(gòu)建精細(xì)龐大,需多種高新技術(shù)支持,仍存在成熟度不足等問題,有待進(jìn)一步的發(fā)展,但筆者相信,數(shù)據(jù)挖掘等技術(shù)的逐步精進(jìn)及相關(guān)研究的不斷深入必然會對數(shù)字圖書館個性化服務(wù)建設(shè)帶來創(chuàng)造性的影響。
參考文獻(xiàn):
[1]朱明.數(shù)據(jù)挖掘[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2002.
[2]李琳琳.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘在圖書館決策管理中的應(yīng)用[J].科技情報開發(fā)與經(jīng)濟(jì),2008(1).
本文編號:14540
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/14540.html