基于回歸分析的網(wǎng)絡(luò)信息老化問(wèn)題研究 ——以圖書(shū)情報(bào)學(xué)電子期刊為例
第一章 引言
網(wǎng)絡(luò)的飛速發(fā)展對(duì)社會(huì)的網(wǎng)絡(luò)化、信息化產(chǎn)生了深遠(yuǎn)的影響。海量的網(wǎng)絡(luò)信息資源為我們?nèi)粘W(xué)習(xí)生活帶來(lái)方便的同時(shí),雜亂無(wú)章、毫無(wú)分類(lèi)、良莠不齊的信息也給我們帶來(lái)了困擾。網(wǎng)絡(luò)信息資源增長(zhǎng)迅速,導(dǎo)致網(wǎng)絡(luò)信息過(guò)剩、無(wú)效鏈接等現(xiàn)象嚴(yán)重。迫切需要解決網(wǎng)絡(luò)信息資源的增長(zhǎng)、內(nèi)容繁雜等問(wèn)題,需要科學(xué)的網(wǎng)絡(luò)信息理論來(lái)指導(dǎo)、梳理、整頓網(wǎng)絡(luò)資源洪流,網(wǎng)絡(luò)信息研究日益被人們所關(guān)注。
相對(duì)于傳統(tǒng)文獻(xiàn)信息而言,網(wǎng)絡(luò)信息的變化規(guī)律除了具有文獻(xiàn)信息特點(diǎn)之處,還在網(wǎng)絡(luò)的動(dòng)態(tài)環(huán)境中,形成了一些獨(dú)特的現(xiàn)象與規(guī)律。網(wǎng)絡(luò)信息資源與傳統(tǒng)文獻(xiàn)雖然在形式上具有某些相似之處,但兩者存在的差異是顯著的。對(duì)網(wǎng)絡(luò)信息變化規(guī)律的研究,促成了一門(mén)交叉學(xué)科的產(chǎn)生與發(fā)展——網(wǎng)絡(luò)信息計(jì)量學(xué)。網(wǎng)絡(luò)信息計(jì)量學(xué)分別從方法、內(nèi)容過(guò)程、目的等方面來(lái)進(jìn)行定義。它的研究方法借鑒了數(shù)學(xué)和統(tǒng)計(jì)學(xué)的定量分析方法,對(duì)網(wǎng)絡(luò)信息的存在方式進(jìn)行定量描述和統(tǒng)計(jì)分析,目的是揭示網(wǎng)絡(luò)信息數(shù)量特征和內(nèi)在規(guī)律。隨著科學(xué)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息化的普及,文獻(xiàn)老化學(xué)科發(fā)展的客觀需求必須緊跟時(shí)代步伐,文獻(xiàn)研究對(duì)象和范圍必須要與時(shí)俱進(jìn),勢(shì)必要擴(kuò)大到新的研究領(lǐng)域,而網(wǎng)絡(luò)信息資源老化是文獻(xiàn)老化在數(shù)字化時(shí)代的轉(zhuǎn)換,這是學(xué)科發(fā)展完善的自然和必然趨勢(shì)。
這些冗余信息干擾人們對(duì)信息的選擇和判斷,大大降低信息檢索效率,給人們帶來(lái)極大困擾。目前加強(qiáng)網(wǎng)絡(luò)管理已經(jīng)成為當(dāng)務(wù)之急,網(wǎng)絡(luò)信息資源老化研究不僅完善網(wǎng)絡(luò)計(jì)量學(xué)學(xué)科體系,而且必將為網(wǎng)絡(luò)管理提供科學(xué)化的管理方法,網(wǎng)絡(luò)信息資源老化研究是加強(qiáng)和改善網(wǎng)絡(luò)管理的客觀需要。
……
網(wǎng)絡(luò)信息老化是文獻(xiàn)信息老化在數(shù)字化時(shí)代新的研究領(lǐng)域,是文獻(xiàn)信息老化在互聯(lián)網(wǎng)技術(shù)下的延伸。C.F.Gosnell 是對(duì)文獻(xiàn)老化進(jìn)行最早研究的。他于上個(gè)世紀(jì) 40 年代就開(kāi)始文獻(xiàn)老化的研究。1940 年他在《Journal of Library》上發(fā)表的《Library literature of College》一文,及 1941 年在《Library of University and Research Institution》上發(fā)表的《Value and Crisis of Standard Books and Journals in College Library》文章中都提到文獻(xiàn)老化問(wèn)題。學(xué)術(shù)界認(rèn)為 C.F.Gosnell 在 1943 年撰寫(xiě)最早的、最具代表性的文獻(xiàn)老化研究的論文是《Literature Obsolensence in College Library》。隨后在 1944 年,Half-life(半衰期)的概念在他的論文中初步形成。因?yàn)楫?dāng)時(shí)Half-life(半衰期)的概念剛被提出,理論尚不完善,因而在 60 年代,Half-life(半衰期)作為文獻(xiàn)老化研究的指標(biāo)受到質(zhì)疑。R.E.Burton 和 R.W.kebler 美國(guó)學(xué)者對(duì)Half-life(半衰期)的概念進(jìn)行了一系列深入的研究,研究結(jié)果提議用 medianage(中值年限)來(lái)替換 Half-life(半衰期)的概念。但毫無(wú)疑問(wèn),至今文獻(xiàn)老化研究中Half-life(半衰期)仍是最重要的指標(biāo)之一,Half-life(半衰期)概念的提出對(duì)是文獻(xiàn)老化具有重大意義。1971 年 D.J.price 提出文獻(xiàn)老化另一個(gè)重要測(cè)量指標(biāo)——普賴斯指數(shù)。即在某學(xué)科領(lǐng)域內(nèi),將引文數(shù)量的年限不超過(guò) 5 年的與所有引文總數(shù)作比較,用這個(gè)比值來(lái)衡量文獻(xiàn)的老化速度。1974 年 M.B. Line 與 A. Sandison 提出了利用共時(shí)與歷時(shí)法對(duì)文獻(xiàn)老化的進(jìn)行測(cè)量,并發(fā)表題名為《文獻(xiàn)利用隨時(shí)間的老化》(《Obsolescence and changes in the use of literature with time》)一文,在論文中對(duì)共時(shí)法與歷時(shí)法作了詳細(xì)介紹。共時(shí)法與歷時(shí)法分別是從靜態(tài)與動(dòng)態(tài)的角度來(lái)研究文獻(xiàn)老化的程度。1985 至 1990 年,三位學(xué)者 Burrell、Goughlin 及 Gelman 分別對(duì)混合泊松模型進(jìn)行了老化規(guī)律的研究。隨著網(wǎng)絡(luò)信息的飛速發(fā)展,對(duì)文獻(xiàn)老化的研究也與時(shí)俱進(jìn)的轉(zhuǎn)移到網(wǎng)絡(luò)信息老化研究上。
在王宏鑫和邱均平老師提出網(wǎng)絡(luò)信息資源老化概念之后,段宇鋒指出應(yīng)該從網(wǎng)絡(luò)信息資源自身情況測(cè)量老化指標(biāo),他在分析老化原因及特征的基礎(chǔ)上,對(duì)生命周期和被利用情況進(jìn)行研究。以網(wǎng)絡(luò)信息自身生存期和生命周期,以網(wǎng)絡(luò)信息宏觀和微觀半衰期作為衡量網(wǎng)絡(luò)信息被利用情況的指標(biāo)。生命周期是指網(wǎng)絡(luò)信息資源的URL存續(xù)時(shí)間;2008年段宇峰對(duì)網(wǎng)絡(luò)信息存續(xù)狀態(tài)進(jìn)行研究,分別從網(wǎng)絡(luò)信息的更新、生存期和可存取性三方面內(nèi)容進(jìn)行深入研究,對(duì)我國(guó)網(wǎng)絡(luò)信息資源的存續(xù)狀態(tài)進(jìn)行了初步探索,是國(guó)內(nèi)首次對(duì)網(wǎng)絡(luò)信息資源存續(xù)狀態(tài)提出相關(guān)的研究方法和研究手段,為我國(guó)網(wǎng)絡(luò)信息資源老化深入研究提供重要的參考依據(jù)。
本文研究思路如圖 1 所示:
……
第二章 網(wǎng)絡(luò)信息老化問(wèn)題概述
90 年代末,Bar-Ilan 和 Peritz 對(duì)信息計(jì)量學(xué)中網(wǎng)絡(luò)信息資源生存期就進(jìn)行深入研究,結(jié)果表明,在半年內(nèi)有一半的網(wǎng)頁(yè)進(jìn)行了更新;而 Wallace Koehler 對(duì)網(wǎng)絡(luò)信息生命周期的研究觀察結(jié)果更為顯著,在半年內(nèi)有 97%的網(wǎng)站進(jìn)行了信息更新,并且信息更新與時(shí)間有密切關(guān)系,如果延長(zhǎng)研究觀察時(shí)間,則網(wǎng)頁(yè)更新比率會(huì)繼續(xù)上升,在 1 年內(nèi)更新率達(dá)到 99%。對(duì)網(wǎng)頁(yè)而言,網(wǎng)絡(luò)信息資源的更新,并不代表網(wǎng)絡(luò)信息資源總和一定增長(zhǎng)。網(wǎng)絡(luò)信息資源的快速更新,導(dǎo)致了低質(zhì)量、無(wú)效用價(jià)值的信息被取代,從另一個(gè)側(cè)面來(lái)說(shuō),加速了其老化速度。
網(wǎng)絡(luò)信息資源的消失是指由于種種原因,網(wǎng)絡(luò)信息資源被刪除,鏈接不能再被訪問(wèn)和利用。研究表明,網(wǎng)頁(yè)消失速度快,1 年內(nèi) 68%的網(wǎng)頁(yè)將被從網(wǎng)上去除;還有部分網(wǎng)站和網(wǎng)頁(yè)的鏈接失效。隨著時(shí)間的推移,這種消失現(xiàn)象更加明顯。與網(wǎng)絡(luò)信息資源的更新相比,網(wǎng)絡(luò)信息資源的消失,網(wǎng)絡(luò)信息資源總量一定的減少。這種網(wǎng)絡(luò)鏈接壞死或被移除也是網(wǎng)絡(luò)信息老化的一個(gè)原因。
隨著人類(lèi)文明的發(fā)展,社會(huì)的進(jìn)步,,科學(xué)技術(shù)的飛速發(fā)展,原有知識(shí)已經(jīng)不能滿足人們的求知欲望,信息需要不斷地被完善和突破。由于互聯(lián)網(wǎng)的出現(xiàn),人們對(duì)信息的需求更大,為了滿足社會(huì)對(duì)信息的需要,網(wǎng)絡(luò)資源信息量大、更新及時(shí)、加工程度越來(lái)越深,原有知識(shí)內(nèi)容不斷完善,因而那些陳舊過(guò)時(shí)的信息逐步被冷落,使其利用率下降。但是與網(wǎng)絡(luò)信息更新不同的是,網(wǎng)絡(luò)信息資源被替代,網(wǎng)絡(luò)信息資源總量可能增長(zhǎng)。原有信息資源可能并沒(méi)有消失。研究表明,網(wǎng)絡(luò)信息老化與網(wǎng)絡(luò)信息內(nèi)容大量重復(fù)出現(xiàn)有較大關(guān)系。
……
網(wǎng)絡(luò)信息老化的速度往往快于傳統(tǒng)文獻(xiàn)的老化速度。這是由于網(wǎng)絡(luò)信息自身因素所決定的。網(wǎng)絡(luò)信息發(fā)布、獲取和傳播簡(jiǎn)單迅速,沒(méi)有發(fā)表時(shí)滯的問(wèn)題,其被利用的速度快,被更新替換的速度比傳統(tǒng)文獻(xiàn)快,失去效用價(jià)值也隨之加快,因而老化速度快。
傳統(tǒng)文獻(xiàn)載體形態(tài)和內(nèi)容是一體化的,即使這些載體上的知識(shí)和情報(bào)的效用價(jià)值降低或者消失,載體形態(tài)還存在,其信息具有永續(xù)性。傳統(tǒng)文獻(xiàn)信息的數(shù)量是遞增的,新信息的產(chǎn)生也有新的載體產(chǎn)生。例如一本紙質(zhì)圖書(shū),即使書(shū)上的知識(shí)內(nèi)容陳舊過(guò)時(shí),它也不會(huì)消失。新的知識(shí)產(chǎn)生就有一本新書(shū)誕生,書(shū)的總量是增長(zhǎng)的。由于網(wǎng)絡(luò)信息自身特殊性,載體形態(tài)和內(nèi)容是可以相互獨(dú)立的,一旦網(wǎng)絡(luò)信息失去效用價(jià)值后,載體通常會(huì)徹底消失,新的信息出現(xiàn)將會(huì)覆蓋舊的信息,所以對(duì)網(wǎng)絡(luò)信息而言,更新并不一定意味著信息總量的增長(zhǎng)。例如網(wǎng)絡(luò)移動(dòng)硬盤(pán)上的信息,如果失去效用價(jià)值,可能被刪除或者被其他有用信息所替代。所以,我們認(rèn)為網(wǎng)絡(luò)信息資源具有非累積性。
網(wǎng)絡(luò)信息資源既不像傳統(tǒng)文獻(xiàn)的永續(xù)性,也不是即刻消失,而是介于這兩種狀態(tài)之間的信息。因?yàn)槠漭d體形態(tài)和內(nèi)容是可以相互獨(dú)立的,在載體形態(tài)不變的前提下,知識(shí)內(nèi)容可以不斷增刪改,表現(xiàn)為網(wǎng)絡(luò)信息的動(dòng)態(tài)性。動(dòng)態(tài)性與非積累性是內(nèi)在統(tǒng)一的。因其自身具有動(dòng)態(tài)性,使我們的在研究過(guò)程中,需要考慮其自身生命周期的內(nèi)容。
傳統(tǒng)文獻(xiàn)具有載體依賴性,便于統(tǒng)一管理和發(fā)行。而網(wǎng)絡(luò)信息資源特殊性,一是網(wǎng)絡(luò)的自由開(kāi)放性,尤其是 web2.0 的環(huán)境下,網(wǎng)上信息的發(fā)布基本上處于相對(duì)自由狀態(tài),網(wǎng)絡(luò)信息資源的精確構(gòu)成和分布狀況難以掌握,研究對(duì)象的范圍和數(shù)量難以確定。二是非積累性與動(dòng)態(tài)性,難以系統(tǒng)地進(jìn)行回溯研究。導(dǎo)致了其老化研究的復(fù)雜性。
……
3.1 生命周期 ..................................................................... 15
3.1.1 半衰期 .................................................................... 15
3.1.2 生存期 ..................................................................... 15
3.2 價(jià)值周期 .................................................................... 16
3.2.1 宏觀網(wǎng)絡(luò)信息資源半衰期 .................................................... 16
3.2.2 微觀網(wǎng)絡(luò)信息資源半衰期 .................................................... 16
3.3 本章小結(jié) .................................................................... 16
第四章 回歸分析模型 ........................................................... 17
4.1 回歸分析基本步驟 ........................................................... 17
4.1.1 確定變量 ................................................................ 17
4.1.2 散點(diǎn)圖 ..................................................................... 17
4.1.3 建立回歸預(yù)測(cè)模型 ........................................................... 17
4.1.4 相關(guān)系數(shù)分析 .............................................................. 17
4.1.5 回歸模型改進(jìn) .............................................................. 18
4.1.6 回歸預(yù)測(cè) ............................................................. 18
4.2 網(wǎng)絡(luò)信息資源老化的回歸預(yù)測(cè).................................................... 18
4.2.1 數(shù)據(jù)來(lái)源 ................................................................. 18
4.2.2 作散點(diǎn)圖 ............................................................... 19
4.2.3 建立回歸方程 .......................................................... 20
4.2.4 方程檢驗(yàn) ................................................................ 23
4.2.5 回歸預(yù)測(cè) ............................................................... 24
4.3 本章小結(jié) ................................................................. 24
第五章 回歸預(yù)測(cè)的分析 ...................................................... 25
5.1 優(yōu)越性 .................................................................. 25
5.1.1 簡(jiǎn)便性 ................................................................. 25
5.1.2 客觀性 ................................................................. 25
5.1.3 精確性 ............................................................... 25
5.1.4 泛化性 ............................................................. 25
5.2 不足之處 ............................................................... 26
5.2.1 樣本數(shù)據(jù)選擇的局限性 .................................................. 26
5.2.2 統(tǒng)計(jì)范圍較小 .......................................................... 26
5.3 本章小結(jié) ............................................................. 26
……
第五章 回歸預(yù)測(cè)的分析
網(wǎng)絡(luò)信息資源老化是屬于客觀事物內(nèi)部規(guī)律,而我們對(duì)網(wǎng)絡(luò)信息資源老化的認(rèn)識(shí)程度有限,無(wú)法分析實(shí)際情況中內(nèi)在精確的因果關(guān)系。所以,本文通過(guò)搜集大量的數(shù)據(jù),基于對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析建立回歸模型,相對(duì)開(kāi)發(fā)網(wǎng)絡(luò)信息老化統(tǒng)計(jì)工具來(lái)進(jìn)行老化研究而言,方法相對(duì)簡(jiǎn)便。
在理論上,一種方法可應(yīng)用、實(shí)施需要同時(shí)具備兩個(gè)條件。一是對(duì)研究方法的基本要求,信度即可靠程度,研究結(jié)果具有穩(wěn)定性。二是研究所必須追求的目標(biāo),效度即正確性,全面分析各方面屬性。然而,網(wǎng)絡(luò)信息資源的特殊性,擁有所有信息是不可能的,難以完全分析統(tǒng)計(jì)各個(gè)學(xué)科領(lǐng)域,統(tǒng)計(jì)不夠全面,但是這種方法可以比較方便地應(yīng)用到其他學(xué)科和領(lǐng)域中。
本章主要分析回歸模型的優(yōu)勢(shì)和不足之處;貧w模型的優(yōu)勢(shì),結(jié)合了圖書(shū)情報(bào)學(xué)的樣本,分別從可操作性、客觀性、精確性以及良好的泛化進(jìn)行分析。本模型存在的不足之處是選擇的統(tǒng)計(jì)樣本較少、范圍較窄。
研究者認(rèn)識(shí)、發(fā)現(xiàn)客觀規(guī)律需要通過(guò)科學(xué)的研究方法,它是使研究具有科學(xué)性的保障。截止到目前,網(wǎng)絡(luò)信息老化研究方法主要是借鑒引文分析法,還沒(méi)有形成本領(lǐng)域獨(dú)特的研究方法。雖然研究方法的探索是一個(gè)艱辛而漫長(zhǎng)的過(guò)程,但是它的產(chǎn)生會(huì)使該領(lǐng)域的研究發(fā)展產(chǎn)生質(zhì)的飛躍,對(duì)科學(xué)研究具有重大意義。
……
結(jié)論
實(shí)證研究方面有待進(jìn)一步提高,在實(shí)證研究中,本文只選取一種老化指標(biāo)半衰期進(jìn)行整體研究,沒(méi)有對(duì)靜態(tài)半衰期、動(dòng)態(tài)半衰期以及宏觀半衰期和微觀半衰期一一進(jìn)行實(shí)證研究,這是本文一大缺陷。同時(shí)對(duì)樣本數(shù)據(jù)的選擇有許多局限性,并沒(méi)有對(duì)所有學(xué)術(shù)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),只選取部分學(xué)科進(jìn)行探討研究。如果能借助強(qiáng)大的搜索引擎工具及開(kāi)發(fā)的“網(wǎng)絡(luò)爬蟲(chóng)”等工具對(duì)網(wǎng)上信息進(jìn)行全面的搜集,并利用大數(shù)據(jù)時(shí)代的海量信息進(jìn)行網(wǎng)絡(luò)信息資源老化數(shù)據(jù)作散點(diǎn)圖,回歸模型預(yù)測(cè)的結(jié)果會(huì)更理想,能進(jìn)一步揭示網(wǎng)絡(luò)信息資源老化規(guī)律。
信息計(jì)量學(xué)發(fā)展已經(jīng)取得了一定的研究成果,但是網(wǎng)絡(luò)信息老化與傳統(tǒng)文獻(xiàn)老化還存在極大差異。在網(wǎng)絡(luò)信息老化研究初期,不論國(guó)內(nèi)還是國(guó)外學(xué)者,都試圖借鑒文獻(xiàn)老化的理論和方法,而且將他們轉(zhuǎn)移到網(wǎng)絡(luò)信息老化領(lǐng)域,雖然已經(jīng)取得一定的研究成果。但是隨著深入研究,發(fā)現(xiàn)兩者之間存在顯著的差異,所以在今后研究中,在借鑒文獻(xiàn)老化理論基礎(chǔ)上,需要系統(tǒng)的建立網(wǎng)絡(luò)信息老化理論體系。
參考文獻(xiàn)(略)
本文編號(hào):56306
本文鏈接:http://sikaile.net/wenshubaike/lwfw/56306.html