Web資源采集與保存研究
發(fā)布時間:2020-04-03 11:10
【摘要】:隨著計算機和通信技術的飛速發(fā)展,網(wǎng)絡已成為我們這個世界重要信息源之一和主要的信息傳播媒介。作為全球最大的信息資源庫,Web資源日益成為我們文化遺產(chǎn)的重要組成部分。然而,Web資源的壽命是極其短暫的,在新的網(wǎng)頁不斷產(chǎn)生的同時,舊的網(wǎng)頁也在不斷地消失。因此如何采集與保存Web文化遺產(chǎn)是我們共同面臨的嚴峻挑戰(zhàn)。 Web資源采集與保存是一項龐大的系統(tǒng)工程,它涉及到政府、出版、教育、科技、文獻保存等許多部門,面臨著文化、技術、資金、法律、管理體制等諸多方面的問題。目前已有許多國家進行了有益的嘗試,但總體上仍處于探索階段。我國的Web資源保存實踐也才剛剛起步,尚存在大量的課題需要研究。 本文是國家自然科學基金項目“中國文化數(shù)字資源保存庫的國家戰(zhàn)略研究’’(劉家真主持,編號:70373048)的子課題之一,筆者先介紹了Web與Web資源的現(xiàn)狀,接著重點論述了Web資源的采集策略以及Web資源保存的挑戰(zhàn)與對策,然后對國內(nèi)外相關領域的典型案例進行比較分析,最后介紹了Web資源保存研究的發(fā)展趨勢,并在總結與借鑒的基礎上提出“中國Web資源保存計劃”——建立中國Web檔案館的初步構想。
【圖文】:
有值得保存的信息,則使用人工選擇采集。目前這種聯(lián)合方法使用還不太廣泛,法國也是處于試驗階段,但充分利用了自動獲取和選擇性采集的優(yōu)點,并有機統(tǒng)一起來,因而具有很大的應用前景。下圖就是BFn的聯(lián)合采集示意圖①:
本身并不存在,只有進行專業(yè)檢索時才動態(tài)地出現(xiàn)。因為傳統(tǒng)的搜索引擎不能探表層之下的網(wǎng)絡,,因此深層網(wǎng)頁就被隱藏起來了。下圖表明了傳統(tǒng)搜索引擎的局限性。被選取的內(nèi)容僅僅是那些處于表層的,而且時未加選擇。還有大量有價值的內(nèi)容處于比表層網(wǎng)絡(S盯afceweb)更深的網(wǎng)。
【學位授予單位】:武漢大學
【學位級別】:碩士
【學位授予年份】:2005
【分類號】:G352
本文編號:2613294
【圖文】:
有值得保存的信息,則使用人工選擇采集。目前這種聯(lián)合方法使用還不太廣泛,法國也是處于試驗階段,但充分利用了自動獲取和選擇性采集的優(yōu)點,并有機統(tǒng)一起來,因而具有很大的應用前景。下圖就是BFn的聯(lián)合采集示意圖①:
本身并不存在,只有進行專業(yè)檢索時才動態(tài)地出現(xiàn)。因為傳統(tǒng)的搜索引擎不能探表層之下的網(wǎng)絡,,因此深層網(wǎng)頁就被隱藏起來了。下圖表明了傳統(tǒng)搜索引擎的局限性。被選取的內(nèi)容僅僅是那些處于表層的,而且時未加選擇。還有大量有價值的內(nèi)容處于比表層網(wǎng)絡(S盯afceweb)更深的網(wǎng)。
【學位授予單位】:武漢大學
【學位級別】:碩士
【學位授予年份】:2005
【分類號】:G352
【引證文獻】
相關期刊論文 前4條
1 馬建華;邵斌;李賽紅;;基于正則表達式的Web資源采集系統(tǒng)的設計與實現(xiàn)[J];電腦知識與技術;2008年31期
2 顏曉玉;;一種智能型元搜索引擎功能模型[J];福州大學學報(自然科學版);2008年S1期
3 程鳳;;保存高校Web信息資源建立Web博物館[J];情報資料工作;2007年02期
4 譚紅麗;;建立高校網(wǎng)絡博物館的研究[J];設計藝術;2006年04期
相關碩士學位論文 前2條
1 王婷;面向授權管理的動態(tài)網(wǎng)頁資源描述與搜集技術研究[D];解放軍信息工程大學;2007年
2 張宇;我國數(shù)字信息保存中的版權問題研究[D];黑龍江大學;2008年
本文編號:2613294
本文鏈接:http://sikaile.net/tushudanganlunwen/2613294.html
教材專著