一個(gè)基于WEB的信息組織與檢索模型(WIORS)研究
發(fā)布時(shí)間:2023-10-06 17:59
Internet作為一種現(xiàn)象,本質(zhì)可以用三個(gè)詞來表示,就是搜索、發(fā)現(xiàn)、獲得。在新的網(wǎng)絡(luò)信息環(huán)境下,不但信息的存儲(chǔ)和獲取渠道發(fā)生了變化,人們對(duì)信息的存取的思維和方式也產(chǎn)生了改變。在網(wǎng)絡(luò)環(huán)境中,越來越多傳統(tǒng)的信息資源正在向網(wǎng)上轉(zhuǎn)移,網(wǎng)絡(luò)上的信息空間正在急劇膨脹。如何對(duì)不斷膨脹的網(wǎng)絡(luò)信息資源進(jìn)行組織與檢索,是一個(gè)急需解決的難題。 短短幾年的時(shí)間內(nèi),搜索引擎成為了我們?nèi)粘I钪械囊徊糠。搜索引擎因其?qiáng)大的功能和簡單的操作,成為了網(wǎng)絡(luò)信息資源組織和檢索中最常用、最基本的工具。然而,搜索引擎的作用也是有限的,由于各種原因,互聯(lián)網(wǎng)有一半以上的信息資源搜索引擎訪問不到,這部分資源我們稱之為看不見的信息資源。所以,從看不見的信息資源的角度作為切入點(diǎn),研究對(duì)這部分信息資源的組織和檢索方法,對(duì)網(wǎng)絡(luò)信息資源的組織與檢索具有深遠(yuǎn)的意義。 本文從網(wǎng)絡(luò)信息資源的現(xiàn)狀入手,系統(tǒng)地、深入的分析了現(xiàn)階段信息資源的分布特點(diǎn),以及其組織的模式,提出了一個(gè)基于Web的信息組織與檢索的模型,并在模型的基礎(chǔ)上實(shí)現(xiàn)了一個(gè)應(yīng)用。 全文共分6個(gè)部分: 1.網(wǎng)絡(luò)信息組織概述。簡要介紹了中國網(wǎng)絡(luò)資源的現(xiàn)狀,信...
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
中文摘要
英文摘要
0 引言
0.1 選題的原因和意義
0.2 研究現(xiàn)狀
0.3 論文的研究內(nèi)容、研究方法和創(chuàng)新之處
0.3.1 研究內(nèi)容
0.3.2 研究方法
0.3.3 本文的創(chuàng)新
1 網(wǎng)絡(luò)信息組織與檢索概述
1.1 中國網(wǎng)絡(luò)資源概況
1.2 信息組織的功能
1.3 網(wǎng)絡(luò)環(huán)境下的信息組織與檢索
1.3.1 網(wǎng)絡(luò)信息資源的特點(diǎn)
1.3.2 網(wǎng)絡(luò)信息組織與檢索方法的現(xiàn)狀分析
2 網(wǎng)絡(luò)環(huán)境下信息檢索的模式研究
2.1 引言
2.2 網(wǎng)絡(luò)信息資源的組織模式
2.3 主題和索引:兩種不同模式的信息組織結(jié)構(gòu)
2.4 搜索引擎技術(shù)
2.4.1 搜索引擎的分類
2.4.2 搜索引擎原理
2.5 搜索引擎模式在信息資源組織中的作用
3 搜索引擎的缺陷和看不見的網(wǎng)站
3.1 搜索引擎出現(xiàn)的問題
3.1.1 搜索引擎的覆蓋率問題
3.1.2 搜索引擎的更新率問題
3.1.3 搜索引擎的排序和網(wǎng)頁垃圾問題
3.2 看不見的網(wǎng)站
3.2.1 什么是“看不見”的網(wǎng)站
3.2.2 看不見的網(wǎng)站的形成
4 解決問題的嘗試—WIORS系統(tǒng)模型
4.1 建立 WIORS模型的理論基礎(chǔ)
4.1.1 網(wǎng)絡(luò)信息資源的本質(zhì)屬性
4.1.2 模型的理論和數(shù)據(jù)依據(jù)
4.2 WIORS模型總體概述
4.2.1 WIORS模型的目標(biāo)
4.2.2 WIORS模型的主要功能
4.3 WIORS模型的系統(tǒng)架構(gòu)和主要模塊
4.3.1 信息抓取子系統(tǒng)
4.3.2 全文檢索子系統(tǒng)
4.3.3 信息表示子系統(tǒng)
5 WIORS模型中的關(guān)鍵技術(shù)實(shí)現(xiàn)
5.1 信息源的過濾技術(shù)
5.1.1 劃分信息源
5.1.2 分析信息源
5.1.3 Web信息抽取
5.2 利用 Lucene實(shí)現(xiàn)的全文檢索
5.2.1 Lucene簡介
5.2.2 Lucene的組成結(jié)構(gòu)
5.2.3 Lueene倒排索引原理
5.3 基于語料統(tǒng)計(jì)實(shí)現(xiàn)中文自動(dòng)分詞算法
5.3.1 分詞的必要性
5.3.2 ICTCLAS系統(tǒng)與Java調(diào)用
5.3.3 在 Lucene中調(diào)用 ICTCLAS
5.4 基于 RSS的推的技術(shù)
5.4.1 RSS簡介
5.4.2 將信息推給客戶端
6 模型應(yīng)用:對(duì)校園招聘信息資源進(jìn)行組織
6.1 引言
6.2 應(yīng)用系統(tǒng)的環(huán)境配置
6.2.1 硬件環(huán)境
6.2.2 軟件環(huán)境
6.3 信息源的選擇
6.4 信息源的處理
6.4.1 信息源的配置
6.4.2 對(duì)信息進(jìn)行抓取和建立索引
6.4.3 對(duì)信息源的過濾
6.5 構(gòu)建校園招聘信息門戶
6.6 應(yīng)用結(jié)論
7 總結(jié)
參考文獻(xiàn)
后記
本文編號(hào):3852188
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
中文摘要
英文摘要
0 引言
0.1 選題的原因和意義
0.2 研究現(xiàn)狀
0.3 論文的研究內(nèi)容、研究方法和創(chuàng)新之處
0.3.1 研究內(nèi)容
0.3.2 研究方法
0.3.3 本文的創(chuàng)新
1 網(wǎng)絡(luò)信息組織與檢索概述
1.1 中國網(wǎng)絡(luò)資源概況
1.2 信息組織的功能
1.3 網(wǎng)絡(luò)環(huán)境下的信息組織與檢索
1.3.1 網(wǎng)絡(luò)信息資源的特點(diǎn)
1.3.2 網(wǎng)絡(luò)信息組織與檢索方法的現(xiàn)狀分析
2 網(wǎng)絡(luò)環(huán)境下信息檢索的模式研究
2.1 引言
2.2 網(wǎng)絡(luò)信息資源的組織模式
2.3 主題和索引:兩種不同模式的信息組織結(jié)構(gòu)
2.4 搜索引擎技術(shù)
2.4.1 搜索引擎的分類
2.4.2 搜索引擎原理
2.5 搜索引擎模式在信息資源組織中的作用
3 搜索引擎的缺陷和看不見的網(wǎng)站
3.1 搜索引擎出現(xiàn)的問題
3.1.1 搜索引擎的覆蓋率問題
3.1.2 搜索引擎的更新率問題
3.1.3 搜索引擎的排序和網(wǎng)頁垃圾問題
3.2 看不見的網(wǎng)站
3.2.1 什么是“看不見”的網(wǎng)站
3.2.2 看不見的網(wǎng)站的形成
4 解決問題的嘗試—WIORS系統(tǒng)模型
4.1 建立 WIORS模型的理論基礎(chǔ)
4.1.1 網(wǎng)絡(luò)信息資源的本質(zhì)屬性
4.1.2 模型的理論和數(shù)據(jù)依據(jù)
4.2 WIORS模型總體概述
4.2.1 WIORS模型的目標(biāo)
4.2.2 WIORS模型的主要功能
4.3 WIORS模型的系統(tǒng)架構(gòu)和主要模塊
4.3.1 信息抓取子系統(tǒng)
4.3.2 全文檢索子系統(tǒng)
4.3.3 信息表示子系統(tǒng)
5 WIORS模型中的關(guān)鍵技術(shù)實(shí)現(xiàn)
5.1 信息源的過濾技術(shù)
5.1.1 劃分信息源
5.1.2 分析信息源
5.1.3 Web信息抽取
5.2 利用 Lucene實(shí)現(xiàn)的全文檢索
5.2.1 Lucene簡介
5.2.2 Lucene的組成結(jié)構(gòu)
5.2.3 Lueene倒排索引原理
5.3 基于語料統(tǒng)計(jì)實(shí)現(xiàn)中文自動(dòng)分詞算法
5.3.1 分詞的必要性
5.3.2 ICTCLAS系統(tǒng)與Java調(diào)用
5.3.3 在 Lucene中調(diào)用 ICTCLAS
5.4 基于 RSS的推的技術(shù)
5.4.1 RSS簡介
5.4.2 將信息推給客戶端
6 模型應(yīng)用:對(duì)校園招聘信息資源進(jìn)行組織
6.1 引言
6.2 應(yīng)用系統(tǒng)的環(huán)境配置
6.2.1 硬件環(huán)境
6.2.2 軟件環(huán)境
6.3 信息源的選擇
6.4 信息源的處理
6.4.1 信息源的配置
6.4.2 對(duì)信息進(jìn)行抓取和建立索引
6.4.3 對(duì)信息源的過濾
6.5 構(gòu)建校園招聘信息門戶
6.6 應(yīng)用結(jié)論
7 總結(jié)
參考文獻(xiàn)
后記
本文編號(hào):3852188
本文鏈接:http://sikaile.net/tushudanganlunwen/3852188.html
最近更新
教材專著