智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索
本文關(guān)鍵詞:智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索,由筆耕文化傳播整理發(fā)布。
智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索
中國圖書館學報(雙月刊)2002年第3期
Z]}刪GGI,,O
TUSHUGUANXUEBAO
●晏創(chuàng)業(yè)張玉峰
智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索“
摘妻缺少一種深^信息內(nèi)容的網(wǎng)絡(luò)信息搜索工肄。是實現(xiàn)智能鹼索的主要圍難。采用阿絡(luò)數(shù)據(jù)挖掘技術(shù)是解奐問題的關(guān)鍵。從智能信息檢索的角度出發(fā),豐?紤]從網(wǎng)絡(luò)信息內(nèi)容的戈聯(lián)度來挖掘網(wǎng)絡(luò)數(shù)據(jù)。圖1.表1。參考義獻7。關(guān)鍵詞智能檢索
分類號G2527
剛絡(luò)信息檢索數(shù)據(jù)挖捌
AI&C;TRACT
Theauthorsthlnkthatthemajordifile山v
in
realuing
intdligcaatsearchisthelackd
to
a
networkinformationsearchtoalreachinginformationcontesats,andthekeynetworkdataminingtechniquestheminingof
solvetheproblemisthe
COHIeHts
They如discuss
flg
ltab
7refs
therelevanccofnetworkinformationfor
network
datal
KEYWORDS
Intelligentsearch
G2527
Networkinformationsearch
Data
mining
CI』ASSNUMliER
智能檢索能幫助人{『J在開發(fā)網(wǎng)絡(luò)信息資源時馓到“取其精華.去其糟粕”。它能擺脫表層信息的下擾,從信息內(nèi)容的角度出發(fā),搜索出高質(zhì)量的信息。目前,人們對信息檢
索過程中的智能化要求主要體現(xiàn)在基于內(nèi)容的檢索、個性化信息檢索和知識檢索。
目特同上的信息資源不同于一般意義上的數(shù)據(jù)庫.除
數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、隨機的數(shù)據(jù)中,提取潛在有用的信息和知識的過程。數(shù)據(jù)挖掘源自人工智能的機器學習領(lǐng)域,是在一個已知狀態(tài)的數(shù)據(jù)集上。通過設(shè)定一定的學習算法.從數(shù)據(jù)集中獲取所需的知識。這些知識能夠用J‘倍皂管理、智能查詢、決策支持、過程控制叭及其他方面,
具有開放性、異構(gòu)性和分布性等特點外.還具有半結(jié)構(gòu)化、非結(jié)構(gòu)化的動態(tài)關(guān)聯(lián)特性。網(wǎng)絡(luò)信息的特點央定了我們不能像對待靜態(tài)結(jié)構(gòu)化的數(shù)據(jù)庫信息那樣來對待它。然而,當前的一些網(wǎng)絡(luò)信息搜索工具仍遵循了大型數(shù)據(jù)庫的信息
檢索思想.旦口對網(wǎng)貞的標題、URL等表征信息和沒有進行深
數(shù)據(jù)挖掘的最初對象是一些大型的商業(yè)數(shù)據(jù)庫.岜通過描述數(shù)據(jù)、計算統(tǒng)計變量(比如平均值、均方差等),并將
這些變量用圖表直觀地表示出來,進而找出數(shù)據(jù)變量之間
的相關(guān)性,即發(fā)現(xiàn)知識,以提供解決問題的依據(jù)。隨著數(shù)據(jù)
挖掘技術(shù)在商業(yè)數(shù)據(jù)庫中的成功直用,它衛(wèi)被迅速移植到
度分析的關(guān)鍵詞進行標引,然后建立網(wǎng)絡(luò)信息的倒排文檔,
將它們簡單地聚合在一起。這種以數(shù)據(jù)庫信息處理方式組
電信、醫(yī)療保險等領(lǐng)域,因特網(wǎng)的出現(xiàn)為它提供丁一個更為
廣闊的用武空間。借用數(shù)據(jù)挖掘的原理來實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的
織起來的信息源,在檢索中主要有3個弊端:一是同一關(guān)鍵詞檢索出來的信息“貌臺種離“;二是檢索結(jié)果中出現(xiàn)大量的冗余信息;三是因為信息用戶理解差異的存在,在使用某些檢索詞時根本就檢索不到任何信息。
基于內(nèi)容的檢索和個性化的信息檢索.都是建立在網(wǎng)絡(luò)信息內(nèi)容基礎(chǔ)之上的.真正的知識性,是兒對信息內(nèi)容的
深層挖掘中體現(xiàn)出來的。面對因特網(wǎng)上源源生成的信息.
探層挖掘.發(fā)現(xiàn)并組織網(wǎng)絡(luò)知識,是將網(wǎng)絡(luò)信息檢索技術(shù)推
向智能化高度的有救手段。
1
2網(wǎng)絡(luò)數(shù)據(jù)挖l模型設(shè)計
網(wǎng)絡(luò)數(shù)據(jù)有小同于一般數(shù)據(jù)庫中數(shù)據(jù)的特點:異構(gòu)和
半結(jié)構(gòu)化。因特網(wǎng)上的每一個站點都是一個數(shù)據(jù)源.每一
個數(shù)據(jù)根都有自己的設(shè)計風格,即每個站點的信息和組織
都不一樣,用特網(wǎng)就是一個巨大的異構(gòu)數(shù)據(jù)庫.不刪于傳統(tǒng)的關(guān)系數(shù)據(jù)庫。因特同上的數(shù)據(jù)非常復雜,沒有統(tǒng)
的模
我1『】需要 種太批量、深人內(nèi)容的信息處理技術(shù),使其按照內(nèi)容特性聚集.并體現(xiàn)一定的知識性。將最初面向數(shù)據(jù)庫的數(shù)據(jù)挖掘技術(shù)引入到崮特網(wǎng)中,是解決問題的關(guān)鍵。
型描述,這些數(shù)據(jù)雖有定的結(jié)構(gòu)性,但網(wǎng)自述層次的存在
和復雜的相互關(guān)聯(lián),因而是一種非完全結(jié)構(gòu)化的數(shù)據(jù)。鑒
于網(wǎng)絡(luò)數(shù)據(jù)的這些特點,我們在將數(shù)據(jù)挖掘技術(shù)引^因特
1面目目特目的數(shù)據(jù)挖掘
1
網(wǎng)的時候,必須要做定的預處理工作,在此基礎(chǔ)上的網(wǎng)
1數(shù)據(jù)挖撮的棚關(guān)韌識
絡(luò)數(shù)據(jù)挖掘模型如圖1所示。
*
本文系國家杜科基金資助項目(編號:0IBTQ011)的研究論文。
萬方數(shù)據(jù)
49
本文關(guān)鍵詞:智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索,由筆耕文化傳播整理發(fā)布。
本文編號:150405
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/150405.html