智能檢索中的網(wǎng)絡數(shù)據(jù)挖掘技術探索
本文關鍵詞:智能檢索中的網(wǎng)絡數(shù)據(jù)挖掘技術探索,由筆耕文化傳播整理發(fā)布。
智能檢索中的網(wǎng)絡數(shù)據(jù)挖掘技術探索
中國圖書館學報(雙月刊)2002年第3期
Z]}刪GGI,,O
TUSHUGUANXUEBAO
●晏創(chuàng)業(yè)張玉峰
智能檢索中的網(wǎng)絡數(shù)據(jù)挖掘技術探索“
摘妻缺少一種深^信息內(nèi)容的網(wǎng)絡信息搜索工肄。是實現(xiàn)智能鹼索的主要圍難。采用阿絡數(shù)據(jù)挖掘技術是解奐問題的關鍵。從智能信息檢索的角度出發(fā),豐耍考慮從網(wǎng)絡信息內(nèi)容的戈聯(lián)度來挖掘網(wǎng)絡數(shù)據(jù)。圖1.表1。參考義獻7。關鍵詞智能檢索
分類號G2527
剛絡信息檢索數(shù)據(jù)挖捌
AI&C;TRACT
Theauthorsthlnkthatthemajordifile山v
in
realuing
intdligcaatsearchisthelackd
to
a
networkinformationsearchtoalreachinginformationcontesats,andthekeynetworkdataminingtechniquestheminingof
solvetheproblemisthe
COHIeHts
They如discuss
flg
ltab
7refs
therelevanccofnetworkinformationfor
network
datal
KEYWORDS
Intelligentsearch
G2527
Networkinformationsearch
Data
mining
CI』ASSNUMliER
智能檢索能幫助人{『J在開發(fā)網(wǎng)絡信息資源時馓到“取其精華.去其糟粕”。它能擺脫表層信息的下擾,從信息內(nèi)容的角度出發(fā),搜索出高質(zhì)量的信息。目前,人們對信息檢
索過程中的智能化要求主要體現(xiàn)在基于內(nèi)容的檢索、個性化信息檢索和知識檢索。
目特同上的信息資源不同于一般意義上的數(shù)據(jù)庫.除
數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、隨機的數(shù)據(jù)中,提取潛在有用的信息和知識的過程。數(shù)據(jù)挖掘源自人工智能的機器學習領域,是在一個已知狀態(tài)的數(shù)據(jù)集上。通過設定一定的學習算法.從數(shù)據(jù)集中獲取所需的知識。這些知識能夠用J‘倍皂管理、智能查詢、決策支持、過程控制叭及其他方面,
具有開放性、異構性和分布性等特點外.還具有半結(jié)構化、非結(jié)構化的動態(tài)關聯(lián)特性。網(wǎng)絡信息的特點央定了我們不能像對待靜態(tài)結(jié)構化的數(shù)據(jù)庫信息那樣來對待它。然而,當前的一些網(wǎng)絡信息搜索工具仍遵循了大型數(shù)據(jù)庫的信息
檢索思想.旦口對網(wǎng)貞的標題、URL等表征信息和沒有進行深
數(shù)據(jù)挖掘的最初對象是一些大型的商業(yè)數(shù)據(jù)庫.岜通過描述數(shù)據(jù)、計算統(tǒng)計變量(比如平均值、均方差等),并將
這些變量用圖表直觀地表示出來,進而找出數(shù)據(jù)變量之間
的相關性,即發(fā)現(xiàn)知識,以提供解決問題的依據(jù)。隨著數(shù)據(jù)
挖掘技術在商業(yè)數(shù)據(jù)庫中的成功直用,它衛(wèi)被迅速移植到
度分析的關鍵詞進行標引,然后建立網(wǎng)絡信息的倒排文檔,
將它們簡單地聚合在一起。這種以數(shù)據(jù)庫信息處理方式組
電信、醫(yī)療保險等領域,因特網(wǎng)的出現(xiàn)為它提供丁一個更為
廣闊的用武空間。借用數(shù)據(jù)挖掘的原理來實現(xiàn)網(wǎng)絡數(shù)據(jù)的
織起來的信息源,在檢索中主要有3個弊端:一是同一關鍵詞檢索出來的信息“貌臺種離“;二是檢索結(jié)果中出現(xiàn)大量的冗余信息;三是因為信息用戶理解差異的存在,在使用某些檢索詞時根本就檢索不到任何信息。
基于內(nèi)容的檢索和個性化的信息檢索.都是建立在網(wǎng)絡信息內(nèi)容基礎之上的.真正的知識性,是兒對信息內(nèi)容的
深層挖掘中體現(xiàn)出來的。面對因特網(wǎng)上源源生成的信息.
探層挖掘.發(fā)現(xiàn)并組織網(wǎng)絡知識,是將網(wǎng)絡信息檢索技術推
向智能化高度的有救手段。
1
2網(wǎng)絡數(shù)據(jù)挖l模型設計
網(wǎng)絡數(shù)據(jù)有小同于一般數(shù)據(jù)庫中數(shù)據(jù)的特點:異構和
半結(jié)構化。因特網(wǎng)上的每一個站點都是一個數(shù)據(jù)源.每一
個數(shù)據(jù)根都有自己的設計風格,即每個站點的信息和組織
都不一樣,用特網(wǎng)就是一個巨大的異構數(shù)據(jù)庫.不刪于傳統(tǒng)的關系數(shù)據(jù)庫。因特同上的數(shù)據(jù)非常復雜,沒有統(tǒng)
的模
我1『】需要 種太批量、深人內(nèi)容的信息處理技術,使其按照內(nèi)容特性聚集.并體現(xiàn)一定的知識性。將最初面向數(shù)據(jù)庫的數(shù)據(jù)挖掘技術引入到崮特網(wǎng)中,是解決問題的關鍵。
型描述,這些數(shù)據(jù)雖有定的結(jié)構性,但網(wǎng)自述層次的存在
和復雜的相互關聯(lián),因而是一種非完全結(jié)構化的數(shù)據(jù)。鑒
于網(wǎng)絡數(shù)據(jù)的這些特點,我們在將數(shù)據(jù)挖掘技術引^因特
1面目目特目的數(shù)據(jù)挖掘
1
網(wǎng)的時候,必須要做定的預處理工作,在此基礎上的網(wǎng)
1數(shù)據(jù)挖撮的棚關韌識
絡數(shù)據(jù)挖掘模型如圖1所示。
*
本文系國家杜科基金資助項目(編號:0IBTQ011)的研究論文。
萬方數(shù)據(jù)
49
本文關鍵詞:智能檢索中的網(wǎng)絡數(shù)據(jù)挖掘技術探索,由筆耕文化傳播整理發(fā)布。
本文編號:150405
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/150405.html