天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 信息工程論文 >

智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索

發(fā)布時間:2016-10-23 12:10

  本文關(guān)鍵詞:智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索,由筆耕文化傳播整理發(fā)布。


智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索

中國圖書館學報(雙月刊)2002年第3期

Z]}刪GGI,,O

TUSHUGUANXUEBAO

●晏創(chuàng)業(yè)張玉峰

智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索

摘妻缺少一種深^信息內(nèi)容的網(wǎng)絡(luò)信息搜索工肄。是實現(xiàn)智能鹼索的主要圍難。采用阿絡(luò)數(shù)據(jù)挖掘技術(shù)是解奐問題的關(guān)鍵。從智能信息檢索的角度出發(fā),豐?紤]從網(wǎng)絡(luò)信息內(nèi)容的戈聯(lián)度來挖掘網(wǎng)絡(luò)數(shù)據(jù)。圖1.表1。參考義獻7。關(guān)鍵詞智能檢索

分類號G2527

剛絡(luò)信息檢索數(shù)據(jù)挖捌

AI&C;TRACT

Theauthorsthlnkthatthemajordifile山v

in

realuing

intdligcaatsearchisthelackd

to

networkinformationsearchtoalreachinginformationcontesats,andthekeynetworkdataminingtechniquestheminingof

solvetheproblemisthe

COHIeHts

They如discuss

flg

ltab

7refs

therelevanccofnetworkinformationfor

network

datal

KEYWORDS

Intelligentsearch

G2527

Networkinformationsearch

Data

mining

CI』ASSNUMliER

智能檢索能幫助人{『J在開發(fā)網(wǎng)絡(luò)信息資源時馓到“取其精華.去其糟粕”。它能擺脫表層信息的下擾,從信息內(nèi)容的角度出發(fā),搜索出高質(zhì)量的信息。目前,人們對信息檢

索過程中的智能化要求主要體現(xiàn)在基于內(nèi)容的檢索、個性化信息檢索和知識檢索。

目特同上的信息資源不同于一般意義上的數(shù)據(jù)庫.除

數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、隨機的數(shù)據(jù)中,提取潛在有用的信息和知識的過程。數(shù)據(jù)挖掘源自人工智能的機器學習領(lǐng)域,是在一個已知狀態(tài)的數(shù)據(jù)集上。通過設(shè)定一定的學習算法.從數(shù)據(jù)集中獲取所需的知識。這些知識能夠用J‘倍皂管理、智能查詢、決策支持、過程控制叭及其他方面,

具有開放性、異構(gòu)性和分布性等特點外.還具有半結(jié)構(gòu)化、非結(jié)構(gòu)化的動態(tài)關(guān)聯(lián)特性。網(wǎng)絡(luò)信息的特點央定了我們不能像對待靜態(tài)結(jié)構(gòu)化的數(shù)據(jù)庫信息那樣來對待它。然而,當前的一些網(wǎng)絡(luò)信息搜索工具仍遵循了大型數(shù)據(jù)庫的信息

檢索思想.旦口對網(wǎng)貞的標題、URL等表征信息和沒有進行深

數(shù)據(jù)挖掘的最初對象是一些大型的商業(yè)數(shù)據(jù)庫.岜通過描述數(shù)據(jù)、計算統(tǒng)計變量(比如平均值、均方差等),并將

這些變量用圖表直觀地表示出來,進而找出數(shù)據(jù)變量之間

的相關(guān)性,即發(fā)現(xiàn)知識,以提供解決問題的依據(jù)。隨著數(shù)據(jù)

挖掘技術(shù)在商業(yè)數(shù)據(jù)庫中的成功直用,它衛(wèi)被迅速移植到

度分析的關(guān)鍵詞進行標引,然后建立網(wǎng)絡(luò)信息的倒排文檔,

將它們簡單地聚合在一起。這種以數(shù)據(jù)庫信息處理方式組

電信、醫(yī)療保險等領(lǐng)域,因特網(wǎng)的出現(xiàn)為它提供丁一個更為

廣闊的用武空間。借用數(shù)據(jù)挖掘的原理來實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的

織起來的信息源,在檢索中主要有3個弊端:一是同一關(guān)鍵詞檢索出來的信息“貌臺種離“;二是檢索結(jié)果中出現(xiàn)大量的冗余信息;三是因為信息用戶理解差異的存在,在使用某些檢索詞時根本就檢索不到任何信息。

基于內(nèi)容的檢索和個性化的信息檢索.都是建立在網(wǎng)絡(luò)信息內(nèi)容基礎(chǔ)之上的.真正的知識性,是兒對信息內(nèi)容的

深層挖掘中體現(xiàn)出來的。面對因特網(wǎng)上源源生成的信息.

探層挖掘.發(fā)現(xiàn)并組織網(wǎng)絡(luò)知識,是將網(wǎng)絡(luò)信息檢索技術(shù)推

向智能化高度的有救手段。

2網(wǎng)絡(luò)數(shù)據(jù)挖l模型設(shè)計

網(wǎng)絡(luò)數(shù)據(jù)有小同于一般數(shù)據(jù)庫中數(shù)據(jù)的特點:異構(gòu)和

半結(jié)構(gòu)化。因特網(wǎng)上的每一個站點都是一個數(shù)據(jù)源.每一

個數(shù)據(jù)根都有自己的設(shè)計風格,即每個站點的信息和組織

都不一樣,用特網(wǎng)就是一個巨大的異構(gòu)數(shù)據(jù)庫.不刪于傳統(tǒng)的關(guān)系數(shù)據(jù)庫。因特同上的數(shù)據(jù)非常復雜,沒有統(tǒng)

的模

我1『】需要 種太批量、深人內(nèi)容的信息處理技術(shù),使其按照內(nèi)容特性聚集.并體現(xiàn)一定的知識性。將最初面向數(shù)據(jù)庫的數(shù)據(jù)挖掘技術(shù)引入到崮特網(wǎng)中,是解決問題的關(guān)鍵。

型描述,這些數(shù)據(jù)雖有定的結(jié)構(gòu)性,但網(wǎng)自述層次的存在

和復雜的相互關(guān)聯(lián),因而是一種非完全結(jié)構(gòu)化的數(shù)據(jù)。鑒

于網(wǎng)絡(luò)數(shù)據(jù)的這些特點,我們在將數(shù)據(jù)挖掘技術(shù)引^因特

1面目目特目的數(shù)據(jù)挖掘

網(wǎng)的時候,必須要做定的預處理工作,在此基礎(chǔ)上的網(wǎng)

1數(shù)據(jù)挖撮的棚關(guān)韌識

絡(luò)數(shù)據(jù)挖掘模型如圖1所示。

本文系國家杜科基金資助項目(編號:0IBTQ011)的研究論文。

萬方數(shù)據(jù) 

49


  本文關(guān)鍵詞:智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索,由筆耕文化傳播整理發(fā)布。



本文編號:150405

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/150405.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶48427***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com