智能搜索引擎信息過濾機(jī)制研究
本文關(guān)鍵詞:智能搜索引擎信息過濾機(jī)制研究,由筆耕文化傳播整理發(fā)布。
選填,簡(jiǎn)要介紹文檔的主要內(nèi)容,方便文檔被更多人瀏覽和下載。
圖書與情報(bào)
學(xué)術(shù)方陣
2007年第4期
智能搜索引擎信息過濾機(jī)制研究
張摘
帆
林
建(華中師范大學(xué)信息管理系
湖北武漢
430079)
要:智能搜索引擎是人工智能技術(shù)和傳統(tǒng)搜索引擎技術(shù)相結(jié)合的產(chǎn)物。面對(duì)信息無時(shí)無刻不在進(jìn)行更替的網(wǎng)絡(luò)環(huán)境,智能搜索引擎具有
自然語言過濾智能化、多文檔處理智能化、用戶服務(wù)智能化等信息處理機(jī)制。為促進(jìn)智能搜索引擎發(fā)展,應(yīng)重視用戶建模技術(shù)研究,加強(qiáng)基于多
Agent智能搜索引擎系統(tǒng)的研制與實(shí)踐,加大智能搜索引擎關(guān)鍵技術(shù)研究力度。
關(guān)鍵詞:智能搜索引擎中圖分類號(hào):TP391.3
信息過濾自然語言理解人工智能
文章編號(hào):1003-6938(2007)04-0052-05
文獻(xiàn)標(biāo)識(shí)碼:A
ResearchonFilteringMechanisminIntelligentSearchEngine
ZhangFan
LinJian(DepartmentofInformationManagement,HuaZhongNormalUniversity,Wuhan,,Hubei,430079)
Abstract:Intelligentsearchengineisaproductthatcombinesthetraditionalsearchenginetechnologyandartificialintelligencetechnology.Facingtheincessantlyinformationchangingofenvironmentalnetwork,theintelligentsearchenginecansolvetheproblembythemechanismthatintelligentfiltersofnaturallanguage,intelligentmulti-documentprocessingandintelligentcustomerservices.Topromotethedevelopmentofintelligentsearchengines,weshouldpaymoreattentiononusermodelingtechnology,enhancesearchengineresearchbasedonMulti-AgentSystemandpracticeintensifiedresearchinkeytechnologiesofsmartsearchengine.Keywords:intelligentsearchengine;informationfiltering;naturallanguageunderstanding;artificialintelligenceCLCnumber:TP391.3
Documentcode:A
(2007)04-0052-05ArticleID:1003-6938
20世紀(jì)80年代以來,國(guó)內(nèi)外種類繁多的搜索引擎,如
攔Google、Altavista、Sohu等在為用戶提供瀏覽和查詢信息、截與過濾不良信息和無用信息方面起到了一定的作用,成為廣大網(wǎng)絡(luò)用戶獲取網(wǎng)絡(luò)信息的首選工具。但是,隨著網(wǎng)絡(luò)信息的爆炸性增長(zhǎng)及用戶信息需求的個(gè)性化發(fā)展,搜索引擎簡(jiǎn)單的過濾網(wǎng)絡(luò)信息狀況已難以滿足用戶精確查詢信息的需要。百度、天網(wǎng)三大中文搜索引擎杜亞軍等人曾對(duì)Google中文、
的智能性進(jìn)行過測(cè)試,[1]測(cè)試結(jié)果表明,基于關(guān)鍵詞的搜索引擎在“容錯(cuò)性”(用戶檢索結(jié)果集與其真正需要的匹配程度)、“適語性”(查詢的結(jié)果與查詢概念書面用語的耦合程度)及“個(gè)性化”(針對(duì)不同用戶提供針對(duì)性信息)等方面的智能較差,并指明上述三個(gè)引擎均未能滿足及要“適應(yīng)性”“個(gè)別性”求,惟有百度對(duì)用戶的誤輸入有一定的辨別能力。
由此可見,傳統(tǒng)的基于Web搜索引擎雖然在索引庫(kù)構(gòu)建上不完全一致,但其缺陷大致相同。其一,查詢效率低下,主要體現(xiàn)在和兩個(gè)方面。筆者最近做了一“大海撈針”“資源漏檢”個(gè)簡(jiǎn)單的實(shí)驗(yàn),利用Google引擎查詢有關(guān)的研究信“基因”息,點(diǎn)擊后系統(tǒng)反饋有25,100,000個(gè)網(wǎng)頁。假設(shè)一秒鐘瀏覽一個(gè)網(wǎng)頁,則需要6962個(gè)小時(shí)查閱完這些結(jié)果信息。在網(wǎng)絡(luò)信息爆炸性增長(zhǎng)的今天,不可能有用戶會(huì)花費(fèi)這么多的時(shí)間與精力來瀏覽搜索到的每一個(gè)網(wǎng)頁,何況大部分網(wǎng)頁內(nèi)容和查詢意圖并不相關(guān),因此,要獲得真正需要的信息宛如大海撈針。是指?jìng)鹘y(tǒng)搜索引擎由于不能理解和聯(lián)想用戶“資源漏檢”的檢索需要而致使信息丟失的現(xiàn)象。筆者使用一詞進(jìn)“紅薯”行檢索時(shí),雖然獲得了數(shù)量巨大的結(jié)果網(wǎng)頁,但是仍然丟失了以白薯、地瓜、紅苕、番薯等同義概念和近意概念為標(biāo)引詞的
基金項(xiàng)目:本文系國(guó)家社科基金項(xiàng)目(06BTQ024)研究成果之一。收稿日期:2006-12-29;責(zé)任編輯:王景發(fā)
52
本文關(guān)鍵詞:智能搜索引擎信息過濾機(jī)制研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):60305
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/60305.html