搜索引擎去重算法的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:搜索引擎去重算法的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
搜索引擎
搜索引擎去重算法的研究與實(shí)現(xiàn)
一.什么是無效信息
搜索引擎作為一項(xiàng)網(wǎng)絡(luò)應(yīng)用,已經(jīng)成為人們查詢信息的重要工具之一,它可以使人們從Intemet大量紛雜的信息中,找到與主題相關(guān)的信息,為人們查詢信息提供了方便。但是由于中文自身的特點(diǎn),目前的搜索引擎存在著很多的問題,它只解決了信息查詢的問題,而從信息資源覆蓋面、檢索精度、信息的輸出方式等許多方面來看,檢索結(jié)果的查全率和查準(zhǔn)率不是很高,將Web挖掘技術(shù)應(yīng)用到搜索引擎領(lǐng)域,將會給用戶提供一個高效、準(zhǔn)確的Web檢索工具。目前,Web用戶主要是使用搜索引擎在互聯(lián)網(wǎng)上檢索信息,但目前的搜索引擎往往返回給用戶成千上萬個檢索到的頁面,且其中很大一部分是重復(fù)的或與用戶檢索要求不相關(guān)的內(nèi)容。這些內(nèi)容被認(rèn)為是無效信息。
二.搜索引擎的分類
結(jié)合互聯(lián)網(wǎng)信息的特點(diǎn),搜索引擎形成了三個不同的類型:
1、全文檢索搜索引擎:全文搜索引擎是名副其實(shí)的搜索引擎,國外具代表 性的有Google(http://www.google.com)、yahoo(http://search.yahoo.tom)、AllTheWeb(http://www.a(chǎn)lltheweb.tom)等, 國內(nèi)著名的有百度(http://www.Baidu.com)、中搜(http://www.zhongsou.com)。它們都是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,也是目前常規(guī)意義上的搜索引擎。
2、目錄搜索引擎:目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網(wǎng)站鏈接列表而己。用戶完全可以不用進(jìn)行關(guān)鍵分類目錄也可找到需要的信息。國外比較著名的目錄索引搜索引擎有yahoo(http://www.yahoo.com)Open Directory Project(DMOZ)(http://www.dmoz.tom/)、LookSmart(http://www.100ksmart.com)等。國內(nèi)的搜狐(http://www.sohu.com)、新浪(http://www.sina.com)、網(wǎng)易(http://www.163.com)搜索也都具有這一類功能。
3、元搜索引擎:元搜索引擎在接受用戶查詢請求時,同時在其它多個引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有Dogpile(http://www.dogpile.corn)、Vivisimo(http://www.vivisimo.com)等,國內(nèi)元搜索引擎中具代表性的有搜星搜索引擎(http://www.soseen.corn/),優(yōu)客搜索(http://www.yok.com)。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。
4、其他的像新浪(http://search.sina.corn.cn)、網(wǎng)易(http://search.163.com)、A9(http://www.A9.com)等搜索引擎都是調(diào)用其它全文檢索搜索引擎,或者在其搜索結(jié)果的基礎(chǔ)上做了二次開發(fā)。
三.搜索引擎的缺陷
據(jù)MORI民意調(diào)查,只有18%的用戶表示總能在網(wǎng)上查到需要的信息,68% 的用戶對搜索引擎很失望,28%的用戶表示還可以,4%的用戶不知道?傊, 搜索引擎在準(zhǔn)、全、新、快等方面還存在著嚴(yán)重的缺陷和問題,需要加以完善。
本文關(guān)鍵詞:搜索引擎去重算法的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:166244
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/166244.html