“天網(wǎng)”目錄導(dǎo)航服務(wù)研究
本文選題:搜索引擎 + 目錄導(dǎo)航 ; 參考:《計算機(jī)研究與發(fā)展》2004年04期
【摘要】:為了提高搜索引擎的查準(zhǔn)率 ,幫助用戶快速地定位其感興趣的網(wǎng)頁 ,研究了如何在Spider式搜索引擎“天網(wǎng)”系統(tǒng)中提供目錄導(dǎo)航服務(wù) 基本思想就是利用有指導(dǎo)的機(jī)器學(xué)習(xí)方法實現(xiàn)中文網(wǎng)頁的自動分類 主要貢獻(xiàn)有兩點 :①搜集并建立了一個面向中文網(wǎng)頁并且支持層次模型的大規(guī)模中文網(wǎng)頁數(shù)據(jù)集 ,這是實現(xiàn)中文網(wǎng)頁自動分類的前提和基礎(chǔ) ;②針對中文網(wǎng)頁信息的自身特性以及CHI方法的固有缺陷 ,提出一種自動清除“噪音”的特征選取算法 ,并實現(xiàn)了一個能夠處理海量中文網(wǎng)頁的分類器 實驗結(jié)果表明該分類器有較高的分類質(zhì)量 ,滿足了搜索引擎目錄導(dǎo)航服務(wù)的要求
[Abstract]:In order to improve the precision of the search engine and help users to quickly locate their interested web pages, the basic idea of how to provide directory navigation services in the Spider search engine "Skynet" system is the main contribution of the automatic classification of Chinese web pages by using a guided machine learning method. A large Chinese Web page data set is set up for Chinese web pages and supports the hierarchical model. This is the prerequisite and foundation for automatic classification of Chinese web pages. Secondly, a feature selection algorithm is proposed to automatically remove the "noise sound" for the self characteristics of the Chinese Web page information and the inherent defects of the CHI method. The classifier which can handle massive Chinese web pages shows that the classifier has higher classification quality and meets the requirements of search engine directory navigation service.
【作者單位】: 北京大學(xué)計算機(jī)科學(xué)技術(shù)系 北京大學(xué)計算機(jī)科學(xué)技術(shù)系 北京大學(xué)計算機(jī)科學(xué)技術(shù)系 北京大學(xué)計算機(jī)科學(xué)技術(shù)系 北京大學(xué)計算機(jī)科學(xué)技術(shù)系
【基金】:國家“九七三”重點基礎(chǔ)研究發(fā)展規(guī)化基金項目 (G19990 3 2 70 6)
【分類號】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 林繼成,姚和生;動態(tài)目錄導(dǎo)航頁的自動生成程序[J];計算機(jī)應(yīng)用;2001年S1期
2 陸宏弟;中國期刊網(wǎng)專題全文數(shù)據(jù)庫(CJN3.0)的檢索[J];現(xiàn)代圖書情報技術(shù);2002年S1期
3 杜文峰 ,劉艷艷;用Java Applet實現(xiàn)的樹型導(dǎo)航控件[J];電腦編程技巧與維護(hù);2002年02期
4 馮是聰,張志剛,李曉明;一種中文網(wǎng)頁自動分類方法的實現(xiàn)及應(yīng)用[J];計算機(jī)工程;2004年05期
5 馮是聰,單松巍,龔筆宏,張志剛,李曉明;“天網(wǎng)”目錄導(dǎo)航服務(wù)研究[J];計算機(jī)研究與發(fā)展;2004年04期
6 ;產(chǎn)品競答[J];個人電腦;2005年01期
7 放大鏡;春節(jié)前后最值得購買的MP3新品[J];電腦;2005年01期
8 盛玲玉;;國家農(nóng)業(yè)圖書館農(nóng)業(yè)古籍?dāng)?shù)據(jù)化的探討與實現(xiàn)[J];農(nóng)業(yè)圖書情報學(xué)刊;2005年12期
9 孫玉榮;;融合Tree View控制和Authorware框架結(jié)構(gòu)的導(dǎo)航技術(shù)研究[J];遠(yuǎn)程教育雜志;2006年04期
10 趙曉蕊;;淺論網(wǎng)絡(luò)檢索技巧[J];采.寫.編;2006年04期
相關(guān)重要報紙文章 前2條
1 楊陽;第三代搜索:Google們的新花樣年華[N];經(jīng)濟(jì)觀察報;2006年
2 楊陽;第三代搜索:Google們的新“花樣年華”[N];中華新聞報;2006年
相關(guān)碩士學(xué)位論文 前2條
1 陶正道;石化企業(yè)設(shè)備防腐保溫與管道管理信息系統(tǒng)的設(shè)計與實現(xiàn)[D];北京化工大學(xué);2001年
2 劉慧;多媒體華文教材設(shè)計的分析研究[D];暨南大學(xué);2006年
,本文編號:1782903
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1782903.html