一種提高中文搜索引擎檢索質(zhì)量的HTML解析方法
發(fā)布時間:2018-07-03 02:25
本文選題:計(jì)算機(jī)應(yīng)用 + 中文信息處理 ; 參考:《中文信息學(xué)報(bào)》2003年04期
【摘要】:中文搜索引擎經(jīng)常會返回大量的無關(guān)項(xiàng)或者不含具體信息的間接項(xiàng) ,產(chǎn)生這類問題的一個原因是網(wǎng)頁中存在著大量與主題無關(guān)的文字。對使用關(guān)鍵字檢索方法的搜索引擎來說 ,想在檢索或者后處理階段解決這類問題不僅要付出一定代價(jià) ,而且在大多數(shù)情況下是不可能的。在這篇論文中 ,我們提出了網(wǎng)頁噪聲的概念 ,并針對中文網(wǎng)頁的特點(diǎn) ,實(shí)現(xiàn)了一種對網(wǎng)頁自動分塊并去噪的HTML解析方法 ,從而達(dá)到在預(yù)處理階段消除潛在無關(guān)項(xiàng)和間接項(xiàng)的目的。實(shí)驗(yàn)結(jié)果表明 ,該方法能夠在不占用查詢時間的前提下 10 0 %地消除中文搜索引擎隱藏的間接項(xiàng) ,以及大約 11%的無法過濾或隱藏的無關(guān)項(xiàng)或間接項(xiàng) ,從而大幅度提高檢索結(jié)果的查準(zhǔn)率。
[Abstract]:Chinese search engines often return a large number of irrelevant items or indirect items without specific information. One of the reasons for this problem is the existence of a large number of topic-independent text in web pages. For search engines using keyword retrieval methods, it is not only necessary to solve these problems in the retrieval or post-processing stage, but also impossible in most cases. In this paper, we put forward the concept of web page noise, and according to the characteristics of Chinese web pages, we implement an HTML parsing method, which can automatically divide and de-noise the web pages. In order to eliminate the potential irrelevant term and indirect term in the preprocessing stage. The experimental results show that the proposed method can eliminate 100% hidden indirect items and about 11% irrelevant items or indirect items which can not be filtered or hidden by Chinese search engine without taking up query time. In order to greatly improve the accuracy of retrieval results.
【作者單位】: 清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系
【基金】:國家重點(diǎn)基礎(chǔ)研究資助項(xiàng)目 (973) (G19980 30 5 0 9) 自然科學(xué)基金資助項(xiàng)目 (6 0 2 2 30 0 4 ) 86 3高科技資助項(xiàng)目 (2 0 0 1AA114 0 82 )
【分類號】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前5條
1 劉超,許志宏,楊章遠(yuǎn);利用Java 2實(shí)現(xiàn)綜合Web站點(diǎn)管理系統(tǒng)[J];計(jì)算機(jī)應(yīng)用;2001年12期
2 宋睿華,馬少平,陳剛,李景陽;一種提高中文搜索引擎檢索質(zhì)量的HTML解析方法[J];中文信息學(xué)報(bào);2003年04期
3 陳艷梅,張斌;HTML到XML轉(zhuǎn)換技術(shù)的研究與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2003年05期
4 孫先虎,張曦煌;基于LINUX的嵌入式瀏覽器的特點(diǎn)和實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2004年07期
5 包宇寧;使用Java編程解析HTML文檔[J];福建電腦;2004年09期
,本文編號:2091971
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2091971.html
最近更新
教材專著