Web文檔清洗系統(tǒng)中HTML解析器的開發(fā)
發(fā)布時間:2018-03-23 17:33
本文選題:HTML解析器 切入點:詞法器 出處:《計算機(jī)應(yīng)用研究》2002年02期
【摘要】:對于組建一個面向Web的信息系統(tǒng)來說 ,去除掉腳本、廣告鏈接以及導(dǎo)航鏈接等無用數(shù)據(jù) ,將提高信息存儲和檢索的效率 ;同時 ,基于語義對Web文檔進(jìn)行合并和分割也會有助于信息的管理 ,這些都是Web文檔清洗系統(tǒng)的任務(wù)。在Web文檔清洗中 ,無論是脫機(jī)的規(guī)則學(xué)習(xí)還是聯(lián)機(jī)的文檔清洗 ,都需要建立在對Web文檔的結(jié)構(gòu)和內(nèi)容進(jìn)行分析的基礎(chǔ)之上。從HTML解析的一般概念入手 ,結(jié)合Web文檔清洗系統(tǒng)的需求 ,描述了一個自主開發(fā)的HTML解析器的結(jié)構(gòu) ,并對其組成部分 :詞典、詞法分析器和語法分析器的設(shè)計作了詳細(xì)的討論
[Abstract]:For building an Web oriented information system, removing useless data such as scripts, advertising links, and navigation links will improve the efficiency of information storage and retrieval; at the same time, Merging and splitting Web documents based on semantics will also help to manage information, which is the task of Web document cleaning system. In Web document cleaning, whether offline rule learning or online document cleaning, It is necessary to base on the analysis of the structure and content of Web document. Starting with the general concept of HTML parsing and combining with the requirements of Web document cleaning system, this paper describes the structure of a self-developed HTML parser. The design of dictionary, lexical analyzer and parser is discussed in detail.
【作者單位】: 南京大學(xué)計算機(jī)科學(xué)與技術(shù)系 南京大學(xué)計算機(jī)軟件新技術(shù)國家重點實驗室
【基金】:國家自然科學(xué)基金資助項目 (60 0 73 0 3 0 ) 國家教育部“現(xiàn)代遠(yuǎn)程教育關(guān)鍵技術(shù)研究重點項目” 日本富士通研究所“Web文檔清洗技術(shù)研究”資助項目
【分類號】:TP393.092
【共引文獻(xiàn)】
相關(guān)期刊論文 前6條
1 孫冀俠,遲呈英,李迎春;LR(1)語法分析的自動構(gòu)造[J];鞍山科技大學(xué)學(xué)報;2003年02期
2 榮國平,蔡志e,
本文編號:1654471
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1654471.html
最近更新
教材專著