當(dāng)前位置：主頁(yè) > 文藝論文 > 廣告藝術(shù)論文 >

Web文檔清洗系統(tǒng)中HTML解析器的開(kāi)發(fā)

發(fā)布時(shí)間：2018-03-23 17:33

本文選題：HTML解析器　切入點(diǎn)：詞法器　出處：《計(jì)算機(jī)應(yīng)用研究》2002年02期

【摘要】：對(duì)于組建一個(gè)面向Web的信息系統(tǒng)來(lái)說(shuō) ,去除掉腳本、廣告鏈接以及導(dǎo)航鏈接等無(wú)用數(shù)據(jù) ,將提高信息存儲(chǔ)和檢索的效率 ;同時(shí) ,基于語(yǔ)義對(duì)Web文檔進(jìn)行合并和分割也會(huì)有助于信息的管理 ,這些都是Web文檔清洗系統(tǒng)的任務(wù)。在Web文檔清洗中 ,無(wú)論是脫機(jī)的規(guī)則學(xué)習(xí)還是聯(lián)機(jī)的文檔清洗 ,都需要建立在對(duì)Web文檔的結(jié)構(gòu)和內(nèi)容進(jìn)行分析的基礎(chǔ)之上。從HTML解析的一般概念入手 ,結(jié)合Web文檔清洗系統(tǒng)的需求 ,描述了一個(gè)自主開(kāi)發(fā)的HTML解析器的結(jié)構(gòu) ,并對(duì)其組成部分 :詞典、詞法分析器和語(yǔ)法分析器的設(shè)計(jì)作了詳細(xì)的討論
[Abstract]:For building an Web oriented information system, removing useless data such as scripts, advertising links, and navigation links will improve the efficiency of information storage and retrieval; at the same time, Merging and splitting Web documents based on semantics will also help to manage information, which is the task of Web document cleaning system. In Web document cleaning, whether offline rule learning or online document cleaning, It is necessary to base on the analysis of the structure and content of Web document. Starting with the general concept of HTML parsing and combining with the requirements of Web document cleaning system, this paper describes the structure of a self-developed HTML parser. The design of dictionary, lexical analyzer and parser is discussed in detail.
【作者單位】：南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室
【基金】：國(guó)家自然科學(xué)基金資助項(xiàng)目 (60 0 73 0 3 0 ) 國(guó)家教育部“現(xiàn)代遠(yuǎn)程教育關(guān)鍵技術(shù)研究重點(diǎn)項(xiàng)目” 日本富士通研究所“Web文檔清洗技術(shù)研究”資助項(xiàng)目
【分類號(hào)】：TP393.092

【共引文獻(xiàn)】

相關(guān)期刊論文前6條

1 孫冀俠,遲呈英,李迎春;LR(1)語(yǔ)法分析的自動(dòng)構(gòu)造[J];鞍山科技大學(xué)學(xué)報(bào);2003年02期

2 榮國(guó)平,蔡志e，

本文編號(hào)：1654471

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1654471.html

上一篇：國(guó)際學(xué)校信息技術(shù)與計(jì)算機(jī)科學(xué)課程的教學(xué)方法研究
下一篇：淺議圖書(shū)裝幀設(shè)計(jì)中的廣告意識(shí)

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Web文檔清洗系統(tǒng)中HTML解析器的開(kāi)發(fā)