天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于HTML的WEB就業(yè)信息抽取技術(shù)研究

發(fā)布時間:2024-02-23 18:02
  隨著計(jì)算機(jī)的普及和互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)已成為人們查找信息的重要渠道。Web作為巨大的數(shù)據(jù)源,從Web中抽取信息是當(dāng)前信息研究的熱點(diǎn)之一。 隨著我國高校招生規(guī)模逐年擴(kuò)大,給高校學(xué)生的培養(yǎng)及就業(yè)帶來了諸多壓力。我們希望從互聯(lián)網(wǎng)上獲得大量的就業(yè)信息,對專業(yè)建設(shè)和就業(yè)有一定的指導(dǎo)意義;ヂ(lián)網(wǎng)的這些海量信息中,大多都是半結(jié)構(gòu)化的HTML格式。HTML結(jié)構(gòu)的文本并不嚴(yán)格,語義也不清晰,人們無法快速準(zhǔn)確地找到需要的信息,所以如何快速準(zhǔn)確地獲取這些數(shù)據(jù)是亟待解決的問題。 因此,我們分析了就業(yè)信息網(wǎng)站中HTML網(wǎng)頁的特點(diǎn),提出一種新的基于HTML結(jié)構(gòu)的Web就業(yè)信息抽取模型。該模型由HTML結(jié)構(gòu)預(yù)處理模塊、表格定位模塊和信息抽取模塊三個模塊組成。 首先我們利用JTidy對獲取的Web頁代碼進(jìn)行清洗并轉(zhuǎn)化為XML文檔。再經(jīng)過XML解析獲取Web頁的DOM樹。最后通過大量的觀察,我們形成啟發(fā)規(guī)則來定位“真”表格,設(shè)計(jì)實(shí)現(xiàn)了算法;考慮到表格的跨多行、跨多列的布局會導(dǎo)致各個數(shù)據(jù)單元和相應(yīng)屬性無法一一對應(yīng),本文對表格進(jìn)行標(biāo)準(zhǔn)化處理,使每一行或列都具有相同數(shù)目對齊的單元格。 在多個網(wǎng)站進(jìn)行實(shí)驗(yàn)的結(jié)果表明,本文提出的W...

【文章頁數(shù)】:73 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖3-1趕集網(wǎng)樣本頁上圖中被紅色圈中的區(qū)域集中發(fā)布大量就業(yè)信息,對應(yīng)的網(wǎng)頁源代碼中還有

圖3-1趕集網(wǎng)樣本頁上圖中被紅色圈中的區(qū)域集中發(fā)布大量就業(yè)信息,對應(yīng)的網(wǎng)頁源代碼中還有

圖3-1趕集網(wǎng)樣本頁上圖中被紅色圈中的區(qū)域集中發(fā)布大量就業(yè)信息,對應(yīng)的網(wǎng)頁源代碼中還有每條信息對應(yīng)的超鏈接內(nèi)容,我們研究的目的就是在這樣的頁面中抽取出這部分信息,并設(shè)計(jì)一定結(jié)構(gòu)將抽取到的信息保存起來以便查詢和利用。通過對大量的大型就業(yè)信息發(fā)布的網(wǎng)站進(jìn)行對比研究,發(fā)現(xiàn)它們的結(jié)構(gòu)....


圖3-2HTML代碼段顯示效果

圖3-2HTML代碼段顯示效果

<TD>6000</TD><TD>5500</TD><TD>創(chuàng)維</TD><TD>130</TD></TR><TR><TD>洗衣機(jī)</TD><TD>3000</TD><TD>2800</TD><TD>小天鵝</TD><TD>212</TD></TR>ABLE>HTML代碼在網(wǎng)....


圖4-3頁面對應(yīng)的HTML文檔源碼片斷在圖4-3中,我們發(fā)現(xiàn)樣本頁的源代碼中含有大量的SCRIPT腳本信息,CSS

圖4-3頁面對應(yīng)的HTML文檔源碼片斷在圖4-3中,我們發(fā)現(xiàn)樣本頁的源代碼中含有大量的SCRIPT腳本信息,CSS

37圖4-3頁面對應(yīng)的HTML文檔源碼片斷在圖4-3中,我們發(fā)現(xiàn)樣本頁的源代碼中含有大量的SCRIPT腳本信息,CSS式信息等。這些無用的信息對我們從中抽取用戶需求的信息帶來不小的干擾。


圖4-2樣本網(wǎng)頁截圖

圖4-2樣本網(wǎng)頁截圖

圖4-2樣本網(wǎng)頁截圖圖4-2頁面對應(yīng)的HTML文檔源碼片斷如圖4-3所示:



本文編號:3907750

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3907750.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶91e1c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com