基于HTML的WEB就業(yè)信息抽取技術(shù)研究
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-1趕集網(wǎng)樣本頁上圖中被紅色圈中的區(qū)域集中發(fā)布大量就業(yè)信息,對應(yīng)的網(wǎng)頁源代碼中還有
圖3-1趕集網(wǎng)樣本頁上圖中被紅色圈中的區(qū)域集中發(fā)布大量就業(yè)信息,對應(yīng)的網(wǎng)頁源代碼中還有每條信息對應(yīng)的超鏈接內(nèi)容,我們研究的目的就是在這樣的頁面中抽取出這部分信息,并設(shè)計(jì)一定結(jié)構(gòu)將抽取到的信息保存起來以便查詢和利用。通過對大量的大型就業(yè)信息發(fā)布的網(wǎng)站進(jìn)行對比研究,發(fā)現(xiàn)它們的結(jié)構(gòu)....
圖3-2HTML代碼段顯示效果
<TD>6000</TD><TD>5500</TD><TD>創(chuàng)維</TD><TD>130</TD></TR><TR><TD>洗衣機(jī)</TD><TD>3000</TD><TD>2800</TD><TD>小天鵝</TD><TD>212</TD></TR>ABLE>HTML代碼在網(wǎng)....
圖4-3頁面對應(yīng)的HTML文檔源碼片斷在圖4-3中,我們發(fā)現(xiàn)樣本頁的源代碼中含有大量的SCRIPT腳本信息,CSS
37圖4-3頁面對應(yīng)的HTML文檔源碼片斷在圖4-3中,我們發(fā)現(xiàn)樣本頁的源代碼中含有大量的SCRIPT腳本信息,CSS式信息等。這些無用的信息對我們從中抽取用戶需求的信息帶來不小的干擾。
圖4-2樣本網(wǎng)頁截圖
圖4-2樣本網(wǎng)頁截圖圖4-2頁面對應(yīng)的HTML文檔源碼片斷如圖4-3所示:
本文編號:3907750
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3907750.html