當(dāng)前位置：主頁(yè) > 管理論文 > 移動(dòng)網(wǎng)絡(luò)論文 >

基于HTML的WEB就業(yè)信息抽取技術(shù)研究

發(fā)布時(shí)間：2024-02-23 18:02

　　隨著計(jì)算機(jī)的普及和互聯(lián)網(wǎng)的發(fā)展，網(wǎng)絡(luò)已成為人們查找信息的重要渠道。Web作為巨大的數(shù)據(jù)源，從Web中抽取信息是當(dāng)前信息研究的熱點(diǎn)之一。隨著我國(guó)高校招生規(guī)模逐年擴(kuò)大，給高校學(xué)生的培養(yǎng)及就業(yè)帶來(lái)了諸多壓力。我們希望從互聯(lián)網(wǎng)上獲得大量的就業(yè)信息，對(duì)專業(yè)建設(shè)和就業(yè)有一定的指導(dǎo)意義。互聯(lián)網(wǎng)的這些海量信息中，大多都是半結(jié)構(gòu)化的HTML格式。HTML結(jié)構(gòu)的文本并不嚴(yán)格，語(yǔ)義也不清晰，人們無(wú)法快速準(zhǔn)確地找到需要的信息，所以如何快速準(zhǔn)確地獲取這些數(shù)據(jù)是亟待解決的問(wèn)題。因此，我們分析了就業(yè)信息網(wǎng)站中HTML網(wǎng)頁(yè)的特點(diǎn)，提出一種新的基于HTML結(jié)構(gòu)的Web就業(yè)信息抽取模型。該模型由HTML結(jié)構(gòu)預(yù)處理模塊、表格定位模塊和信息抽取模塊三個(gè)模塊組成。首先我們利用JTidy對(duì)獲取的Web頁(yè)代碼進(jìn)行清洗并轉(zhuǎn)化為XML文檔。再經(jīng)過(guò)XML解析獲取Web頁(yè)的DOM樹(shù)。最后通過(guò)大量的觀察，我們形成啟發(fā)規(guī)則來(lái)定位“真”表格，設(shè)計(jì)實(shí)現(xiàn)了算法；考慮到表格的跨多行、跨多列的布局會(huì)導(dǎo)致各個(gè)數(shù)據(jù)單元和相應(yīng)屬性無(wú)法一一對(duì)應(yīng)，本文對(duì)表格進(jìn)行標(biāo)準(zhǔn)化處理，使每一行或列都具有相同數(shù)目對(duì)齊的單元格。在多個(gè)網(wǎng)站進(jìn)行實(shí)驗(yàn)的結(jié)果表明，本文提出的W...

【文章頁(yè)數(shù)】：73 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

圖3-1趕集網(wǎng)樣本頁(yè)上圖中被紅色圈中的區(qū)域集中發(fā)布大量就業(yè)信息，對(duì)應(yīng)的網(wǎng)頁(yè)源代碼中還有

圖3-1趕集網(wǎng)樣本頁(yè)上圖中被紅色圈中的區(qū)域集中發(fā)布大量就業(yè)信息，對(duì)應(yīng)的網(wǎng)頁(yè)源代碼中還有每條信息對(duì)應(yīng)的超鏈接內(nèi)容，我們研究的目的就是在這樣的頁(yè)面中抽取出這部分信息，并設(shè)計(jì)一定結(jié)構(gòu)將抽取到的信息保存起來(lái)以便查詢和利用。通過(guò)對(duì)大量的大型就業(yè)信息發(fā)布的網(wǎng)站進(jìn)行對(duì)比研究，發(fā)現(xiàn)它們的結(jié)構(gòu)....

圖3-2HTML代碼段顯示效果

<TD>6000</TD><TD>5500</TD><TD>創(chuàng)維</TD><TD>130</TD></TR><TR><TD>洗衣機(jī)</TD><TD>3000</TD><TD>2800</TD><TD>小天鵝</TD><TD>212</TD></TR>ABLE>HTML代碼在網(wǎng)....

圖4-3頁(yè)面對(duì)應(yīng)的HTML文檔源碼片斷在圖4-3中，我們發(fā)現(xiàn)樣本頁(yè)的源代碼中含有大量的SCRIPT腳本信息，CSS

37圖4-3頁(yè)面對(duì)應(yīng)的HTML文檔源碼片斷在圖4-3中，我們發(fā)現(xiàn)樣本頁(yè)的源代碼中含有大量的SCRIPT腳本信息，CSS式信息等。這些無(wú)用的信息對(duì)我們從中抽取用戶需求的信息帶來(lái)不小的干擾。

圖4-2樣本網(wǎng)頁(yè)截圖

圖4-2樣本網(wǎng)頁(yè)截圖圖4-2頁(yè)面對(duì)應(yīng)的HTML文檔源碼片斷如圖4-3所示：

本文編號(hào)：3907750

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/3907750.html

上一篇：基于SDN的能源互聯(lián)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)及控制域分配研究
下一篇：一種面向融合SD-WAN廣域網(wǎng)接入設(shè)計(jì)及其加速技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于HTML的WEB就業(yè)信息抽取技術(shù)研究