天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于區(qū)域塊密度的網(wǎng)頁信息抽取技術(shù)在移動(dòng)網(wǎng)站開發(fā)中的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-11-17 12:50
   隨著移動(dòng)通信技術(shù)的高速發(fā)展,移動(dòng)智能設(shè)備的普及率越來越高,使用移動(dòng)設(shè)備訪問網(wǎng)站的比例也逐步提高,人們迫切的需要使用移動(dòng)設(shè)備隨時(shí)隨地的獲取互聯(lián)網(wǎng)資源。不過移動(dòng)設(shè)備的屏幕尺寸、硬件性能等與普通電腦存在很大差異,并且移動(dòng)設(shè)備用戶的使用場景與傳統(tǒng)互聯(lián)網(wǎng)用戶間的差別也很大,傳統(tǒng)意義上的網(wǎng)站設(shè)計(jì)并不能很好的滿足移動(dòng)場景下用戶的使用需求。同時(shí)移動(dòng)設(shè)備碎片化的特點(diǎn)非常明顯,這對移動(dòng)網(wǎng)站的設(shè)計(jì)和開發(fā)都帶來了很大的挑戰(zhàn)。 針對以上問題,本文對基于內(nèi)容轉(zhuǎn)換策略的移動(dòng)網(wǎng)站開發(fā)方法進(jìn)行了研究,提出了一種基于區(qū)域塊密度的網(wǎng)頁信息抽取技術(shù),并以此為基礎(chǔ),實(shí)現(xiàn)了基于代理服務(wù)器策略的移動(dòng)網(wǎng)站開發(fā)平臺。該平臺能夠在較少人工干預(yù)的情況下根據(jù)網(wǎng)頁類型的不同,選擇對應(yīng)規(guī)則實(shí)現(xiàn)網(wǎng)頁信息的抽取,能夠最大程度發(fā)揮移動(dòng)端隨時(shí)隨地的特性,將原有業(yè)務(wù)系統(tǒng)與移動(dòng)終端對接與融合,從而實(shí)現(xiàn)將PC端網(wǎng)站穩(wěn)定快速的向移動(dòng)終端擴(kuò)展。本文具體的研究內(nèi)容如下: 1)論文從研究移動(dòng)網(wǎng)站開發(fā)的現(xiàn)狀開始,通過對現(xiàn)有網(wǎng)頁信息抽取技術(shù)的綜合比較,建立了網(wǎng)頁信息抽取過程的流程模型。 2)通過對正文抽取技術(shù)的相關(guān)研究,提出了基于區(qū)域塊密度的網(wǎng)頁信息抽取算法。該算法不受HTML標(biāo)簽的限制,通過分析網(wǎng)頁正文密度函數(shù)來確定網(wǎng)頁正文區(qū)域,進(jìn)而進(jìn)行網(wǎng)頁內(nèi)容的抽取。 3)設(shè)計(jì)并實(shí)現(xiàn)了基于轉(zhuǎn)換服務(wù)器策略的移動(dòng)網(wǎng)站開發(fā)平臺。該平臺能在較少人工干預(yù)的情況下實(shí)現(xiàn)Web網(wǎng)站從PC端向移動(dòng)端的遷移。 本文最后通過一個(gè)移動(dòng)網(wǎng)站設(shè)計(jì)與開發(fā)實(shí)例來驗(yàn)證本文提出的移動(dòng)網(wǎng)站開發(fā)平臺的設(shè)計(jì)方法以及設(shè)計(jì)原則的可行性。實(shí)例是青島某管理學(xué)院官方網(wǎng)站移動(dòng)版本,該移動(dòng)網(wǎng)站的適配設(shè)備包括Android以及iOS的智能終端,能夠較好的提高不同設(shè)備訪問移動(dòng)網(wǎng)站的用戶體驗(yàn),實(shí)現(xiàn)了較好的跨平臺能力,有效降低了開發(fā)和維護(hù)成本。 論文的創(chuàng)新點(diǎn)如下: a)通過對現(xiàn)有網(wǎng)頁信息抽取技術(shù)的研究分析,并根據(jù)移動(dòng)網(wǎng)站開發(fā)平臺的特點(diǎn),建立了對應(yīng)的網(wǎng)頁信息抽取流程模型。 b)提出了基于區(qū)域塊密度的網(wǎng)頁信息抽取算法,能夠在不受HTML標(biāo)簽限制的情況下完成網(wǎng)頁正文的抽取,實(shí)驗(yàn)測試表明抽取準(zhǔn)確率、召回率均高于90%。 最后經(jīng)過實(shí)驗(yàn)測試表明,本文提出的移動(dòng)網(wǎng)站開發(fā)平臺能夠在較少人工干預(yù)下完成Web網(wǎng)站從PC端到移動(dòng)端的遷移,具有較高的實(shí)用價(jià)值。
【學(xué)位單位】:中國海洋大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2014
【中圖分類】:TP393.092
【文章目錄】:
摘要
Abstract
緒論
    1.1 課題研究背景和意義
    1.2 國內(nèi)外發(fā)展現(xiàn)狀
    1.3 研究思路及內(nèi)容
    1.4 論文組織結(jié)構(gòu)
2. 網(wǎng)頁信息抽取概念及相關(guān)技術(shù)介紹
    2.1 網(wǎng)頁信息抽取概念
    2.2 網(wǎng)頁信息抽取技術(shù)關(guān)鍵步驟
    2.3 網(wǎng)頁信息抽取相關(guān)技術(shù)介紹
        2.3.1 基于網(wǎng)頁視覺特征的網(wǎng)頁信息抽取技術(shù)
        2.3.2 基于 DOM 樹的網(wǎng)頁信息抽取技術(shù)
        2.3.3 基于包裝器的網(wǎng)頁信息抽取技術(shù)
        2.3.4 基于 XSLT 模板的網(wǎng)頁信息抽取技術(shù)
    2.4 網(wǎng)頁信息抽取評價(jià)標(biāo)準(zhǔn)
    2.5 本章小結(jié)
3. 網(wǎng)頁信息抽取流程建模
    3.1 網(wǎng)頁類型分類
    3.2 URL 相似度匹配
    3.3 網(wǎng)頁類型判斷
    3.4 網(wǎng)頁抽取流程
    3.5 本章小結(jié)
4. 基于區(qū)域塊密度的網(wǎng)頁正文抽取算法
    4.1 算法的原理及流程
        4.1.1 網(wǎng)頁預(yù)處理
        4.1.2 區(qū)域塊密度函數(shù)
    4.2 閾值學(xué)習(xí)
    4.3 實(shí)驗(yàn)結(jié)果及分析
        4.3.1 實(shí)驗(yàn)方法
        4.3.2 結(jié)果分析
    4.4 本章小結(jié)
5. 移動(dòng)網(wǎng)站開發(fā)平臺的設(shè)計(jì)與實(shí)現(xiàn)
    5.1 平臺簡介
    5.2 平臺目標(biāo)
    5.3 平臺系統(tǒng)架構(gòu)
    5.4 平臺關(guān)鍵模塊
        5.4.1 網(wǎng)頁源碼獲取與預(yù)處理模塊
        5.4.2 網(wǎng)頁類型判別模塊
        5.4.3 網(wǎng)頁抽取模塊
        5.4.4 網(wǎng)頁緩存模塊
        5.4.5 網(wǎng)頁渲染模塊
    5.5 運(yùn)行測試
    5.6 運(yùn)行效果演示
    5.7 本章小結(jié)
6. 總結(jié)與展望
    6.1 論文工作總結(jié)
    6.2 未來研究展望
參考文獻(xiàn)
致謝
個(gè)人簡歷
研究成果

【參考文獻(xiàn)】

相關(guān)期刊論文 前7條

1 王茹,宋瀚濤,陸玉昌;Research of Extracting Data from HTML Web Pages Automatically[J];Journal of Beijing Institute of Technology(English Edition);2003年S1期

2 何章鴻;董守斌;;基于XPath的廣告數(shù)據(jù)提取研究[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期

3 何友全;徐澄;徐小樂;唐華姣;;一種基于統(tǒng)計(jì)學(xué)特征和DOM樹的網(wǎng)頁去噪技術(shù)[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期

4 ;A Method of Eliminating Noises in Web Pages by Style Tree Model and Its Applications[J];Wuhan University Journal of Natural Sciences;2004年05期

5 ;A Survey of Web Information Systems and Applications[J];Wuhan University Journal of Natural Sciences;2006年05期

6 高嶺;趙朋朋;崔志明;;Deep Web查詢接口的自動(dòng)判定[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年05期

7 李宏偉;史培中;張素智;;一種高效Web數(shù)據(jù)抽取包裝器的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年02期



本文編號:2887517

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2887517.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a46b7***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com