天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

網(wǎng)頁核心語義數(shù)據(jù)提取算法研究

發(fā)布時間:2021-03-22 10:23
  在網(wǎng)絡(luò)信息爆炸式增長的背景下,網(wǎng)頁語義的描述及其提取方法的研究正受到越來越廣泛的關(guān)注。網(wǎng)頁語義的研究在語義網(wǎng)絡(luò)構(gòu)建、網(wǎng)絡(luò)挖掘和其它商業(yè)應(yīng)用中具有重要的理論意義和應(yīng)用價值。而現(xiàn)有的語義提取方法或者需要耗費大量的人力、或者只限用于某個特定領(lǐng)域,都難以適應(yīng)當(dāng)今普遍且頻繁的應(yīng)用需求。在本文中,我們提出一種通過識別和劃分網(wǎng)頁邏輯結(jié)構(gòu)來獲取網(wǎng)頁語義的提取方法。運用網(wǎng)絡(luò)挖掘和網(wǎng)頁內(nèi)容抽取技術(shù),只需要將少量的標(biāo)注頁面作為訓(xùn)練數(shù)據(jù),并僅使用從單個頁面中提取的網(wǎng)頁結(jié)構(gòu)特征,就能夠自動化地將網(wǎng)頁內(nèi)容從由標(biāo)簽和文本組成的字符流轉(zhuǎn)化為一組邏輯上相對獨立的功能區(qū)域。通過各個區(qū)域在網(wǎng)頁中的位置分布等信息,識別出每一個區(qū)域在網(wǎng)頁中承擔(dān)的具體功能。我們的方法將重復(fù)結(jié)構(gòu)這一種重要的網(wǎng)頁結(jié)構(gòu)作為分析問題的切入點,首先,使用機器學(xué)習(xí)的方法,將決策樹和SVM組合構(gòu)成的分類器用于網(wǎng)頁中重復(fù)結(jié)構(gòu)的識別和定位;然后,識別出有意義的重復(fù)結(jié)構(gòu)并以之為分割點將網(wǎng)頁內(nèi)容分為若干語義區(qū)域;最后,標(biāo)定網(wǎng)頁中每個語義區(qū)域的語義功能,并抽取出各個區(qū)域中有價值的數(shù)據(jù)內(nèi)容。我們將網(wǎng)頁邏輯結(jié)構(gòu)劃分的結(jié)果和語義區(qū)域的功能標(biāo)定的結(jié)果作為本文研究的兩類主要語義... 

【文章來源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:53 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
第一章 緒論
    1.1 研究背景和意義
    1.2 網(wǎng)頁語義描述和提取
    1.3 本文工作和主要貢獻(xiàn)
    1.4 本文結(jié)構(gòu)
第二章 相關(guān)技術(shù)和研究現(xiàn)狀
    2.1 網(wǎng)絡(luò)挖掘技術(shù)
        2.1.1 網(wǎng)頁抽取
        2.1.2 網(wǎng)頁分類
    2.2 網(wǎng)頁語義研究
        2.2.1 語義網(wǎng)絡(luò)和網(wǎng)絡(luò)挖掘
        2.2.2 網(wǎng)頁語義挖掘技術(shù)
第三章 方法設(shè)計
    3.1 概念定義
        3.1.1 重復(fù)結(jié)構(gòu)和重復(fù)單元
        3.1.2 網(wǎng)頁生成模型
    3.2 重復(fù)結(jié)構(gòu)定位方法
        3.2.1 分組算法
        3.2.2 合并規(guī)則
        3.2.3 特征選擇
    3.3 結(jié)構(gòu)化和表格提取
        3.3.1 序列化算法
        3.3.2 MSA算法在重復(fù)結(jié)構(gòu)結(jié)構(gòu)化中的應(yīng)用
        3.3.3 結(jié)構(gòu)化效果分析
    3.4 語義標(biāo)定與網(wǎng)頁邏輯結(jié)構(gòu)劃分
        3.4.1 重復(fù)結(jié)構(gòu)語義標(biāo)定
        3.4.2 非重復(fù)結(jié)構(gòu)區(qū)域提取算法
        3.4.3 非重復(fù)結(jié)構(gòu)區(qū)域語義標(biāo)定
        3.4.4 特征選擇
    3.5 本章小結(jié)
第四章 實驗分析
    4.1 實驗環(huán)境
    4.2 數(shù)據(jù)集準(zhǔn)備
    4.3 數(shù)據(jù)預(yù)處理
    4.4 分類型設(shè)計
        4.4.1 失衡樣本上的分類器設(shè)計
        4.4.2 過濾效果的評價
        4.4.3 性能評價標(biāo)準(zhǔn)
    4.5 實驗過程和分析
第五章 總結(jié)和展望
    5.1 總結(jié)
    5.2 展望
附錄
參考文獻(xiàn)
后記



本文編號:3094002

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3094002.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dc94b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com