天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

大規(guī)模網(wǎng)頁信息抽取技術(shù)研究

發(fā)布時間:2022-01-22 04:52
  當今互聯(lián)網(wǎng)已成為一個巨大的開放式知識庫,包含了海量的信息。人們越來越依賴于從互聯(lián)網(wǎng)上獲取信息,但是這些信息格式復(fù)雜多樣,同時包含了大量的垃圾信息,所以研究如何自動準確的抽取互聯(lián)網(wǎng)信息成為重要的研究課題。本文的研究重點是互聯(lián)網(wǎng)信息抽取的相關(guān)關(guān)鍵技術(shù),主要包括大規(guī)模網(wǎng)頁的采集與整理、網(wǎng)頁正文信息抽取和文本信息抽取三方面內(nèi)容。在網(wǎng)頁采集與整理方面,主要任務(wù)是建立大規(guī)模的網(wǎng)頁庫,作為信息抽取的數(shù)據(jù)源。使用網(wǎng)絡(luò)爬蟲實現(xiàn)對網(wǎng)頁的大規(guī)模采集,通過鏈接分析判斷網(wǎng)頁重要性,對采集的網(wǎng)頁進行篩選。本文對比分析了HITS算法和PageRank算法的性能,進而確定了PageRank作為鏈接分析算法。由于要處理的網(wǎng)頁規(guī)模較大,單機處理能力不足,所以選擇并實現(xiàn)了基于Hadoop平臺的PageRank算法。在網(wǎng)頁信息抽取方面,本文通過分析現(xiàn)有網(wǎng)頁信息抽取方法存在的不足及其原因,提出基于多特征融合的網(wǎng)頁正文信息抽取方法。與以往選用少量特征的方法相比,本文的方法通過選用多種特征確定正文信息,能更好適應(yīng)風(fēng)格多樣的網(wǎng)頁。通過實驗的對比,該方法具有較高正確率,能夠滿足網(wǎng)頁正文信息抽取的實際應(yīng)用需要。在文本信息抽取方面,研究了... 

【文章來源】:西南交通大學(xué)四川省 211工程院校 教育部直屬院校

【文章頁數(shù)】:74 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
目錄
第一章 緒論
    1.1 研究背景及意義
    1.2 網(wǎng)頁信息抽取研究現(xiàn)狀及方法
        1.2.1 信息抽取技術(shù)研究狀況
        1.2.2 網(wǎng)頁信息抽取常用方法
    1.3 自然語言文本信息抽取
        1.3.1 國內(nèi)外文本信息抽取研究現(xiàn)狀
        1.3.2 文本信息抽取關(guān)鍵任務(wù)
    1.4 信息抽取發(fā)展趨勢
    1.5 課題任務(wù)
    1.6 論文結(jié)構(gòu)
    1.7 本章小結(jié)
第二章 大規(guī)模網(wǎng)頁數(shù)據(jù)的采集和處理
    2.1 系統(tǒng)流程介紹
    2.2 URL收集和整理選用的方法
    2.3 鏈接分析算法
        2.3.1 HITS算法與PageRank算法的比較分析
        2.3.2 PageRank算法
    2.4 網(wǎng)頁和超鏈的收集整理
    2.5 Hadoop下的PageRank計算
        2.5.1 Hadoop技術(shù)介紹
        2.5.2 Hadoop主要成員
        2.5.3 Hadoop平臺的搭建
        2.5.4 Hadoop平臺下運行PageRank
    2.6 本章小結(jié)
第三章 網(wǎng)頁正文信息抽取技術(shù)研究
    3.1 網(wǎng)頁信息抽取模塊流程
    3.2 DOM樹相關(guān)知識介紹
    3.3 網(wǎng)頁模板抽取信息
        3.3.1 網(wǎng)頁模板化信息提取算法
        3.3.2 網(wǎng)頁模板化信息提取方法步驟
        3.3.3 網(wǎng)頁模板化信息提取方法實驗結(jié)果
    3.4 WIEHF方法抽取信息
        3.4.1 WIEHF方法計算
        3.4.2 WIEHF方法步驟
        3.4.3 WIEHF實驗驗證和結(jié)果分析
    3.5 模板方法和WIEHF方法的實驗結(jié)果對比
    3.6 本章小結(jié)
第四章 文本信息抽取技術(shù)研究
    4.1 分詞介紹
    4.2 中文信息抽取模塊簡介
    4.3 代詞消解
        4.3.1 代詞消解方法引出
        4.3.2 指代消解方法介紹
        4.3.3 消解規(guī)則
        4.3.4 基于統(tǒng)計的消解指代方法
    4.4 句法分析和句子成分介紹
        4.4.1 現(xiàn)代漢語句子成分
        4.4.2 現(xiàn)代漢語句子結(jié)構(gòu)和知網(wǎng)介紹
    4.5 基于詞性合并的淺層句法分析方法
        4.5.1 方法的引出
        4.5.2 詞性合并規(guī)則介紹
        4.5.3 句子句式處理介紹
        4.5.4 基于詞性合并的淺層句法分析整體介紹
        4.5.5 句法分析方法
        4.5.6 句法分析實驗結(jié)果
    4.6 各階段效果圖
    4.7 本章小結(jié)
第五章 結(jié)論與展望
致謝
參考文獻
攻讀碩士學(xué)位期間發(fā)表的論文和科研情況
    發(fā)表論文
    項目
附錄


【參考文獻】:
期刊論文
[1]基于規(guī)則的中文零指代項識別研究[J]. 秦凱偉,孔芳,李培峰,朱巧明.  計算機科學(xué). 2012(10)
[2]中文人稱代詞指代消解的研究[J]. 董國志,朱玉全,程顯毅.  計算機應(yīng)用研究. 2011(05)
[3]融合淺層句法分析的蛋白質(zhì)互作用信息抽取方法[J]. 錢偉中,王娟,傅翀,秦志光.  計算機應(yīng)用研究. 2011(03)
[4]低頻詞的中文詞性標注研究[J]. 仲其智,姚建民.  計算機應(yīng)用與軟件. 2011(03)
[5]Web信息抽取技術(shù)綜述[J]. 陳釗,張冬梅.  計算機應(yīng)用研究. 2010(12)
[6]中文分詞和詞性標注模型[J]. 劉遙峰,王志良,王傳經(jīng).  計算機工程. 2010(04)
[7]基于統(tǒng)計與正文特征的中文網(wǎng)頁正文抽取研究[J]. 周佳穎,朱珍民,高曉芳.  中文信息學(xué)報. 2009(05)
[8]網(wǎng)頁文本信息自動提取技術(shù)綜述[J]. 張俊英,胡俠,卜佳俊.  計算機應(yīng)用研究. 2009(08)
[9]基于模板的Web信息自動提取方法[J]. 鄭長松,傅彥,佘莉.  計算機應(yīng)用研究. 2009(02)
[10]基于多層條件隨機場的中文命名實體識別[J]. 胡文博,都云程,呂學(xué)強,施水才.  計算機工程與應(yīng)用. 2009(01)



本文編號:3601581

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3601581.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b00bf***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com