天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

輿情系統(tǒng)中web信息抽取子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-08-22 08:46
  網(wǎng)絡(luò)輿情反映了廣大民眾對(duì)各種事件的態(tài)度,是國家相關(guān)部門了解民意的重要渠道。Web信息抽取是輿情系統(tǒng)進(jìn)行輿情信息分析的輸入,它性能的好壞直接影響了輿情信息的來源及判斷。隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)頁形式越來越多,為了快速準(zhǔn)確地獲取輿情信息,輿情系統(tǒng)對(duì)Web信息抽取提出了越來越高的要求。本文正是針對(duì)上述問題提出解決方案,以Web信息抽取技術(shù)為研究對(duì)象,針對(duì)當(dāng)前各種網(wǎng)頁形式進(jìn)行深入分析,并且結(jié)合輿情信息處理要求,針對(duì)新聞、博客、論壇及微博四種不同類型的輿情信息來源網(wǎng)頁,提出不同的抽取方法。主要研究內(nèi)容有:1.研究新聞博客類網(wǎng)頁信息抽取技術(shù),采用通用網(wǎng)頁正文提取技術(shù),對(duì)新聞博客類網(wǎng)頁正文進(jìn)行抽取,并利用正則表達(dá)式提取其他數(shù)據(jù)項(xiàng),該方法不依賴于網(wǎng)頁結(jié)構(gòu),抽取速度快,準(zhǔn)確度高,通用性好。2.研究網(wǎng)頁聚類方法,提出一種基于網(wǎng)頁結(jié)構(gòu)的聚類方法。該方法結(jié)合論壇類網(wǎng)頁標(biāo)簽特性,由于每個(gè)標(biāo)簽節(jié)點(diǎn)因?qū)哟尾煌瑢?duì)網(wǎng)頁結(jié)構(gòu)相似性影響不同,對(duì)每個(gè)節(jié)點(diǎn)賦予權(quán)值,采用加權(quán)余弦相似性公式計(jì)算兩棵網(wǎng)頁標(biāo)簽樹的相似性。該方法有很好的聚類效果,時(shí)間復(fù)雜度為O(n)。3.研究基于網(wǎng)頁結(jié)構(gòu)相似性比較的Web信息自動(dòng)抽取技術(shù),提出一種論壇... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:103 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
第一章 緒論
    1.1 選題背景與研究意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 本文研究內(nèi)容與組織結(jié)構(gòu)
第二章 相關(guān)技術(shù)基礎(chǔ)
    2.1 網(wǎng)絡(luò)爬蟲
    2.2 HTML 標(biāo)簽樹
    2.3 XML 簡介
    2.4 通用網(wǎng)頁正文提取技術(shù)
    2.5 網(wǎng)頁聚類
        2.5.1 相似性計(jì)算
            2.5.1.1 加權(quán)余弦相似性
            2.5.1.2 樹編輯距離
        2.5.2 網(wǎng)頁聚類技術(shù)
    2.6 信息熵
    2.7 正則表達(dá)式
    2.8 本章小結(jié)
第三章 系統(tǒng)中關(guān)鍵技術(shù)的實(shí)現(xiàn)
    3.1 網(wǎng)頁聚類方法
    3.2 自動(dòng)生成模板
        3.2.1 模板表示
        3.2.2 模板生成流程
            3.2.2.1 自動(dòng)下載網(wǎng)頁
            3.2.2.2 生成 HTML 標(biāo)簽樹
            3.2.2.3 數(shù)據(jù)區(qū)域確定
            3.2.2.4 數(shù)據(jù)項(xiàng)路徑確定
            3.2.2.5 存儲(chǔ)匹配模板
    3.3 本章小結(jié)
第四章 輿情系統(tǒng)中 Web 信息抽取子系統(tǒng)總體設(shè)計(jì)
    4.1 輿情系統(tǒng)簡介
        4.1.1 總體處理流程
        4.1.2 總體結(jié)構(gòu)
        4.1.3 開發(fā)環(huán)境
    4.2 Web 信息抽取子系統(tǒng)總體設(shè)計(jì)
        4.2.1 Web 信息抽取總體結(jié)構(gòu)設(shè)計(jì)
        4.2.2 Web 信息抽取流程
        4.2.3 數(shù)據(jù)庫設(shè)計(jì)
    4.3 本章小結(jié)
第五章 Web 信息抽取子系統(tǒng)功能模塊設(shè)計(jì)與實(shí)現(xiàn)
    5.1 URL 分類
        5.1.1 URL 獲取
        5.1.2 URL 分類
    5.2 新聞博客類抽取
        5.2.1 通用行塊分布函數(shù)實(shí)現(xiàn)
        5.2.2 其他數(shù)據(jù)項(xiàng)抽取
            5.2.2.1 發(fā)布時(shí)間
            5.2.2.2 標(biāo)題
    5.3 論壇類抽取
        5.3.1 論壇抽取整體流程
        5.3.2 模板優(yōu)化
    5.4 微博類抽取
        5.4.1 微博抽取整體流程
        5.4.2 微博模擬自動(dòng)登錄
        5.4.3 微博數(shù)據(jù)項(xiàng)抽取
    5.5 數(shù)據(jù)庫實(shí)現(xiàn)
    5.6 本章小結(jié)
第六章 測(cè)試與分析
    6.1 網(wǎng)頁聚類測(cè)試
    6.2 Web 信息抽取實(shí)驗(yàn)結(jié)果
    6.3 Web 信息抽取評(píng)價(jià)標(biāo)準(zhǔn)
    6.4 本章小結(jié)
第七章 總結(jié)與展望
    7.1 總結(jié)
    7.2 展望
致謝
參考文獻(xiàn)
攻碩期間取得的研究成果


【參考文獻(xiàn)】:
期刊論文
[1]新浪微博數(shù)據(jù)挖掘方案[J]. 廉捷,周欣,曹偉,劉云.  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(10)
[2]基于網(wǎng)頁聚類的Web信息自動(dòng)抽取[J]. 邱韜奮,楊天奇,曾洪波.  微型機(jī)與應(yīng)用. 2011(04)
[3]網(wǎng)頁信息自動(dòng)抽取技術(shù)的研究[J]. 胡少榮,孟嗣儀,劉云,張彥超,丁飛.  鐵路計(jì)算機(jī)應(yīng)用. 2010(09)
[4]基于自動(dòng)生成模板的Web信息抽取技術(shù)[J]. 張彥超,劉云,李勇,沈波.  北京交通大學(xué)學(xué)報(bào). 2009(05)
[5]基于統(tǒng)計(jì)與正文特征的中文網(wǎng)頁正文抽取研究[J]. 周佳穎,朱珍民,高曉芳.  中文信息學(xué)報(bào). 2009(05)
[6]一種基于模板的快速網(wǎng)頁文本自動(dòng)抽取算法[J]. 陳治昂,周知予,李大學(xué).  計(jì)算機(jī)應(yīng)用研究. 2009(07)
[7]基于網(wǎng)頁格式信息量的博客文章和評(píng)論抽取模型[J]. 曹冬林,廖祥文,許洪波,白碩.  軟件學(xué)報(bào). 2009(05)
[8]基于模板的Web信息自動(dòng)提取方法[J]. 鄭長松,傅彥,佘莉.  計(jì)算機(jī)應(yīng)用研究. 2009(02)
[9]有效HTML文本信息抽取方法的研究[J]. 韓忠明,李文正,莫倩.  計(jì)算機(jī)應(yīng)用研究. 2008(12)
[10]基于XML的自動(dòng)學(xué)習(xí)Web信息抽取[J]. 冀高峰,湯庸,道煒,吳桂賓,黃帆,王鵬.  計(jì)算機(jī)科學(xué). 2008(03)

碩士論文
[1]基于聚類算法的Web信息抽取技術(shù)研究[D]. 邱韜奮.暨南大學(xué) 2011
[2]Web信息自動(dòng)抽取技術(shù)研究[D]. 賴春波.浙江大學(xué) 2008
[3]基于XML的Web信息抽取研究[D]. 盧睿.大連海事大學(xué) 2005
[4]半結(jié)構(gòu)化Web信息抽取技術(shù)及其應(yīng)用研究[D]. 董樹明.東南大學(xué) 2004



本文編號(hào):3357419

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3357419.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b790f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com