天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于節(jié)點(diǎn)類型標(biāo)注的網(wǎng)頁(yè)主題信息提取技術(shù)研究

發(fā)布時(shí)間:2017-09-28 20:39

  本文關(guān)鍵詞:基于節(jié)點(diǎn)類型標(biāo)注的網(wǎng)頁(yè)主題信息提取技術(shù)研究


  更多相關(guān)文章: DOM 節(jié)點(diǎn)類型標(biāo)注 主題信息抽取


【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)頁(yè)數(shù)量呈爆炸性增長(zhǎng)。網(wǎng)頁(yè)中包含著豐富的內(nèi)容,既有用戶想要瀏覽的主題信息,也有對(duì)用戶形成干擾與主題無(wú)關(guān)的信息,如頁(yè)面導(dǎo)航條、推薦鏈接、廣告條、版權(quán)聲明等,后者通常被稱為網(wǎng)頁(yè)噪聲。網(wǎng)頁(yè)噪聲的存在給Web信息檢索帶來(lái)很大的難題,也對(duì)諸如網(wǎng)頁(yè)分類和聚類、知識(shí)挖掘、話題檢測(cè)、個(gè)性化信息推薦、數(shù)據(jù)挖掘等任務(wù)造成很大的影響。如果不將噪聲去除的話,信息檢索系統(tǒng)必然會(huì)得出很糟糕的檢索結(jié)果。因此,去除網(wǎng)頁(yè)噪聲,從網(wǎng)頁(yè)中抽取主題信息是Web信息檢索的一個(gè)重要的基礎(chǔ)性工作。在Web信息抽取領(lǐng)域,按照網(wǎng)頁(yè)主題信息抽取算法按照處理方式的不同,可以信息抽取方法分為三類:一、基于模板匹配的方法。這種方法主要基于網(wǎng)站中的頁(yè)面共享相同的模板,通過(guò)將網(wǎng)站的模板識(shí)別出來(lái),然后利用模板對(duì)頁(yè)面進(jìn)行匹配以識(shí)別網(wǎng)頁(yè)主題信息。二、基于機(jī)器學(xué)習(xí)的方法。這種方法主要適用于大規(guī)模網(wǎng)頁(yè)數(shù)據(jù)集的處理,首先利用人工標(biāo)注的網(wǎng)頁(yè)數(shù)據(jù)訓(xùn)練出網(wǎng)頁(yè)主題信息分類模型,然后利用分類器來(lái)識(shí)別網(wǎng)頁(yè)中的主題和非主題信息。三、基于啟發(fā)式規(guī)則的方法。這類方法,基于頁(yè)面中的一些視覺特征或結(jié)構(gòu)特征或內(nèi)容特征來(lái)構(gòu)建啟發(fā)式規(guī)則集合?紤]到基于啟發(fā)式規(guī)則的信息抽取方法具有較高的算法效率,以及考慮VIPS算法存在的不足,本文結(jié)合對(duì)網(wǎng)頁(yè)噪聲特點(diǎn)以及網(wǎng)頁(yè)性質(zhì)的觀察和統(tǒng)計(jì),提出了一種基于DOM節(jié)點(diǎn)類型標(biāo)注(Node Type Annotation)的主題信息抽取算法——NTA算法。首先依據(jù)網(wǎng)頁(yè)中噪聲存在的形式,定義了4種節(jié)點(diǎn)類型:文本型節(jié)點(diǎn)、鏈接型節(jié)點(diǎn)、圖片型節(jié)點(diǎn)和可忽略型節(jié)點(diǎn),并且定義了節(jié)點(diǎn)的內(nèi)聚度(Do C)用于反映節(jié)點(diǎn)內(nèi)容的一致性。通過(guò)計(jì)算DOM結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)的內(nèi)容特征來(lái)確定節(jié)點(diǎn)類型以及節(jié)點(diǎn)的內(nèi)聚度,并給每個(gè)節(jié)點(diǎn)添加類型和內(nèi)聚度兩個(gè)屬性。在主題信息抽取階段,借助閾值以及節(jié)點(diǎn)文本密度來(lái)識(shí)別節(jié)點(diǎn)類型以及比較內(nèi)聚度來(lái)獲取所需的正文節(jié)點(diǎn),并針對(duì)圖片和鏈接的篩選問(wèn)題作出相應(yīng)的特殊處理,最后整合得到網(wǎng)頁(yè)的主題信息。本文方法彌補(bǔ)了VIPS不能抽取網(wǎng)頁(yè)主題信息的不足并且具有較好的算法效率,方法不依賴特定標(biāo)簽因而也具有更好的通用性。最后,基于本文NTA算法開發(fā)了一款網(wǎng)頁(yè)正文提取工具Web Clipper,從7大門戶網(wǎng)站選取了100多個(gè)新聞?lì)惥W(wǎng)頁(yè)進(jìn)行了測(cè)試,并且也與目前市面上的三款同類工具有道云剪報(bào)、印象筆記悅讀以及國(guó)外的Readability做了對(duì)比實(shí)驗(yàn)。初步實(shí)驗(yàn)結(jié)果顯示,本文所提出的算法的平均查全率為98.15%,平均查準(zhǔn)率為92.41%,NTA方法在F1指標(biāo)上為95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%,這在一定程度上證實(shí)了本文方法的有效性和實(shí)用性。
【關(guān)鍵詞】:DOM 節(jié)點(diǎn)類型標(biāo)注 主題信息抽取
【學(xué)位授予單位】:中國(guó)農(nóng)業(yè)科學(xué)院
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.092;TP391.3
【目錄】:
  • 摘要6-7
  • Abstract7-11
  • 英文縮略表11-12
  • 第一章 引言12-16
  • 1.1 研究背景與研究意義12
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-14
  • 1.3 論文研究?jī)?nèi)容14
  • 1.4 論文技術(shù)路線14-15
  • 1.5 論文組織結(jié)構(gòu)15-16
  • 第二章 網(wǎng)頁(yè)主題信息抽取16-23
  • 2.1 網(wǎng)頁(yè)主題信息抽取算法介紹16-20
  • 2.1.1 基于模板匹配的方法16-17
  • 2.1.2 基于機(jī)器學(xué)習(xí)的方法17-18
  • 2.1.3 基于啟發(fā)式規(guī)則的方法18-19
  • 2.1.4 其他方法19-20
  • 2.2 網(wǎng)頁(yè)主題信息抽取評(píng)價(jià)方法20-21
  • 2.2.1 直接評(píng)價(jià)法20-21
  • 2.2.2 間接評(píng)價(jià)法21
  • 2.3 網(wǎng)頁(yè)主題信息抽取應(yīng)用21-22
  • 2.3.1 網(wǎng)頁(yè)語(yǔ)料處理21
  • 2.3.2 網(wǎng)頁(yè)內(nèi)容轉(zhuǎn)換21-22
  • 2.3.3 網(wǎng)頁(yè)數(shù)據(jù)挖掘22
  • 2.4 本章小結(jié)22-23
  • 第三章 節(jié)點(diǎn)類型及內(nèi)聚度23-33
  • 3.1 節(jié)點(diǎn)類型24-28
  • 3.1.1 標(biāo)準(zhǔn)DOM節(jié)點(diǎn)類型24-26
  • 3.1.2 本文DOM節(jié)點(diǎn)類型26-28
  • 3.2 節(jié)點(diǎn)內(nèi)聚度28-32
  • 3.2.1 VIPS方法中的內(nèi)聚度29
  • 3.2.2 本文方法中的內(nèi)聚度29-32
  • 3.3 本章小結(jié)32-33
  • 第四章 基于節(jié)點(diǎn)類型標(biāo)注的方法33-40
  • 4.1 網(wǎng)頁(yè)預(yù)處理33-34
  • 4.1.1 HTML語(yǔ)法的格式化33
  • 4.1.2 特定標(biāo)簽的處理33-34
  • 4.2 節(jié)點(diǎn)類型標(biāo)注34-35
  • 4.3 主題信息抽取35-39
  • 4.3.1 選取最佳剪枝文本節(jié)點(diǎn)35-36
  • 4.3.2 DOM剪枝36-38
  • 4.3.3 圖片與鏈接問(wèn)題38-39
  • 4.4 本章小結(jié)39-40
  • 第五章 網(wǎng)頁(yè)主題信息抽取實(shí)驗(yàn)40-46
  • 5.1 實(shí)驗(yàn)環(huán)境設(shè)定40
  • 5.2 實(shí)驗(yàn)操作流程40-42
  • 5.2.1 選取主題型網(wǎng)頁(yè)41
  • 5.2.2 WClipper提取網(wǎng)頁(yè)正文41
  • 5.2.3 選取網(wǎng)頁(yè)主題內(nèi)容41
  • 5.2.4 選取正確內(nèi)容41
  • 5.2.5 計(jì)算F1及記錄41-42
  • 5.3 實(shí)驗(yàn)測(cè)試數(shù)據(jù)集42
  • 5.4 對(duì)比實(shí)驗(yàn)方法42-43
  • 5.4.1 有道網(wǎng)頁(yè)剪報(bào)工具42
  • 5.4.2 印象筆記悅讀工具42-43
  • 5.4.3 Readability工具43
  • 5.5 實(shí)驗(yàn)結(jié)果及分析43-45
  • 5.6 本章小結(jié)45-46
  • 第六章 總結(jié)與展望46-48
  • 6.1 論文工作總結(jié)46-47
  • 6.2 存在的問(wèn)題及未來(lái)的方向47-48
  • 參考文獻(xiàn)48-54
  • 在學(xué)期間的研究成果54-55
  • 致謝55

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 李建華,王志國(guó),馬曉云,韓建國(guó);網(wǎng)頁(yè)發(fā)布常用方法及遇到問(wèn)題[J];電腦開發(fā)與應(yīng)用;2001年11期

2 王崢;穿梭網(wǎng)絡(luò)看設(shè)計(jì)——小議網(wǎng)頁(yè)設(shè)計(jì)[J];蘇州絲綢工學(xué)院學(xué)報(bào);1999年06期

3 李亞文;網(wǎng)頁(yè)設(shè)計(jì)系列講座(一) 信息世界的新時(shí)尚——用網(wǎng)頁(yè)展示自己[J];多媒體世界;1999年02期

4 張?zhí)锪?網(wǎng)頁(yè)設(shè)計(jì)系列講座(四) 在世界面前展示你的風(fēng)采——網(wǎng)頁(yè)發(fā)布[J];多媒體世界;1999年05期

5 高渭文;馬敏峰;;科技期刊網(wǎng)頁(yè)的規(guī)劃設(shè)計(jì)與制作維護(hù)[J];學(xué)報(bào)編輯論叢;2000年00期

6 康軍;出版社網(wǎng)頁(yè)的設(shè)計(jì)與開發(fā)[J];科技與出版;2000年05期

7 郭再新,常征旗;查詢網(wǎng)頁(yè)與網(wǎng)頁(yè)發(fā)布[J];南京廣播電視大學(xué)學(xué)報(bào);2000年04期

8 付斌 ,韓松;網(wǎng)頁(yè)沙龍之發(fā)布我的網(wǎng)頁(yè)[J];網(wǎng)絡(luò)與信息;2001年10期

9 顧綺芳;韓斌;;《網(wǎng)頁(yè)設(shè)計(jì)》教學(xué)探索[J];職業(yè)圈;2007年14期

10 彭菊萍;李俊青;;基于網(wǎng)絡(luò)教學(xué)環(huán)境下的網(wǎng)頁(yè)設(shè)計(jì)課程教學(xué)的探索與實(shí)踐[J];科技信息(科學(xué)教研);2007年28期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條

1 高渭文;馬敏峰;;科技期刊網(wǎng)頁(yè)的規(guī)劃設(shè)計(jì)與制作維護(hù)[A];學(xué)報(bào)編輯論叢(第九集)[C];2000年

2 孫周軍;肖文名;;基于組合策略網(wǎng)頁(yè)防篡改系統(tǒng)實(shí)現(xiàn)方法研究[A];2011年中國(guó)氣象學(xué)會(huì)氣象通信與信息技術(shù)委員會(huì)暨國(guó)家氣象信息中心科技年會(huì)論文摘要[C];2011年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前7條

1 本報(bào)記者 王兵 通訊員 韋煒;小網(wǎng)頁(yè) 大名片 長(zhǎng)鏈條[N];中國(guó)氣象報(bào);2012年

2 林欣欣;Micromedia家族新寵 contribute[N];中國(guó)電腦教育報(bào);2003年

3 愛上一條魚;傻瓜網(wǎng)站管理工具[N];電腦報(bào);2004年

4 湖南省株洲縣教育局教育技術(shù)裝備站 許賽蘇;做個(gè)合格的信息管理員[N];中國(guó)電腦教育報(bào);2004年

5 ;書山有路勤為徑[N];中國(guó)電腦教育報(bào);2004年

6 王兆和;到秘密花園里“摘”煙花[N];中國(guó)電腦教育報(bào);2004年

7 通訊員 郝金榮 記者 曾居仁;萬(wàn)村千鄉(xiāng)網(wǎng)頁(yè)工程建成入選貴州“三農(nóng)”十大新聞[N];中國(guó)氣象報(bào);2013年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 林盛;時(shí)間感知的Web搜索研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2015年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 謝方立;基于節(jié)點(diǎn)類型標(biāo)注的網(wǎng)頁(yè)主題信息提取技術(shù)研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2016年

2 馮勝;基于正文結(jié)構(gòu)和長(zhǎng)句提取的網(wǎng)頁(yè)去重研究[D];重慶大學(xué);2010年

3 王海潮;基于網(wǎng)頁(yè)結(jié)構(gòu)的信息抽取關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年

4 譚慶華;贛縣中學(xué)博客網(wǎng)頁(yè)建設(shè)初探[D];江西師范大學(xué);2005年

5 王ZMr,

本文編號(hào):937952


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/937952.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cd5d1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
日韩av欧美中文字幕| 日韩国产中文在线视频| 精品老司机视频在线观看| 欧美区一区二在线播放| 婷婷色国产精品视频一区| 好吊妞视频这里有精品| 日本在线高清精品人妻| 91欧美日韩国产在线观看| 丁香六月婷婷基地伊人| 亚洲男人天堂成人在线视频| 人妻一区二区三区在线| 国产又粗又黄又爽又硬的| 91亚洲国产日韩在线| 日本女优一色一伦一区二区三区| 91天堂素人精品系列全集| 日韩中文字幕视频在线高清版| 九九热在线视频观看最新| 免费观看潮喷到高潮大叫 | 欧美日韩国产另类一区二区 | 中文字幕欧美精品人妻一区| 在线播放欧美精品一区| 日韩少妇人妻中文字幕| 国产中文字幕一区二区| 国产日本欧美特黄在线观看| 深夜日本福利在线观看| 国产日本欧美特黄在线观看| 91福利视频日本免费看看| 麻豆最新出品国产精品| 国产又大又黄又粗的黄色| 免费特黄一级一区二区三区| 亚洲女同一区二区另类| 黄色av尤物白丝在线播放网址| 日韩成人h视频在线观看| 91在线爽的少妇嗷嗷叫| 99久久精品免费精品国产| 精品熟女少妇av免费久久野外| 亚洲美女国产精品久久| 亚洲中文字幕在线观看黑人| 一级片二级片欧美日韩| 亚洲一区二区三区av高清| 婷婷基地五月激情五月|