天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于節(jié)點類型標注的網(wǎng)頁主題信息抽取方法

發(fā)布時間:2017-08-01 17:38

  本文關(guān)鍵詞:基于節(jié)點類型標注的網(wǎng)頁主題信息抽取方法


  更多相關(guān)文章: DOM 節(jié)點類型標注 主題信息抽取


【摘要】:提出一種基于DOM節(jié)點類型標注的網(wǎng)頁主題信息抽取的方法。首先依據(jù)網(wǎng)頁中噪聲存在的形式,將DOM節(jié)點劃分為4種類型:文本型、圖片型、鏈接型和可忽略型,并給出節(jié)點內(nèi)聚度的計算方法。通過給DOM節(jié)點添加類型和內(nèi)聚度兩個屬性,在正文提取階段選取內(nèi)聚度大于閾值的文本型節(jié)點,最后整合成網(wǎng)頁主題信息。將該方法與另外3款網(wǎng)頁正文提取工具做對比實驗,結(jié)果顯示該方法在F1指標上為95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%。
【作者單位】: 中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所;
【關(guān)鍵詞】DOM 節(jié)點類型標注 主題信息抽取
【基金】:國家高技術(shù)研究發(fā)展計劃(2013AA102405)資助
【分類號】:TP391.1;TP393.092
【正文快照】: 本文受國家高技術(shù)研究發(fā)展計劃(2013AA102405)資助。1引言隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)頁數(shù)量呈指數(shù)遞增,如何從浩如煙海的網(wǎng)頁中獲取所需的信息是人們面臨的一個亟待解決的問題。網(wǎng)頁中包含著豐富的內(nèi)容,既有用戶想要瀏覽的主題信息,也有對用戶形成干擾與主題無關(guān)的信息,如頁面導

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前3條

1 朱祖會;馮鈞;唐志賢;;一種推斷XML關(guān)鍵字查詢目標節(jié)點類型方法[J];信息技術(shù);2013年12期

2 兆霽;怎樣創(chuàng)建自己的Web站點?(九)[J];今日電子;1998年09期

3 ;[J];;年期

,

本文編號:605436

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/605436.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e476c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com