天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 移動網絡論文 >

基于HTML特征與層次聚類的Web查詢接口發(fā)現(xiàn)

發(fā)布時間:2017-07-06 08:06

  本文關鍵詞:基于HTML特征與層次聚類的Web查詢接口發(fā)現(xiàn)


  更多相關文章: Web查詢接口 超級文本標記語言 層次聚類 結構距離 交互密度 文本過濾器


【摘要】:針對各網站Web查詢接口(WQI)因結構異構而難以被自動發(fā)現(xiàn)的問題,提出一種基于超級文本標記語言(HTML)特征和層次聚類的Web查詢接口發(fā)現(xiàn)方法。利用HTML控件元素之間的層級結構、依附關系和HTML交互控件的終端特性,通過前序和后序遍歷相結合的方式解析頁面,建立合適的頁面樹狀模型。按照查詢區(qū)域交互密度的局部集中性定位并初始化聚類集合。將聚類集合中各潛在接口區(qū)域結構距離的相似性進行層次聚類,并對所得潛在接口中的交互控件選擇合適的文本節(jié)點進行語義標注,得出完整WQI區(qū)域,利用接口中的文本特征過濾非查詢接口。實驗結果表明,該方法克服了傳統(tǒng)方法對form標簽的過度依賴,具有較強的通用性,接口識別率與準確率分別達到90.7%和92%。
【作者單位】: 上海大學計算機工程與科學學院;
【關鍵詞】Web查詢接口 超級文本標記語言 層次聚類 結構距離 交互密度 文本過濾器
【分類號】:TP393.09;TP391.1
【正文快照】: 1概述Web查詢接口(Web Query Interface,WQI)存在于半結構化的超級文本標記語言(Hyper TextMarkup Language,HTML)頁面中,其查詢結果具有數 量龐大、專業(yè)性強、價值高等特點,是Deep Web搜索引擎極為重要的數據來源[1]。但由于不同站點的異構形態(tài),給查詢接口的自動發(fā)現(xiàn)帶來困

【相似文獻】

中國期刊全文數據庫 前10條

1 潘大慶;;基于層次聚類的微博敏感話題檢測算法研究[J];廣西民族大學學報(自然科學版);2012年04期

2 鄭曉鳴;呂士穎;王曉東;;一種基于隨機抽取的有限深度層次聚類[J];鄭州大學學報(理學版);2007年03期

3 湯周文;葉東毅;;基于層次聚類的差異化屬性約簡算法[J];計算機應用;2009年02期

4 文順;趙杰煜;朱紹軍;;基于貝葉斯和諧度的層次聚類[J];模式識別與人工智能;2013年12期

5 龔尚福;陳婉璐;賈澎濤;;層次聚類社區(qū)發(fā)現(xiàn)算法的研究[J];計算機應用研究;2013年11期

6 香紅麗;王瀟涵;羅淑云;;基于層次聚類方法研究課程關系結構[J];中國科教創(chuàng)新導刊;2011年26期

7 李曉飛;;基于動態(tài)層次聚類的離散化算法的研究[J];計算機應用與軟件;2009年10期

8 張闊,徐鵬,李涓子,王克宏;基于優(yōu)化層次聚類的文檔邏輯結構抽取[J];清華大學學報(自然科學版);2005年04期

9 王旅;彭宏;胡勁松;梁華芳;;層次聚類在種群親緣關系研究中的應用[J];計算機時代;2006年07期

10 黃健斌;康劍梅;齊俊杰;孫鶴立;;一種基于同步動力學模型的層次聚類方法[J];中國科學:信息科學;2013年05期

中國重要會議論文全文數據庫 前6條

1 吾守爾·斯拉木;吳啟南;;基于層次聚類方法[A];第六屆全國計算機應用聯(lián)合學術會議論文集[C];2002年

2 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網絡新聞熱點發(fā)現(xiàn)[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

3 楊建武;;Web檢索結果的層次聚類研究[A];第二十一屆中國數據庫學術會議論文集(技術報告篇)[C];2004年

4 劉啟亮;鄧敏;李光強;王佳t,

本文編號:525342


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/525342.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶51944***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com