基于HTML特征與層次聚類的Web查詢接口發(fā)現(xiàn)
本文關鍵詞:基于HTML特征與層次聚類的Web查詢接口發(fā)現(xiàn)
更多相關文章: Web查詢接口 超級文本標記語言 層次聚類 結構距離 交互密度 文本過濾器
【摘要】:針對各網站Web查詢接口(WQI)因結構異構而難以被自動發(fā)現(xiàn)的問題,提出一種基于超級文本標記語言(HTML)特征和層次聚類的Web查詢接口發(fā)現(xiàn)方法。利用HTML控件元素之間的層級結構、依附關系和HTML交互控件的終端特性,通過前序和后序遍歷相結合的方式解析頁面,建立合適的頁面樹狀模型。按照查詢區(qū)域交互密度的局部集中性定位并初始化聚類集合。將聚類集合中各潛在接口區(qū)域結構距離的相似性進行層次聚類,并對所得潛在接口中的交互控件選擇合適的文本節(jié)點進行語義標注,得出完整WQI區(qū)域,利用接口中的文本特征過濾非查詢接口。實驗結果表明,該方法克服了傳統(tǒng)方法對form標簽的過度依賴,具有較強的通用性,接口識別率與準確率分別達到90.7%和92%。
【作者單位】: 上海大學計算機工程與科學學院;
【關鍵詞】: Web查詢接口 超級文本標記語言 層次聚類 結構距離 交互密度 文本過濾器
【分類號】:TP393.09;TP391.1
【正文快照】: 1概述Web查詢接口(Web Query Interface,WQI)存在于半結構化的超級文本標記語言(Hyper TextMarkup Language,HTML)頁面中,其查詢結果具有數 量龐大、專業(yè)性強、價值高等特點,是Deep Web搜索引擎極為重要的數據來源[1]。但由于不同站點的異構形態(tài),給查詢接口的自動發(fā)現(xiàn)帶來困
【相似文獻】
中國期刊全文數據庫 前10條
1 潘大慶;;基于層次聚類的微博敏感話題檢測算法研究[J];廣西民族大學學報(自然科學版);2012年04期
2 鄭曉鳴;呂士穎;王曉東;;一種基于隨機抽取的有限深度層次聚類[J];鄭州大學學報(理學版);2007年03期
3 湯周文;葉東毅;;基于層次聚類的差異化屬性約簡算法[J];計算機應用;2009年02期
4 文順;趙杰煜;朱紹軍;;基于貝葉斯和諧度的層次聚類[J];模式識別與人工智能;2013年12期
5 龔尚福;陳婉璐;賈澎濤;;層次聚類社區(qū)發(fā)現(xiàn)算法的研究[J];計算機應用研究;2013年11期
6 香紅麗;王瀟涵;羅淑云;;基于層次聚類方法研究課程關系結構[J];中國科教創(chuàng)新導刊;2011年26期
7 李曉飛;;基于動態(tài)層次聚類的離散化算法的研究[J];計算機應用與軟件;2009年10期
8 張闊,徐鵬,李涓子,王克宏;基于優(yōu)化層次聚類的文檔邏輯結構抽取[J];清華大學學報(自然科學版);2005年04期
9 王旅;彭宏;胡勁松;梁華芳;;層次聚類在種群親緣關系研究中的應用[J];計算機時代;2006年07期
10 黃健斌;康劍梅;齊俊杰;孫鶴立;;一種基于同步動力學模型的層次聚類方法[J];中國科學:信息科學;2013年05期
中國重要會議論文全文數據庫 前6條
1 吾守爾·斯拉木;吳啟南;;基于層次聚類方法[A];第六屆全國計算機應用聯(lián)合學術會議論文集[C];2002年
2 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網絡新聞熱點發(fā)現(xiàn)[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
3 楊建武;;Web檢索結果的層次聚類研究[A];第二十一屆中國數據庫學術會議論文集(技術報告篇)[C];2004年
4 劉啟亮;鄧敏;李光強;王佳t,
本文編號:525342
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/525342.html