基于HTML特征與層次聚類的Web查詢接口發(fā)現(xiàn)
本文關(guān)鍵詞:基于HTML特征與層次聚類的Web查詢接口發(fā)現(xiàn)
更多相關(guān)文章: Web查詢接口 超級文本標(biāo)記語言 層次聚類 結(jié)構(gòu)距離 交互密度 文本過濾器
【摘要】:針對各網(wǎng)站W(wǎng)eb查詢接口(WQI)因結(jié)構(gòu)異構(gòu)而難以被自動發(fā)現(xiàn)的問題,提出一種基于超級文本標(biāo)記語言(HTML)特征和層次聚類的Web查詢接口發(fā)現(xiàn)方法。利用HTML控件元素之間的層級結(jié)構(gòu)、依附關(guān)系和HTML交互控件的終端特性,通過前序和后序遍歷相結(jié)合的方式解析頁面,建立合適的頁面樹狀模型。按照查詢區(qū)域交互密度的局部集中性定位并初始化聚類集合。將聚類集合中各潛在接口區(qū)域結(jié)構(gòu)距離的相似性進(jìn)行層次聚類,并對所得潛在接口中的交互控件選擇合適的文本節(jié)點(diǎn)進(jìn)行語義標(biāo)注,得出完整WQI區(qū)域,利用接口中的文本特征過濾非查詢接口。實(shí)驗(yàn)結(jié)果表明,該方法克服了傳統(tǒng)方法對form標(biāo)簽的過度依賴,具有較強(qiáng)的通用性,接口識別率與準(zhǔn)確率分別達(dá)到90.7%和92%。
【作者單位】: 上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院;
【關(guān)鍵詞】: Web查詢接口 超級文本標(biāo)記語言 層次聚類 結(jié)構(gòu)距離 交互密度 文本過濾器
【分類號】:TP393.09;TP391.1
【正文快照】: 1概述Web查詢接口(Web Query Interface,WQI)存在于半結(jié)構(gòu)化的超級文本標(biāo)記語言(Hyper TextMarkup Language,HTML)頁面中,其查詢結(jié)果具有數(shù) 量龐大、專業(yè)性強(qiáng)、價(jià)值高等特點(diǎn),是Deep Web搜索引擎極為重要的數(shù)據(jù)來源[1]。但由于不同站點(diǎn)的異構(gòu)形態(tài),給查詢接口的自動發(fā)現(xiàn)帶來困
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 潘大慶;;基于層次聚類的微博敏感話題檢測算法研究[J];廣西民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期
2 鄭曉鳴;呂士穎;王曉東;;一種基于隨機(jī)抽取的有限深度層次聚類[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2007年03期
3 湯周文;葉東毅;;基于層次聚類的差異化屬性約簡算法[J];計(jì)算機(jī)應(yīng)用;2009年02期
4 文順;趙杰煜;朱紹軍;;基于貝葉斯和諧度的層次聚類[J];模式識別與人工智能;2013年12期
5 龔尚福;陳婉璐;賈澎濤;;層次聚類社區(qū)發(fā)現(xiàn)算法的研究[J];計(jì)算機(jī)應(yīng)用研究;2013年11期
6 香紅麗;王瀟涵;羅淑云;;基于層次聚類方法研究課程關(guān)系結(jié)構(gòu)[J];中國科教創(chuàng)新導(dǎo)刊;2011年26期
7 李曉飛;;基于動態(tài)層次聚類的離散化算法的研究[J];計(jì)算機(jī)應(yīng)用與軟件;2009年10期
8 張闊,徐鵬,李涓子,王克宏;基于優(yōu)化層次聚類的文檔邏輯結(jié)構(gòu)抽取[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年04期
9 王旅;彭宏;胡勁松;梁華芳;;層次聚類在種群親緣關(guān)系研究中的應(yīng)用[J];計(jì)算機(jī)時(shí)代;2006年07期
10 黃健斌;康劍梅;齊俊杰;孫鶴立;;一種基于同步動力學(xué)模型的層次聚類方法[J];中國科學(xué):信息科學(xué);2013年05期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 吾守爾·斯拉木;吳啟南;;基于層次聚類方法[A];第六屆全國計(jì)算機(jī)應(yīng)用聯(lián)合學(xué)術(shù)會議論文集[C];2002年
2 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網(wǎng)絡(luò)新聞熱點(diǎn)發(fā)現(xiàn)[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 楊建武;;Web檢索結(jié)果的層次聚類研究[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2004年
4 劉啟亮;鄧敏;李光強(qiáng);王佳t,
本文編號:525342
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/525342.html