天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于HTML特征與層次聚類的Web查詢接口發(fā)現(xiàn)

發(fā)布時(shí)間:2017-07-06 08:06

  本文關(guān)鍵詞:基于HTML特征與層次聚類的Web查詢接口發(fā)現(xiàn)


  更多相關(guān)文章: Web查詢接口 超級文本標(biāo)記語言 層次聚類 結(jié)構(gòu)距離 交互密度 文本過濾器


【摘要】:針對各網(wǎng)站W(wǎng)eb查詢接口(WQI)因結(jié)構(gòu)異構(gòu)而難以被自動發(fā)現(xiàn)的問題,提出一種基于超級文本標(biāo)記語言(HTML)特征和層次聚類的Web查詢接口發(fā)現(xiàn)方法。利用HTML控件元素之間的層級結(jié)構(gòu)、依附關(guān)系和HTML交互控件的終端特性,通過前序和后序遍歷相結(jié)合的方式解析頁面,建立合適的頁面樹狀模型。按照查詢區(qū)域交互密度的局部集中性定位并初始化聚類集合。將聚類集合中各潛在接口區(qū)域結(jié)構(gòu)距離的相似性進(jìn)行層次聚類,并對所得潛在接口中的交互控件選擇合適的文本節(jié)點(diǎn)進(jìn)行語義標(biāo)注,得出完整WQI區(qū)域,利用接口中的文本特征過濾非查詢接口。實(shí)驗(yàn)結(jié)果表明,該方法克服了傳統(tǒng)方法對form標(biāo)簽的過度依賴,具有較強(qiáng)的通用性,接口識別率與準(zhǔn)確率分別達(dá)到90.7%和92%。
【作者單位】: 上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院;
【關(guān)鍵詞】Web查詢接口 超級文本標(biāo)記語言 層次聚類 結(jié)構(gòu)距離 交互密度 文本過濾器
【分類號】:TP393.09;TP391.1
【正文快照】: 1概述Web查詢接口(Web Query Interface,WQI)存在于半結(jié)構(gòu)化的超級文本標(biāo)記語言(Hyper TextMarkup Language,HTML)頁面中,其查詢結(jié)果具有數(shù) 量龐大、專業(yè)性強(qiáng)、價(jià)值高等特點(diǎn),是Deep Web搜索引擎極為重要的數(shù)據(jù)來源[1]。但由于不同站點(diǎn)的異構(gòu)形態(tài),給查詢接口的自動發(fā)現(xiàn)帶來困

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 潘大慶;;基于層次聚類的微博敏感話題檢測算法研究[J];廣西民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期

2 鄭曉鳴;呂士穎;王曉東;;一種基于隨機(jī)抽取的有限深度層次聚類[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2007年03期

3 湯周文;葉東毅;;基于層次聚類的差異化屬性約簡算法[J];計(jì)算機(jī)應(yīng)用;2009年02期

4 文順;趙杰煜;朱紹軍;;基于貝葉斯和諧度的層次聚類[J];模式識別與人工智能;2013年12期

5 龔尚福;陳婉璐;賈澎濤;;層次聚類社區(qū)發(fā)現(xiàn)算法的研究[J];計(jì)算機(jī)應(yīng)用研究;2013年11期

6 香紅麗;王瀟涵;羅淑云;;基于層次聚類方法研究課程關(guān)系結(jié)構(gòu)[J];中國科教創(chuàng)新導(dǎo)刊;2011年26期

7 李曉飛;;基于動態(tài)層次聚類的離散化算法的研究[J];計(jì)算機(jī)應(yīng)用與軟件;2009年10期

8 張闊,徐鵬,李涓子,王克宏;基于優(yōu)化層次聚類的文檔邏輯結(jié)構(gòu)抽取[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年04期

9 王旅;彭宏;胡勁松;梁華芳;;層次聚類在種群親緣關(guān)系研究中的應(yīng)用[J];計(jì)算機(jī)時(shí)代;2006年07期

10 黃健斌;康劍梅;齊俊杰;孫鶴立;;一種基于同步動力學(xué)模型的層次聚類方法[J];中國科學(xué):信息科學(xué);2013年05期

中國重要會議論文全文數(shù)據(jù)庫 前6條

1 吾守爾·斯拉木;吳啟南;;基于層次聚類方法[A];第六屆全國計(jì)算機(jī)應(yīng)用聯(lián)合學(xué)術(shù)會議論文集[C];2002年

2 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網(wǎng)絡(luò)新聞熱點(diǎn)發(fā)現(xiàn)[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

3 楊建武;;Web檢索結(jié)果的層次聚類研究[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2004年

4 劉啟亮;鄧敏;李光強(qiáng);王佳t,

本文編號:525342


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/525342.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶51944***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com