深層網(wǎng)中基于入口查詢的表單填充策略
發(fā)布時(shí)間:2018-05-02 20:02
本文選題:深層網(wǎng) + 入口查詢; 參考:《計(jì)算機(jī)工程》2010年07期
【摘要】:針對(duì)深層網(wǎng)中數(shù)據(jù)量大導(dǎo)致無(wú)法被傳統(tǒng)搜索引擎索引的問(wèn)題,在提取網(wǎng)頁(yè)中,改進(jìn)啟發(fā)式規(guī)則識(shí)別表單查詢?nèi)肟?在表單標(biāo)簽與內(nèi)容匹配時(shí),改進(jìn)基于語(yǔ)義的相似度匹配算法進(jìn)行表單內(nèi)容填充。實(shí)驗(yàn)結(jié)果表明,提取表單標(biāo)簽的準(zhǔn)確率達(dá)到94.23%,匹配成功率達(dá)到88.83%,填充成功率達(dá)到95.43%。
[Abstract]:Aiming at the problem that the large amount of data in the deep web can not be indexed by the traditional search engine, the heuristic rules are improved to identify the entry of the form query in the extraction page, and when the form label and the content match, An improved similarity matching algorithm based on semantics is used to fill the form content. The experimental results show that the accuracy of extracting form labels is 94.23, the matching success rate is 88.83, and the filling success rate is 95.43.
【作者單位】: 南京郵電大學(xué)教務(wù)處;南京師范大學(xué)教育技術(shù)系;
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 袁小龍;李曉霞;郭力;;深層網(wǎng)技術(shù)在專利數(shù)據(jù)提取中的應(yīng)用[J];計(jì)算機(jī)與應(yīng)用化學(xué);2011年08期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)碩士學(xué)位論文 前2條
1 李三義;基于模型匹配的Deep Web數(shù)據(jù)庫(kù)分類[D];吉林大學(xué);2010年
2 郭若飛;支持Ajax的Deep Web爬蟲技術(shù)研究[D];蘇州大學(xué);2010年
,本文編號(hào):1835282
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1835282.html
最近更新
教材專著