DeepWeb查詢接口的模式匹配研究
發(fā)布時(shí)間:2017-03-27 02:08
本文關(guān)鍵詞:DeepWeb查詢接口的模式匹配研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)和計(jì)算機(jī)學(xué)科技術(shù)的超快速發(fā)展,Web網(wǎng)頁(yè)信息是通過靜態(tài)和動(dòng)態(tài)的2種方式向服務(wù)器端發(fā)布網(wǎng)頁(yè)信息,其發(fā)布的在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中網(wǎng)頁(yè)數(shù)據(jù)量十分可怕的,但是,存在服務(wù)器上的網(wǎng)頁(yè)可以分為淺層網(wǎng)SurfaceWeb和深度網(wǎng)DeepWeb兩種,Surface Web則是通過一種靜態(tài)的鏈接方式即可被訪問到的網(wǎng)頁(yè),SurfaceWeb網(wǎng)頁(yè)信息則可以被大多數(shù)的搜索引擎抓取網(wǎng)頁(yè)內(nèi)容,而相對(duì)于SurfaceWeb而言,DeepWeb則是指存在服務(wù)器上的某些的網(wǎng)絡(luò)數(shù)據(jù)庫(kù),那么,對(duì)于這些網(wǎng)絡(luò)數(shù)據(jù)庫(kù)來(lái)說,其網(wǎng)頁(yè)內(nèi)容是根據(jù)用戶查詢條件動(dòng)態(tài)可變的,這些網(wǎng)絡(luò)數(shù)據(jù)庫(kù)并不能被傳統(tǒng)的搜索引擎抓取到信息,DeepWeb中潛藏更大價(jià)值的數(shù)據(jù)信息。 目前,越來(lái)越多人們獲取信息的主要來(lái)源是DeepWeb,,而網(wǎng)頁(yè)信息內(nèi)容則是以結(jié)構(gòu)化的分布形式存儲(chǔ)到網(wǎng)絡(luò)數(shù)據(jù)庫(kù)之中。DeepWeb中包含著海量的數(shù)據(jù)信息,很高質(zhì)量的數(shù)據(jù)信息隱藏在DeepWeb中,如何在DeepWeb中快速有效地獲取高質(zhì)量的數(shù)據(jù)信息?DeepWeb卻不能被傳統(tǒng)搜索引擎搜索到隱藏在深度網(wǎng)中數(shù)據(jù),研究DeepWeb查詢結(jié)果的目的是有助于實(shí)現(xiàn)對(duì)DeepWep中的數(shù)據(jù)信息的自動(dòng)抽取,可以更快捷、更準(zhǔn)確地獲取知識(shí)。 在form表單中體現(xiàn)用戶多種查詢條件組合,由于DeepWeb只關(guān)注于某個(gè)領(lǐng)域,因此,本文將引入WordNet的語(yǔ)義關(guān)系作為DeepWeb查詢接口表單模式匹配過程。本文將會(huì)提出一種研究DeepWeb查詢接口的模式匹配的新方法,論文框架包括4個(gè)方面: 1)對(duì)網(wǎng)頁(yè)文檔中form表單的進(jìn)行查詢接口表單的定位與識(shí)別,并通過一種啟發(fā)式規(guī)則排除非查詢接口的form表單,獲取到存在查詢接口表單位置列表; 2)分析并排除有效的查詢接口表單屬性并進(jìn)行解析操作,獲得查詢接口中表單的文本標(biāo)記和控件標(biāo)記信息; 3)基于HTML內(nèi)部編碼規(guī)則和網(wǎng)頁(yè)視覺單元內(nèi)部存在的規(guī)則進(jìn)行查詢接口中form自動(dòng)抽取表單屬性; 4)在WordNet的指導(dǎo)控制下定位與識(shí)別、抽取表單屬性信息中的各種語(yǔ)義關(guān)系,然后,根據(jù)它們之間的語(yǔ)義關(guān)系進(jìn)行屬性關(guān)系重組,獲得語(yǔ)義關(guān)系上表單匹配模式。 本文設(shè)計(jì)一種基于WordNet的DeepWeb查詢接口的模式匹配方法研究,并實(shí)現(xiàn)了定位于識(shí)別表單位置、匹配文本標(biāo)簽與控件標(biāo)記的語(yǔ)義相似度的基礎(chǔ)之上,本文又提出一種新的查詢接口表單屬性匹配的新方法,更好地實(shí)現(xiàn)了各個(gè)語(yǔ)義標(biāo)簽與控件標(biāo)簽之間的語(yǔ)義相似度計(jì)算和查詢接口的屬性匹配模式,實(shí)驗(yàn)結(jié)果分析表明,這種算法的實(shí)際應(yīng)用是有效可行的。
【關(guān)鍵詞】:DeepWeb 查詢接口 模式匹配 WordNet
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.09;TP391.1
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 引言10-17
- 1.1 研究背景10-11
- 1.2 研究目的11-12
- 1.3 研究現(xiàn)狀12-14
- 1.4 研究?jī)?nèi)容14-15
- 1.5 研究意義15-16
- 1.6 論文結(jié)構(gòu)16-17
- 第2章 相關(guān)知識(shí)簡(jiǎn)介17-24
- 2.1 HTML 介紹17-20
- 2.1.1 HTML 元素17-18
- 2.1.2 HTML 表單18-20
- 2.2 本體知識(shí)20-21
- 2.2.1 本體20
- 2.2.2 領(lǐng)域本體20-21
- 2.2.3 本體構(gòu)建21
- 2.3 DeepWeb 介紹21-23
- 2.3.1 DeepWeb 概念21-22
- 2.3.2 DeepWeb 特點(diǎn)22
- 2.3.3 DeepWeb 類型22-23
- 2.4 小結(jié)23-24
- 第3章 DeepWeb 查詢接口的模式匹配算法24-34
- 3.1 查詢接口模式匹配定義24-26
- 3.2 查詢接口模式匹配過程26-28
- 3.2.1 模式匹配類型定義26
- 3.2.2 模式匹配預(yù)處理過程26-27
- 3.2.3 模式匹配過程27-28
- 3.3 DeepWeb 查詢接口的模式匹配算法28-33
- 3.3.1 表單區(qū)域識(shí)別定位28-29
- 3.3.2 查詢接口表單解析29-30
- 3.3.3 查詢接口表單屬性的自動(dòng)抽取30-32
- 3.3.4 模式匹配算法32-33
- 3.4 小結(jié)33-34
- 第4章 實(shí)驗(yàn)結(jié)果及分析34-38
- 4.1 實(shí)驗(yàn)環(huán)境34
- 4.1.1 硬件環(huán)境34
- 4.1.2 軟件環(huán)境34
- 4.2 實(shí)驗(yàn)數(shù)據(jù)34-36
- 4.3 實(shí)驗(yàn)結(jié)果及實(shí)驗(yàn)分析36-37
- 4.4 小結(jié)37-38
- 第5章 結(jié)論與展望38-40
- 5.1 結(jié)論38-39
- 5.2 展望39-40
- 參考文獻(xiàn)40-43
- 作者簡(jiǎn)介及在學(xué)期間所取得的科研成果43-44
- 致謝44
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條
1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年05期
2 劉偉;孟小峰;孟衛(wèi)一;;Deep Web數(shù)據(jù)集成研究綜述[J];計(jì)算機(jī)學(xué)報(bào);2007年09期
3 杜小勇;李曼;王珊;;本體學(xué)習(xí)研究綜述[J];軟件學(xué)報(bào);2006年09期
4 梁浩;左萬(wàn)利;任斐;赫楓齡;;基于本體實(shí)例信息的深度網(wǎng)表單屬性自動(dòng)抽取[J];小型微型計(jì)算機(jī)系統(tǒng);2009年05期
本文關(guān)鍵詞:DeepWeb查詢接口的模式匹配研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):269731
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/269731.html
最近更新
教材專著