DeepWeb查詢接口的模式匹配研究
發(fā)布時間:2017-03-27 02:08
本文關(guān)鍵詞:DeepWeb查詢接口的模式匹配研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)和計算機學科技術(shù)的超快速發(fā)展,Web網(wǎng)頁信息是通過靜態(tài)和動態(tài)的2種方式向服務(wù)器端發(fā)布網(wǎng)頁信息,其發(fā)布的在網(wǎng)絡(luò)數(shù)據(jù)庫中網(wǎng)頁數(shù)據(jù)量十分可怕的,但是,存在服務(wù)器上的網(wǎng)頁可以分為淺層網(wǎng)SurfaceWeb和深度網(wǎng)DeepWeb兩種,Surface Web則是通過一種靜態(tài)的鏈接方式即可被訪問到的網(wǎng)頁,SurfaceWeb網(wǎng)頁信息則可以被大多數(shù)的搜索引擎抓取網(wǎng)頁內(nèi)容,而相對于SurfaceWeb而言,DeepWeb則是指存在服務(wù)器上的某些的網(wǎng)絡(luò)數(shù)據(jù)庫,那么,對于這些網(wǎng)絡(luò)數(shù)據(jù)庫來說,其網(wǎng)頁內(nèi)容是根據(jù)用戶查詢條件動態(tài)可變的,這些網(wǎng)絡(luò)數(shù)據(jù)庫并不能被傳統(tǒng)的搜索引擎抓取到信息,DeepWeb中潛藏更大價值的數(shù)據(jù)信息。 目前,越來越多人們獲取信息的主要來源是DeepWeb,,而網(wǎng)頁信息內(nèi)容則是以結(jié)構(gòu)化的分布形式存儲到網(wǎng)絡(luò)數(shù)據(jù)庫之中。DeepWeb中包含著海量的數(shù)據(jù)信息,很高質(zhì)量的數(shù)據(jù)信息隱藏在DeepWeb中,如何在DeepWeb中快速有效地獲取高質(zhì)量的數(shù)據(jù)信息?DeepWeb卻不能被傳統(tǒng)搜索引擎搜索到隱藏在深度網(wǎng)中數(shù)據(jù),研究DeepWeb查詢結(jié)果的目的是有助于實現(xiàn)對DeepWep中的數(shù)據(jù)信息的自動抽取,可以更快捷、更準確地獲取知識。 在form表單中體現(xiàn)用戶多種查詢條件組合,由于DeepWeb只關(guān)注于某個領(lǐng)域,因此,本文將引入WordNet的語義關(guān)系作為DeepWeb查詢接口表單模式匹配過程。本文將會提出一種研究DeepWeb查詢接口的模式匹配的新方法,論文框架包括4個方面: 1)對網(wǎng)頁文檔中form表單的進行查詢接口表單的定位與識別,并通過一種啟發(fā)式規(guī)則排除非查詢接口的form表單,獲取到存在查詢接口表單位置列表; 2)分析并排除有效的查詢接口表單屬性并進行解析操作,獲得查詢接口中表單的文本標記和控件標記信息; 3)基于HTML內(nèi)部編碼規(guī)則和網(wǎng)頁視覺單元內(nèi)部存在的規(guī)則進行查詢接口中form自動抽取表單屬性; 4)在WordNet的指導控制下定位與識別、抽取表單屬性信息中的各種語義關(guān)系,然后,根據(jù)它們之間的語義關(guān)系進行屬性關(guān)系重組,獲得語義關(guān)系上表單匹配模式。 本文設(shè)計一種基于WordNet的DeepWeb查詢接口的模式匹配方法研究,并實現(xiàn)了定位于識別表單位置、匹配文本標簽與控件標記的語義相似度的基礎(chǔ)之上,本文又提出一種新的查詢接口表單屬性匹配的新方法,更好地實現(xiàn)了各個語義標簽與控件標簽之間的語義相似度計算和查詢接口的屬性匹配模式,實驗結(jié)果分析表明,這種算法的實際應用是有效可行的。
【關(guān)鍵詞】:DeepWeb 查詢接口 模式匹配 WordNet
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.09;TP391.1
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 引言10-17
- 1.1 研究背景10-11
- 1.2 研究目的11-12
- 1.3 研究現(xiàn)狀12-14
- 1.4 研究內(nèi)容14-15
- 1.5 研究意義15-16
- 1.6 論文結(jié)構(gòu)16-17
- 第2章 相關(guān)知識簡介17-24
- 2.1 HTML 介紹17-20
- 2.1.1 HTML 元素17-18
- 2.1.2 HTML 表單18-20
- 2.2 本體知識20-21
- 2.2.1 本體20
- 2.2.2 領(lǐng)域本體20-21
- 2.2.3 本體構(gòu)建21
- 2.3 DeepWeb 介紹21-23
- 2.3.1 DeepWeb 概念21-22
- 2.3.2 DeepWeb 特點22
- 2.3.3 DeepWeb 類型22-23
- 2.4 小結(jié)23-24
- 第3章 DeepWeb 查詢接口的模式匹配算法24-34
- 3.1 查詢接口模式匹配定義24-26
- 3.2 查詢接口模式匹配過程26-28
- 3.2.1 模式匹配類型定義26
- 3.2.2 模式匹配預處理過程26-27
- 3.2.3 模式匹配過程27-28
- 3.3 DeepWeb 查詢接口的模式匹配算法28-33
- 3.3.1 表單區(qū)域識別定位28-29
- 3.3.2 查詢接口表單解析29-30
- 3.3.3 查詢接口表單屬性的自動抽取30-32
- 3.3.4 模式匹配算法32-33
- 3.4 小結(jié)33-34
- 第4章 實驗結(jié)果及分析34-38
- 4.1 實驗環(huán)境34
- 4.1.1 硬件環(huán)境34
- 4.1.2 軟件環(huán)境34
- 4.2 實驗數(shù)據(jù)34-36
- 4.3 實驗結(jié)果及實驗分析36-37
- 4.4 小結(jié)37-38
- 第5章 結(jié)論與展望38-40
- 5.1 結(jié)論38-39
- 5.2 展望39-40
- 參考文獻40-43
- 作者簡介及在學期間所取得的科研成果43-44
- 致謝44
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學學報(自然科學版);2002年05期
2 劉偉;孟小峰;孟衛(wèi)一;;Deep Web數(shù)據(jù)集成研究綜述[J];計算機學報;2007年09期
3 杜小勇;李曼;王珊;;本體學習研究綜述[J];軟件學報;2006年09期
4 梁浩;左萬利;任斐;赫楓齡;;基于本體實例信息的深度網(wǎng)表單屬性自動抽取[J];小型微型計算機系統(tǒng);2009年05期
本文關(guān)鍵詞:DeepWeb查詢接口的模式匹配研究,由筆耕文化傳播整理發(fā)布。
本文編號:269732
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/269732.html
最近更新
教材專著