Web數(shù)據(jù)庫(kù)特征表示和抽取方法的研究
發(fā)布時(shí)間:2019-02-17 13:56
【摘要】:隨著Internet的發(fā)展,Web正在加速地“深化”,,Web可以簡(jiǎn)單地分為兩部分:Surface Web和Deep Web。前者是指通過(guò)超鏈接就可以被傳統(tǒng)搜索引擎搜索到的頁(yè)面的集合;后者普遍被認(rèn)為是網(wǎng)絡(luò)中可訪(fǎng)問(wèn)的在線(xiàn)數(shù)據(jù)庫(kù)。與Surface Web的信息相比,Deep Web中所包含的信息數(shù)據(jù)量更大、信息質(zhì)量更好、專(zhuān)業(yè)性更強(qiáng),因此日益成為人們獲取信息的主要途徑之一。由于Deep Web中大量的信息被鎖定在數(shù)據(jù)庫(kù)內(nèi),而許多網(wǎng)頁(yè)也是通過(guò)響應(yīng)具體的查詢(xún)動(dòng)態(tài)生成的,所以實(shí)現(xiàn)對(duì)Deep Web或WDB(Web數(shù)據(jù)庫(kù))的檢索,不僅將大大擴(kuò)充現(xiàn)有搜索引擎的搜索能力,更為人們方便地進(jìn)行信息查找提供了便捷的手段。 WDB查詢(xún)接口是我們?cè)L問(wèn)和檢索WDB的唯一路徑,每個(gè)查詢(xún)接口對(duì)應(yīng)于不同的查詢(xún)模式,用戶(hù)通過(guò)填寫(xiě)不同的查詢(xún)接口并提交請(qǐng)求,從而發(fā)現(xiàn)合適的信息。但是隨著JavaScript、Ajax等動(dòng)態(tài)腳本技術(shù)的廣泛應(yīng)用,查詢(xún)接口的復(fù)雜性也在逐漸增加,另外網(wǎng)上有眾多的WDB,而且其包含的數(shù)據(jù)也是多種多樣的,所以快速識(shí)別WDB這類(lèi)動(dòng)態(tài)查詢(xún)接口的特征、發(fā)現(xiàn)接口內(nèi)各元素之間的約束關(guān)系、實(shí)現(xiàn)接口特征的量化表示并對(duì)特定領(lǐng)域的WDB數(shù)據(jù)的特征進(jìn)行定量描述和抽取是實(shí)現(xiàn)對(duì)WDB自動(dòng)訪(fǎng)問(wèn)和提高傳統(tǒng)搜索引擎搜索能力的關(guān)鍵步驟。 本文針對(duì)以上問(wèn)題,主要以WDB特征為主線(xiàn)研究了WDB查詢(xún)接口和WDB數(shù)據(jù)特征的表示方法、Web數(shù)據(jù)庫(kù)采樣、WDB查詢(xún)接口和WDB數(shù)據(jù)特征的抽取方法。具體研究?jī)?nèi)容包括: (1) WDB查詢(xún)接口和WDB數(shù)據(jù)特征的表示方法 本文將WDB數(shù)據(jù)屬性分為三類(lèi),即文本屬性、分類(lèi)屬性和數(shù)值屬性。對(duì)于文本屬性,采取基于詞頻的特征表示;對(duì)于數(shù)值型屬性,基于數(shù)值屬性具有連續(xù)性的特點(diǎn),且正態(tài)分布具有強(qiáng)大的普適性,我們采用正態(tài)分布的期望和偏差表示數(shù)值屬性的特征;對(duì)于分類(lèi)型屬性采取基于統(tǒng)計(jì)的特征表示方法。在獲取以上各類(lèi)屬性的特征后,將形成最終的特征向量。最后,因?yàn)楸倔w具備良好的知識(shí)表示能力和推理能力,本研究采用本體的方法進(jìn)行查詢(xún)接口的表示。 (2)基于貝葉斯模型的數(shù)據(jù)樣本抽取方法 為了實(shí)現(xiàn)對(duì)WDB特征的抽取,本文提出一種基于貝葉斯模型數(shù)據(jù)樣本抽取方法,該方法大體過(guò)程分為5個(gè)步驟:①構(gòu)建WDB初始查詢(xún);②通過(guò)初始查詢(xún)獲得查詢(xún)結(jié)果;③將結(jié)果加入樣本集并對(duì)查詢(xún)結(jié)果進(jìn)行分析,分別計(jì)算出各個(gè)特征詞的概率和條件概率,為下一個(gè)查詢(xún)做準(zhǔn)備;④根據(jù)相似性原則判定獲取樣本的循環(huán)是否應(yīng)該被終止;⑤繼續(xù)下一步查詢(xún),直到循環(huán)被終止。根據(jù)實(shí)驗(yàn)對(duì)本文提出的采樣方法的合理性和有效性進(jìn)行了驗(yàn)證。 (3) WDB查詢(xún)接口和WDB數(shù)據(jù)特征的抽取方法 基于以上研究,本文給出了WDB查詢(xún)接口抽取方法和WDB數(shù)據(jù)特征抽取方法。首先,針對(duì)查詢(xún)接口的上下文信息、表單信息以及表單域之間的關(guān)聯(lián)信息給出相應(yīng)的抽取方法,分別為基于正則表達(dá)式的表單信息的抽取和基于Watir和Ajax的表單域關(guān)系的抽。黄浯吾槍(duì)WDB數(shù)據(jù)特征的抽取,分別給出了基于詞頻的文本型數(shù)據(jù)特征抽取、基于正態(tài)分布的數(shù)值型數(shù)據(jù)特征抽取和基于記錄數(shù)量比值的分類(lèi)型數(shù)據(jù)特征抽取。
[Abstract]:With the development of the Internet, the Web is speeding up the 鈥渄eepen鈥
本文編號(hào):2425235
[Abstract]:With the development of the Internet, the Web is speeding up the 鈥渄eepen鈥
本文編號(hào):2425235
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2425235.html
最近更新
教材專(zhuān)著