基于語義相似度計算的Deep Web數(shù)據(jù)庫檢索方案研究

發(fā)布時間：2017-10-18 09:00

本文關鍵詞：基于語義相似度計算的Deep Web數(shù)據(jù)庫檢索方案研究

【摘要】：隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,我們正處在一個信息快速增長的年代,并且在海量增長的信息中往往蘊含著大量有價值的數(shù)據(jù)。雖然在日常生活中,我們可以通過各種搜索引擎解決我們的需求,但是有時候搜索出來的信息,往往在信息相關的程度和精度上,與我們期望的存在著差異,從而不能夠完全滿足我們的搜索需求。通常我們使用的一些搜索引擎,比如Baidu、Google、Yahoo等等,往往都是通過網(wǎng)絡爬蟲技術,將相關的網(wǎng)站頁面首先抓取到自身的服務器上。我們在對關鍵詞進行搜索的時候,實際上是直接查詢本地相關文件,反映給我們的往往也是一些靜態(tài)的網(wǎng)頁數(shù)據(jù)。日常范圍內(nèi)的搜索,我們很難通過關鍵詞的簡單查詢完全獲得Deep Web DB的數(shù)據(jù),從而損失丁海量有價值數(shù)據(jù)信息。本文提出了基于語義相似度計算的Deep Web數(shù)據(jù)庫檢索力法,該力法的目的在于將語義相似度的計算方法運用于數(shù)據(jù)庫檢索當中去,最終將該方法同傳統(tǒng)搜索引擎有效結合,更加滿足用戶搜索需求。本文首先簡要的介紹了幾種常見的語義相似度的計算方法,最后結合各自的優(yōu)點,將同義詞詞林(哈工大版)和知網(wǎng)(HowNet)有效結合,提出了一種改進的語義相似度的計算方法。通過計算關鍵詞和屬性詞典對應屬性列之間的相關聯(lián)度,在基于閥值的匹配算法的基礎上,確定當前關鍵詞的查詢的搜索范圍,挖掘出潛在于Deep Web數(shù)據(jù)庫中與關鍵詞有關聯(lián)的信息。通過對Deep Web數(shù)據(jù)庫的相應查詢,最終將查詢的結果通過有效的形式反饋給當前用戶由丁當前Deep Web下中文測試數(shù)據(jù)庫相對較少,我們采用的是某校信息管理系統(tǒng)的后臺數(shù)據(jù)庫作為數(shù)據(jù)源進行測試。實驗部分舉例驗證和測試了本文中所提出的方法的可行性和正確性,不僅避免了數(shù)據(jù)庫均全表掃描的代價,同時也盡可能的精確當前關鍵詞的查詢范圍,并且后期通過與搜索引擎的無縫集合,提供給用戶高效、穩(wěn)定的查詢體驗。
【關鍵詞】：深度萬維網(wǎng) 同義詞詞林 知網(wǎng) 語義相似度 屬性詞典
【學位授予單位】：上海師范大學
【學位級別】：碩士
【學位授予年份】：2014
【分類號】：TP311.13
【目錄】：

Abstract6-7
摘要7-10
第一章緒論10-15
1.1 研究背景10-11
1.2 研究現(xiàn)狀11-12
1.3 研究目的和意義12-13
1.4 論文的主要工作和創(chuàng)新點13
1.5 論文的組織結構13-15
第二章語義相似度及屬性詞典15-28
2.1 語義相似度15-25
2.1.1 語義相似度相關定義15-16
2.1.2 語義相似度關聯(lián)因素16-17
2.1.3 基于同義詞詞林的語義相似度17-19
2.1.4 基于知網(wǎng)的語義相似度19-25
2.2 屬性詞典25-27
2.2.1 基本原理25
2.2.2 模型介紹25-27
2.3 本章小結27-28
第三章 Deep Web 下基于語義相似度方法研究28-38
3.1 語義相似度計算28-31
3.1.1 方法介紹28-30
3.1.2 語義相似度評估標準30-31
3.2 改進的語義相似度的計算方法31-37
3.2.1 方法介紹31-32
3.2.2 基于同義詞詞林的相關詞獲取算法32-33
3.2.3 基于知網(wǎng)（HowNet）的語義相似度33-35
3.2.4 基于閾值的匹配算法35-37
3.3 本章小結37-38
第四章 Deep Web 數(shù)據(jù)庫檢索部分的實現(xiàn)38-46
4.1 系統(tǒng)架構38-41
4.1.1 三層架構介紹38-39
4.1.2 三層架構的優(yōu)勢39-40
4.1.3 三層架構的缺陷40-41
4.2 相關數(shù)據(jù)源配置41-42
4.2.1 ODBC 相關定義41-42
4.2.2 數(shù)據(jù)庫配置文件42
4.3 屬性詞典42-44
4.3.1 以 SQL Server 2008R2 為例42-44
4.3.2 屬性詞典生成步驟44
4.4 本章小結44-46
第五章實驗測試與分析46-52
5.1 測試方案和測試環(huán)境46
5.1.1 測試方案46
5.1.2 測試環(huán)境46
5.2 基于相似度計算模型的 Deep Web 數(shù)據(jù)庫檢索46-49
5.2.1 獲得關鍵詞的相關詞46-47
5.2.2 相關詞語義分析47
5.2.3 語義相似度計算過程47-49
5.3 實驗結果監(jiān)測與分析49-50
5.3.1 評估指標選擇49
5.3.2 實驗結果統(tǒng)計與分析49-50
5.4 本章小結50-52
第六章總結與展望52-54
6.1 工作總結52
6.2 未來研究重點與方向52-54
參考文獻54-57
致謝57-58
攻讀碩士期間的研究成果58

【參考文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學學報(信息科學版);2010年06期

2 何利娟;;使用ODBC API技術進行數(shù)據(jù)轉(zhuǎn)換[J];福建電腦;2012年05期

3 劉偉;孟小峰;孟衛(wèi)一;;Deep Web數(shù)據(jù)集成研究綜述[J];計算機學報;2007年09期

4 劉玉奎;周立柱;范舉;;中文深度萬維網(wǎng)數(shù)據(jù)庫的現(xiàn)狀研究[J];計算機學報;2011年02期

5 談冉;陳巍;薛勝軍;;設計模式在典型.net三層架構Web程序中的應用[J];武漢理工大學學報(交通科學與工程版);2006年02期

6 姜芳艽;孟小峰;;Deep Web數(shù)據(jù)集成中查詢處理的研究與進展[J];計算機科學與探索;2009年02期

7 于江生 ,俞士汶;中文概念詞典的結構[J];中文信息學報;2002年04期

8 張會平;呂學強;施水才;李渝勤;;基于WordNet的語義分布詞典建設[J];現(xiàn)代圖書情報技術;2007年03期

9 劉揚,俞士汶,于江生;CCD語義知識庫的構造研究[J];小型微型計算機系統(tǒng);2005年08期

10 趙朋朋;崔志明;高嶺;仲華;;關于中國Deep Web的規(guī)模、分布和結構[J];小型微型計算機系統(tǒng);2007年10期

，

本文編號：1054092

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1054092.html

上一篇：垂直搜索引擎之主題網(wǎng)絡爬蟲
下一篇：云平臺數(shù)據(jù)庫搜索引擎的實現(xiàn)方法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于語義相似度計算的Deep Web數(shù)據(jù)庫檢索方案研究