基于語義相似度計算的Deep Web數(shù)據(jù)庫檢索方案研究
本文關鍵詞:基于語義相似度計算的Deep Web數(shù)據(jù)庫檢索方案研究
更多相關文章: 深度萬維網(wǎng) 同義詞詞林 知網(wǎng) 語義相似度 屬性詞典
【摘要】:隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,我們正處在一個信息快速增長的年代,并且在海量增長的信息中往往蘊含著大量有價值的數(shù)據(jù)。雖然在日常生活中,我們可以通過各種搜索引擎解決我們的需求,但是有時候搜索出來的信息,往往在信息相關的程度和精度上,與我們期望的存在著差異,從而不能夠完全滿足我們的搜索需求。通常我們使用的一些搜索引擎,比如Baidu、Google、Yahoo等等,往往都是通過網(wǎng)絡爬蟲技術,將相關的網(wǎng)站頁面首先抓取到自身的服務器上。我們在對關鍵詞進行搜索的時候,實際上是直接查詢本地相關文件,反映給我們的往往也是一些靜態(tài)的網(wǎng)頁數(shù)據(jù)。日常范圍內(nèi)的搜索,我們很難通過關鍵詞的簡單查詢完全獲得Deep Web DB的數(shù)據(jù),從而損失丁海量有價值數(shù)據(jù)信息。 本文提出了基于語義相似度計算的Deep Web數(shù)據(jù)庫檢索力法,該力法的目的在于將語義相似度的計算方法運用于數(shù)據(jù)庫檢索當中去,最終將該方法同傳統(tǒng)搜索引擎有效結合,更加滿足用戶搜索需求。本文首先簡要的介紹了幾種常見的語義相似度的計算方法,最后結合各自的優(yōu)點,將同義詞詞林(哈工大版)和知網(wǎng)(HowNet)有效結合,提出了一種改進的語義相似度的計算方法。通過計算關鍵詞和屬性詞典對應屬性列之間的相關聯(lián)度,在基于閥值的匹配算法的基礎上,確定當前關鍵詞的查詢的搜索范圍,挖掘出潛在于Deep Web數(shù)據(jù)庫中與關鍵詞有關聯(lián)的信息。通過對Deep Web數(shù)據(jù)庫的相應查詢,最終將查詢的結果通過有效的形式反饋給當前用戶 由丁當前Deep Web下中文測試數(shù)據(jù)庫相對較少,我們采用的是某校信息管理系統(tǒng)的后臺數(shù)據(jù)庫作為數(shù)據(jù)源進行測試。實驗部分舉例驗證和測試了本文中所提出的方法的可行性和正確性,不僅避免了數(shù)據(jù)庫均全表掃描的代價,同時也盡可能的精確當前關鍵詞的查詢范圍,并且后期通過與搜索引擎的無縫集合,提供給用戶高效、穩(wěn)定的查詢體驗。
【關鍵詞】:深度萬維網(wǎng) 同義詞詞林 知網(wǎng) 語義相似度 屬性詞典
【學位授予單位】:上海師范大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP311.13
【目錄】:
- Abstract6-7
- 摘要7-10
- 第一章 緒論10-15
- 1.1 研究背景10-11
- 1.2 研究現(xiàn)狀11-12
- 1.3 研究目的和意義12-13
- 1.4 論文的主要工作和創(chuàng)新點13
- 1.5 論文的組織結構13-15
- 第二章 語義相似度及屬性詞典15-28
- 2.1 語義相似度15-25
- 2.1.1 語義相似度相關定義15-16
- 2.1.2 語義相似度關聯(lián)因素16-17
- 2.1.3 基于同義詞詞林的語義相似度17-19
- 2.1.4 基于知網(wǎng)的語義相似度19-25
- 2.2 屬性詞典25-27
- 2.2.1 基本原理25
- 2.2.2 模型介紹25-27
- 2.3 本章小結27-28
- 第三章 Deep Web 下基于語義相似度方法研究28-38
- 3.1 語義相似度計算28-31
- 3.1.1 方法介紹28-30
- 3.1.2 語義相似度評估標準30-31
- 3.2 改進的語義相似度的計算方法31-37
- 3.2.1 方法介紹31-32
- 3.2.2 基于同義詞詞林的相關詞獲取算法32-33
- 3.2.3 基于知網(wǎng)(HowNet)的語義相似度33-35
- 3.2.4 基于閾值的匹配算法35-37
- 3.3 本章小結37-38
- 第四章 Deep Web 數(shù)據(jù)庫檢索部分的實現(xiàn)38-46
- 4.1 系統(tǒng)架構38-41
- 4.1.1 三層架構介紹38-39
- 4.1.2 三層架構的優(yōu)勢39-40
- 4.1.3 三層架構的缺陷40-41
- 4.2 相關數(shù)據(jù)源配置41-42
- 4.2.1 ODBC 相關定義41-42
- 4.2.2 數(shù)據(jù)庫配置文件42
- 4.3 屬性詞典42-44
- 4.3.1 以 SQL Server 2008R2 為例42-44
- 4.3.2 屬性詞典生成步驟44
- 4.4 本章小結44-46
- 第五章 實驗測試與分析46-52
- 5.1 測試方案和測試環(huán)境46
- 5.1.1 測試方案46
- 5.1.2 測試環(huán)境46
- 5.2 基于相似度計算模型的 Deep Web 數(shù)據(jù)庫檢索46-49
- 5.2.1 獲得關鍵詞的相關詞46-47
- 5.2.2 相關詞語義分析47
- 5.2.3 語義相似度計算過程47-49
- 5.3 實驗結果監(jiān)測與分析49-50
- 5.3.1 評估指標選擇49
- 5.3.2 實驗結果統(tǒng)計與分析49-50
- 5.4 本章小結50-52
- 第六章 總結與展望52-54
- 6.1 工作總結52
- 6.2 未來研究重點與方向52-54
- 參考文獻54-57
- 致謝57-58
- 攻讀碩士期間的研究成果58
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學學報(信息科學版);2010年06期
2 何利娟;;使用ODBC API技術進行數(shù)據(jù)轉(zhuǎn)換[J];福建電腦;2012年05期
3 劉偉;孟小峰;孟衛(wèi)一;;Deep Web數(shù)據(jù)集成研究綜述[J];計算機學報;2007年09期
4 劉玉奎;周立柱;范舉;;中文深度萬維網(wǎng)數(shù)據(jù)庫的現(xiàn)狀研究[J];計算機學報;2011年02期
5 談冉;陳巍;薛勝軍;;設計模式在典型.net三層架構Web程序中的應用[J];武漢理工大學學報(交通科學與工程版);2006年02期
6 姜芳艽;孟小峰;;Deep Web數(shù)據(jù)集成中查詢處理的研究與進展[J];計算機科學與探索;2009年02期
7 于江生 ,俞士汶;中文概念詞典的結構[J];中文信息學報;2002年04期
8 張會平;呂學強;施水才;李渝勤;;基于WordNet的語義分布詞典建設[J];現(xiàn)代圖書情報技術;2007年03期
9 劉揚,俞士汶,于江生;CCD語義知識庫的構造研究[J];小型微型計算機系統(tǒng);2005年08期
10 趙朋朋;崔志明;高嶺;仲華;;關于中國Deep Web的規(guī)模、分布和結構[J];小型微型計算機系統(tǒng);2007年10期
,本文編號:1054092
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1054092.html