天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于語義相似度計算的Deep Web數(shù)據(jù)庫檢索方案研究

發(fā)布時間:2017-10-18 09:00

  本文關鍵詞:基于語義相似度計算的Deep Web數(shù)據(jù)庫檢索方案研究


  更多相關文章: 深度萬維網(wǎng) 同義詞詞林 知網(wǎng) 語義相似度 屬性詞典


【摘要】:隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,我們正處在一個信息快速增長的年代,并且在海量增長的信息中往往蘊含著大量有價值的數(shù)據(jù)。雖然在日常生活中,我們可以通過各種搜索引擎解決我們的需求,但是有時候搜索出來的信息,往往在信息相關的程度和精度上,與我們期望的存在著差異,從而不能夠完全滿足我們的搜索需求。通常我們使用的一些搜索引擎,比如Baidu、Google、Yahoo等等,往往都是通過網(wǎng)絡爬蟲技術,將相關的網(wǎng)站頁面首先抓取到自身的服務器上。我們在對關鍵詞進行搜索的時候,實際上是直接查詢本地相關文件,反映給我們的往往也是一些靜態(tài)的網(wǎng)頁數(shù)據(jù)。日常范圍內(nèi)的搜索,我們很難通過關鍵詞的簡單查詢完全獲得Deep Web DB的數(shù)據(jù),從而損失丁海量有價值數(shù)據(jù)信息。 本文提出了基于語義相似度計算的Deep Web數(shù)據(jù)庫檢索力法,該力法的目的在于將語義相似度的計算方法運用于數(shù)據(jù)庫檢索當中去,最終將該方法同傳統(tǒng)搜索引擎有效結合,更加滿足用戶搜索需求。本文首先簡要的介紹了幾種常見的語義相似度的計算方法,最后結合各自的優(yōu)點,將同義詞詞林(哈工大版)和知網(wǎng)(HowNet)有效結合,提出了一種改進的語義相似度的計算方法。通過計算關鍵詞和屬性詞典對應屬性列之間的相關聯(lián)度,在基于閥值的匹配算法的基礎上,確定當前關鍵詞的查詢的搜索范圍,挖掘出潛在于Deep Web數(shù)據(jù)庫中與關鍵詞有關聯(lián)的信息。通過對Deep Web數(shù)據(jù)庫的相應查詢,最終將查詢的結果通過有效的形式反饋給當前用戶 由丁當前Deep Web下中文測試數(shù)據(jù)庫相對較少,我們采用的是某校信息管理系統(tǒng)的后臺數(shù)據(jù)庫作為數(shù)據(jù)源進行測試。實驗部分舉例驗證和測試了本文中所提出的方法的可行性和正確性,不僅避免了數(shù)據(jù)庫均全表掃描的代價,同時也盡可能的精確當前關鍵詞的查詢范圍,并且后期通過與搜索引擎的無縫集合,提供給用戶高效、穩(wěn)定的查詢體驗。
【關鍵詞】:深度萬維網(wǎng) 同義詞詞林 知網(wǎng) 語義相似度 屬性詞典
【學位授予單位】:上海師范大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP311.13
【目錄】:
  • Abstract6-7
  • 摘要7-10
  • 第一章 緒論10-15
  • 1.1 研究背景10-11
  • 1.2 研究現(xiàn)狀11-12
  • 1.3 研究目的和意義12-13
  • 1.4 論文的主要工作和創(chuàng)新點13
  • 1.5 論文的組織結構13-15
  • 第二章 語義相似度及屬性詞典15-28
  • 2.1 語義相似度15-25
  • 2.1.1 語義相似度相關定義15-16
  • 2.1.2 語義相似度關聯(lián)因素16-17
  • 2.1.3 基于同義詞詞林的語義相似度17-19
  • 2.1.4 基于知網(wǎng)的語義相似度19-25
  • 2.2 屬性詞典25-27
  • 2.2.1 基本原理25
  • 2.2.2 模型介紹25-27
  • 2.3 本章小結27-28
  • 第三章 Deep Web 下基于語義相似度方法研究28-38
  • 3.1 語義相似度計算28-31
  • 3.1.1 方法介紹28-30
  • 3.1.2 語義相似度評估標準30-31
  • 3.2 改進的語義相似度的計算方法31-37
  • 3.2.1 方法介紹31-32
  • 3.2.2 基于同義詞詞林的相關詞獲取算法32-33
  • 3.2.3 基于知網(wǎng)(HowNet)的語義相似度33-35
  • 3.2.4 基于閾值的匹配算法35-37
  • 3.3 本章小結37-38
  • 第四章 Deep Web 數(shù)據(jù)庫檢索部分的實現(xiàn)38-46
  • 4.1 系統(tǒng)架構38-41
  • 4.1.1 三層架構介紹38-39
  • 4.1.2 三層架構的優(yōu)勢39-40
  • 4.1.3 三層架構的缺陷40-41
  • 4.2 相關數(shù)據(jù)源配置41-42
  • 4.2.1 ODBC 相關定義41-42
  • 4.2.2 數(shù)據(jù)庫配置文件42
  • 4.3 屬性詞典42-44
  • 4.3.1 以 SQL Server 2008R2 為例42-44
  • 4.3.2 屬性詞典生成步驟44
  • 4.4 本章小結44-46
  • 第五章 實驗測試與分析46-52
  • 5.1 測試方案和測試環(huán)境46
  • 5.1.1 測試方案46
  • 5.1.2 測試環(huán)境46
  • 5.2 基于相似度計算模型的 Deep Web 數(shù)據(jù)庫檢索46-49
  • 5.2.1 獲得關鍵詞的相關詞46-47
  • 5.2.2 相關詞語義分析47
  • 5.2.3 語義相似度計算過程47-49
  • 5.3 實驗結果監(jiān)測與分析49-50
  • 5.3.1 評估指標選擇49
  • 5.3.2 實驗結果統(tǒng)計與分析49-50
  • 5.4 本章小結50-52
  • 第六章 總結與展望52-54
  • 6.1 工作總結52
  • 6.2 未來研究重點與方向52-54
  • 參考文獻54-57
  • 致謝57-58
  • 攻讀碩士期間的研究成果58

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學學報(信息科學版);2010年06期

2 何利娟;;使用ODBC API技術進行數(shù)據(jù)轉(zhuǎn)換[J];福建電腦;2012年05期

3 劉偉;孟小峰;孟衛(wèi)一;;Deep Web數(shù)據(jù)集成研究綜述[J];計算機學報;2007年09期

4 劉玉奎;周立柱;范舉;;中文深度萬維網(wǎng)數(shù)據(jù)庫的現(xiàn)狀研究[J];計算機學報;2011年02期

5 談冉;陳巍;薛勝軍;;設計模式在典型.net三層架構Web程序中的應用[J];武漢理工大學學報(交通科學與工程版);2006年02期

6 姜芳艽;孟小峰;;Deep Web數(shù)據(jù)集成中查詢處理的研究與進展[J];計算機科學與探索;2009年02期

7 于江生 ,俞士汶;中文概念詞典的結構[J];中文信息學報;2002年04期

8 張會平;呂學強;施水才;李渝勤;;基于WordNet的語義分布詞典建設[J];現(xiàn)代圖書情報技術;2007年03期

9 劉揚,俞士汶,于江生;CCD語義知識庫的構造研究[J];小型微型計算機系統(tǒng);2005年08期

10 趙朋朋;崔志明;高嶺;仲華;;關于中國Deep Web的規(guī)模、分布和結構[J];小型微型計算機系統(tǒng);2007年10期



本文編號:1054092

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1054092.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶a8acf***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com