天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)

發(fā)布時間:2020-10-31 18:52
   大量的農(nóng)業(yè)技術(shù)、供求信息、市場信息、政策法規(guī)和農(nóng)業(yè)新聞等信息資源分布在互聯(lián)網(wǎng)上農(nóng)業(yè)網(wǎng)站中。然而由于互聯(lián)網(wǎng)信息資源具有信息異質(zhì)、異構(gòu)、分散、重復現(xiàn)象嚴重的特點,缺少統(tǒng)一的形式化表達,形成各種各樣的“信息孤島”,很難對農(nóng)業(yè)信息資源進行整合和利用。針對這個問題,在國家自然基金(“農(nóng)業(yè)復雜自適應搜索模型研究”)的支持下,面向農(nóng)業(yè)的搜索模型—搜農(nóng)應運而生。然而該模型還是基于文本關(guān)鍵字匹配的數(shù)據(jù)處理方式,不能充分理解信息包含的語義信息,在準確率和召回率這兩大信息檢索系統(tǒng)性能指標上還有很大提升空間。 針對這個問題,本文根據(jù)網(wǎng)絡(luò)農(nóng)業(yè)資源的特點,在農(nóng)業(yè)領(lǐng)域本體構(gòu)建的基礎(chǔ)上,將本體作為領(lǐng)域知識庫應用于垂直搜索引擎的數(shù)據(jù)預處理、數(shù)據(jù)索引和用戶檢索三個環(huán)節(jié),將本體的語義添加到搜索引擎的數(shù)據(jù)處理過程中。 相對于原有模型,數(shù)據(jù)預處理環(huán)節(jié)的語義改進主要包括:信息的空間屬性的抽取、信息地理名稱的實體解析和價格動態(tài)變化的關(guān)系抽;索引環(huán)節(jié)的語義改進主要包括:文檔的語義標注和語義擴展;用戶檢索環(huán)節(jié)的改進包括:在語義標注環(huán)境下普通用戶的檢索策略和基于用戶模型的語義擴展方法。 論文的主要研究內(nèi)容總結(jié)如下: 1.針對網(wǎng)絡(luò)上農(nóng)業(yè)資源空間屬性表達的多樣性、顯性表達的缺失等問題,本文提出一種借助領(lǐng)域本體和WEB搜索引擎構(gòu)建知識庫抽取并判別信息的空間屬性的方法,將語義添加到信息的空間屬性抽取過程中。 2.針對農(nóng)業(yè)地理名稱實體解析的問題,本文提出一種將空間屬性抽取算法和Markov邏輯網(wǎng)絡(luò)進行結(jié)合進行地理名稱實體解析的方法,將空間屬性抽取中的語義信息帶入到地理名稱的實體解析過程中。 3.針對從大量非結(jié)構(gòu)化的文本中抽取價格變化關(guān)系的問題,本文設(shè)計了一種基于條件隨機場進行關(guān)系抽取,并用領(lǐng)域本體對抽取的結(jié)果進行語義上的統(tǒng)計合并的農(nóng)產(chǎn)品價格變化關(guān)系抽取方法。 4.針對農(nóng)業(yè)領(lǐng)域資源的特點,本文提出一種結(jié)合領(lǐng)域本體和句法分析相結(jié)合的核心詞匯抽取方法,并依據(jù)本體對文檔主題進行推斷,與本體中的概念進行語義關(guān)聯(lián);另一方面對文檔中抽取的核心詞匯基于領(lǐng)域本體進行語義擴張。 5.在用戶檢索環(huán)節(jié),針對索引中文檔和本體概念的語義關(guān)聯(lián)狀況,設(shè)計了普通用戶雙索引檢索的機制;對注冊用戶基于本體構(gòu)建用戶模型,并基于用戶模型對查詢進行語義擴展。 6.最后,本文給出了面向農(nóng)業(yè)的垂直搜索引擎的整體的語義化設(shè)計。
【學位單位】:中國科學技術(shù)大學
【學位級別】:博士
【學位年份】:2012
【中圖分類】:TP391.3
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 研究背景
    1.2 研究綜述
        1.2.1 搜索引擎
        1.2.2 面向農(nóng)業(yè)的搜索引擎
        1.2.3 語義搜索引擎
        1.2.4 本體的基本概念
        1.2.5 面向農(nóng)業(yè)的領(lǐng)域本體
        1.2.6 信息抽取
        1.2.7 實體解析
        1.2.8 語義標注
    1.3 研究內(nèi)容和意義
    1.4 本文的章節(jié)安排
第2章 基于本體和網(wǎng)絡(luò)語料庫的空間屬性抽取算法
    2.1 引言
    2.2 一種實體屬性抽取算法
    2.3 信息空間屬性抽取算法及其改進
        2.3.1 網(wǎng)絡(luò)上農(nóng)業(yè)信息包含的地理名稱的特點
        2.3.2 空間信息標注的總體流程
        2.3.3 NGAO顯性地理屬性抽取
        2.3.4 NGDA隱性地理屬性抽取
        2.3.5 NGCS卡方檢驗空間屬性抽取算法
    2.4 實驗結(jié)果及其分析
    2.5 本章小結(jié)
第3章 基于屬性抽取和MARKOV邏輯網(wǎng)絡(luò)的名稱解析
    3.1 引言
    3.2 MARKOV邏輯網(wǎng)絡(luò)
    3.3 名稱解析
        3.3.1 地理名稱解析算法
            3.3.1.1 地理名稱實體解析的問題描述
            3.3.1.2 基于統(tǒng)計的地理名稱實體解析方法(ST NER)
AE NER)'>            3.3.1.3 基于Markov邏輯網(wǎng)和名稱屬性抽取結(jié)合的解析算法(MLNAE NER)
    3.4 實驗及結(jié)果分析
        3.4.1 實驗語料
        3.4.2 評價指標
        3.4.3 地理名稱解析的實驗
AE NER算法實驗'>            3.4.3.1 MLNAE NER算法實驗
AE NER和其他相關(guān)算法實驗比較'>            3.4.3.2 MLNAE NER和其他相關(guān)算法實驗比較
AE NER算法存在的問題'>            3.4.3.3 MLNAE NER算法存在的問題
    3.5 本章小結(jié)
第4章 基于條件隨機場的價格動態(tài)關(guān)系抽取
    4.1 信息抽取和關(guān)系抽取
    4.2 條件隨機場
    4.3 問題描述
    4.4 系統(tǒng)設(shè)計
    4.5 實驗和結(jié)果分析
        4.5.1 數(shù)據(jù)集及評價標準
        4.5.2 實驗結(jié)果
    4.6 本章小結(jié)
第5章 垂直搜索索引和檢索的語義化
    5.1 索引數(shù)據(jù)的語義標注和語義擴張
        5.1.1 引言
        5.1.2 待索引農(nóng)業(yè)數(shù)據(jù)的特點
        5.1.3 語義標注
            5.1.3.1 核心詞匯抽取
            5.1.3.2 概念映射和主題推理
            5.1.3.3 主題約減
        5.1.4 基于本體的核心詞匯語義擴展
    5.2 檢索和個性化設(shè)計
        5.2.1 向量空間模型
        5.2.2 普通用戶的檢索策略
        5.2.3 基于用戶模型的查詢擴展
            5.2.3.1 基于用戶模型查詢擴展的整體架構(gòu)
            5.2.3.2 用戶興趣數(shù)據(jù)庫
            5.2.3.3 用戶模型
            5.2.3.4 本節(jié)討論
    5.3 本章小結(jié)
第6章 面向農(nóng)業(yè)的垂直搜索引擎的語義化設(shè)計和實現(xiàn)
    6.1 設(shè)計思想
    6.2 系統(tǒng)結(jié)構(gòu)
    6.3 索引層
    6.4 檢索和信息展示層
        6.4.1 文本檢索模塊
        6.4.2 可視化搜索模塊
    6.5 本章小結(jié)
第7章 總結(jié)與展望
    7.1 本文主要工作和創(chuàng)新點
    7.2 未來研究工作展望
參考文獻
致謝
在讀期間發(fā)表的學術(shù)論文與取得的其他研究成果

【參考文獻】

相關(guān)期刊論文 前10條

1 高紅;黃德根;楊元生;;漢語自動分詞中中文地名識別[J];大連理工大學學報;2006年04期

2 于鵬;劉大有;歐陽丹彤;;基于遺傳與粒子群算法的Markov邏輯網(wǎng)學習研究[J];電子學報;2006年S1期

3 張玉芳;黃濤;艾東梅;熊忠陽;唐蓉君;;Markov邏輯網(wǎng)在重復數(shù)據(jù)刪除中的應用[J];重慶大學學報;2010年08期

4 尹奇韡;李善平;;語義Web語言DAML+OIL及其應用初探[J];計算機科學;2003年01期

5 李文;陳葉旺;彭鑫;趙文耘;;一種有效的基于本體的詞語-概念映射方法[J];計算機科學;2010年10期

6 劉嬌蛟,龔麗,李建華;基于本體實現(xiàn)對網(wǎng)頁文本的自動主題分類[J];計算機工程;2003年11期

7 胡鶴,劉大有,王生生;Web本體語言O(shè)WL[J];計算機工程;2004年12期

8 黃德根;孫迎紅;;中文地名的自動識別[J];計算機工程;2006年03期

9 杜小勇,李曼,王大治;語義Web與本體研究綜述[J];計算機應用;2004年10期

10 張穎;王文杰;史忠植;;基于本體的文本分類方法[J];計算機仿真;2009年05期


相關(guān)博士學位論文 前3條

1 荊濤;面向領(lǐng)域網(wǎng)頁的語義標注若干問題研究[D];吉林大學;2011年

2 王進;基于本體的語義信息檢索研究[D];中國科學技術(shù)大學;2006年

3 黃河;農(nóng)業(yè)復雜自適應搜索模型研究及實現(xiàn)[D];中國科學技術(shù)大學;2010年


相關(guān)碩士學位論文 前3條

1 陳鵬飛;基于個性化本體的語義搜索引擎技術(shù)的研究與設(shè)計[D];河北工業(yè)大學;2011年

2 王雨果;基于本體的個性化信息檢索系統(tǒng)研究[D];電子科技大學;2008年

3 沙麗華;面向領(lǐng)域文檔的語義標注方法研究[D];吉林大學;2009年



本文編號:2864362

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2864362.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ab2a4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com