天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于鏈接路徑搜索的網(wǎng)頁命名實體提取研究

發(fā)布時間:2022-12-18 16:47
  隨著計算機(jī)的快速普及和Internet技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)上的各種信息呈現(xiàn)指數(shù)級的增長,Web已經(jīng)成為一個巨大的信息資源庫,從海量數(shù)據(jù)中快速、高效地獲取用戶需要的信息成為了一種挑戰(zhàn)。信息抽取旨在從無結(jié)構(gòu)或半結(jié)構(gòu)的Web文本中識別出用戶感興趣的數(shù)據(jù),并將其轉(zhuǎn)化為結(jié)構(gòu)良好、語義清晰的格式,以方便快速、準(zhǔn)確地獲取關(guān)鍵信息。命名實體提取作為信息抽取的子任務(wù)和關(guān)鍵技術(shù)之一,已引起了國內(nèi)外學(xué)者的廣泛關(guān)注。 針對傳統(tǒng)的命名實體提取方法需要對訓(xùn)練集進(jìn)行一定規(guī)模的人工標(biāo)注,且所處理的基本上是新聞文本,包含的命名實體類別較少,算法的復(fù)雜度較高這一問題,本文提出兩個新的網(wǎng)頁命名實體提取算法,探索最大程度地避免人工干預(yù)且高效、準(zhǔn)確的命名實體提取方案,提高命名實體提取的自動化程度,增強(qiáng)可移植性。主要工作如下: (1)通過分析實驗數(shù)據(jù)集中個人網(wǎng)頁的URL特征發(fā)現(xiàn),同類別個人網(wǎng)頁的URL會具有一些共同的基本特征,由此,本文將這些基本特征和每類網(wǎng)頁特有的特征結(jié)合,構(gòu)建出一個自動識別個人網(wǎng)頁的分類器。 (2)提出一個針對人名的命名實體提取方法,該算法是基于鏈接路徑搜索的相關(guān)概念提出的,利用將錨文本和網(wǎng)... 

【文章頁數(shù)】:59 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
致謝
插圖清單
表格清單
第一章 緒論
    1.1 課題研究的背景、目的與意義
        1.1.1 課題研究的背景
        1.1.2 研究的目的和意義
    1.2 命名實體提取研究歷史
    1.3 傳統(tǒng)命名實體提取的不足
    1.4 本文的主要研究內(nèi)容
    1.5 本文組織結(jié)構(gòu)
    1.6 本章小結(jié)
第二章 網(wǎng)頁命名實體提取的理論基礎(chǔ)
    2.1 命名實體提取相關(guān)定義
        2.1.1 信息抽取
        2.1.2 命名實體
    2.2 命名實體提取方法概述
        2.2.1 基于模板的命名實體提取方法
        2.2.2 基于概率統(tǒng)計的命名實體提取方法
        2.2.3 基于模板和統(tǒng)計的命名實體提取方法
    2.3 鏈接路徑搜索的相關(guān)定義
    2.4 本章小結(jié)
第三章 基于鏈接路徑搜索的網(wǎng)頁命名實體提取方法研究
    3.1 引言
    3.2 網(wǎng)頁命名實體提取解決框架
    3.3 數(shù)據(jù)的收集及預(yù)處理
        3.3.1 個人網(wǎng)頁特征總結(jié)
        3.3.2 數(shù)據(jù)預(yù)處理
    3.4 基于鏈接路徑搜索的人名命名實體提取算法 NEEN
        3.4.1 NEEN 算法思路
        3.4.2 NEEN 算法描述
    3.5 基于鏈接路徑搜索的 Email 命名實體提取算法 NEEE
        3.5.1 NEEE 算法思路
        3.5.2 NEEE 算法描述
    3.6 本章小結(jié)
第四章 實驗結(jié)果與分析
    4.1 實驗數(shù)據(jù)集及預(yù)處理
    4.2 NEEN 實驗結(jié)果與分析
        4.2.1 參數(shù)設(shè)置
        4.2.2 NEEN 算法實驗結(jié)果與分析
    4.3 NEEE 算法實驗結(jié)果與分析
        4.3.1 評價指標(biāo)
        4.3.2 NEEE 算法實驗結(jié)果分析
    4.4 本章小結(jié)
第五章 基于鏈接路徑搜索的網(wǎng)頁命名實體提取的原型系統(tǒng)
    5.1 系統(tǒng)設(shè)計框架
    5.2 主要功能模塊
    5.3 安裝使用
    5.4 本章小結(jié)
第六章 總結(jié)與展望
    6.1 本文總結(jié)
    6.2 未來展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間參與科研項目和發(fā)表的論文


【參考文獻(xiàn)】:
期刊論文
[1]命名實體識別研究進(jìn)展綜述[J]. 孫鎮(zhèn),王惠臨.  現(xiàn)代圖書情報技術(shù). 2010(06)
[2]基于Web的命名實體提取的研究方法[J]. 蔡愛杰.  哈爾濱師范大學(xué)自然科學(xué)學(xué)報. 2010(02)
[3]基于Web本體挖掘的語義目錄研究[J]. 陳東方,王華,顧進(jìn)廣.  計算機(jī)工程與設(shè)計. 2008(12)
[4]面向信息檢索的概念關(guān)系自動構(gòu)建[J]. 胡熠,陸汝占,劉慧.  中文信息學(xué)報. 2007(05)
[5]一個統(tǒng)計與規(guī)則相結(jié)合的中文命名實體識別系統(tǒng)[J]. 向曉雯,史曉東,曾華琳.  計算機(jī)應(yīng)用. 2005(10)
[6]命名實體識別研究[J]. 張曉艷,王挺,陳火旺.  計算機(jī)科學(xué). 2005(04)
[7]論文本的自動摘要[J]. 王永成,劉功申,劉傳漢,胡佩華,孫展.  中國索引. 2003(02)
[8]論文本的自動摘要[J]. 王永成,劉功申,劉傳漢,胡佩華,孫展.  中國索引. 2003 (02)
[9]信息抽取研究綜述[J]. 李保利,陳玉忠,俞士汶.  計算機(jī)工程與應(yīng)用. 2003(10)
[10]基于DOM的Web信息提取[J]. 李效東,顧毓清.  計算機(jī)學(xué)報. 2002(05)



本文編號:3722404

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3722404.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d0e94***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com