天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

文本信息抽取優(yōu)化關(guān)鍵技術(shù)研究與系統(tǒng)實現(xiàn)

發(fā)布時間:2021-12-09 05:18
  隨著大數(shù)據(jù)時代的快速發(fā)展,企業(yè)在日常經(jīng)營和信息化建設(shè)過程中產(chǎn)生大量富有價值的數(shù)據(jù)信息。如何從海量分散的數(shù)據(jù)中快速且準(zhǔn)確地分析出真正有用的信息是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域的重要研究內(nèi)容。文本信息抽取技術(shù)正是數(shù)據(jù)挖掘領(lǐng)域的核心問題之一。在一些語義明確的場景下,基于規(guī)則的信息抽取方法在抽取的準(zhǔn)確率和召回率方面都有優(yōu)異的表現(xiàn)。對于較大規(guī)模待抽取數(shù)據(jù),提升信息抽取系統(tǒng)效率的關(guān)鍵技術(shù)是提高正則表達式的匹配速度。在此背景下,本文對基于正則表達式匹配的信息抽取技術(shù)進行了深入研究,通過對當(dāng)前正則表達式匹配加速相關(guān)的幾種經(jīng)典算法的比較和分析,針對原始DFA算法狀態(tài)跳轉(zhuǎn)查找表中存在的問題,提出了基于字符分組的查找表壓縮算法的設(shè)計方案,并依托實驗室FPGA硬件平臺實現(xiàn)了對正則表達式匹配速度的優(yōu)化,并對基于該優(yōu)化方案的信息抽取系統(tǒng)進行了設(shè)計和實現(xiàn)。本文首先介紹了信息抽取系統(tǒng)的主要任務(wù)、常用方法和評價標(biāo)準(zhǔn),又介紹了正則表達式匹配技術(shù)的常用方法和匹配過程的研究現(xiàn)狀。然后通過分析現(xiàn)有正則表達式匹配技術(shù)的技術(shù)瓶頸,提出一種基于字符分組的正則表達式匹配優(yōu)化算法,并對算法的性能進行測試和分析。實驗結(jié)果表明,經(jīng)過字符分組優(yōu)化后的查找表... 

【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:66 頁

【學(xué)位級別】:碩士

【部分圖文】:

文本信息抽取優(yōu)化關(guān)鍵技術(shù)研究與系統(tǒng)實現(xiàn)


圖3-3原始查找表單個字符匹配流程??在這種原始查找表的匹配過程中,每個字符的匹配都需要經(jīng)歷如圖3-3所示??的匹配流程,即從讀取一個待匹配字符開始,先根據(jù)當(dāng)前激活狀態(tài)查找狀態(tài)的起??,,

流程圖,位圖,單個字符,查找表


?I??j?[B]?100CMC?0?I??圖3-6位圖的生成過程??取字符?j??<??讀取下一行??否??否有命中?為取后??I?JL??是??Z分組掩碼是否王??|??是???3:???更新激活狀態(tài),跳至對???應(yīng)碰?|?是??▼??結(jié)束?>一??圖3-7基于位圖的查找表單個字符匹配流程??22??

位圖,生成過程,單個字符,查找表


圖3-6位圖的生成過程??


本文編號:3529997

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3529997.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d87c2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com