文本信息抽取優(yōu)化關(guān)鍵技術(shù)研究與系統(tǒng)實現(xiàn)
發(fā)布時間:2021-12-09 05:18
隨著大數(shù)據(jù)時代的快速發(fā)展,企業(yè)在日常經(jīng)營和信息化建設(shè)過程中產(chǎn)生大量富有價值的數(shù)據(jù)信息。如何從海量分散的數(shù)據(jù)中快速且準(zhǔn)確地分析出真正有用的信息是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域的重要研究內(nèi)容。文本信息抽取技術(shù)正是數(shù)據(jù)挖掘領(lǐng)域的核心問題之一。在一些語義明確的場景下,基于規(guī)則的信息抽取方法在抽取的準(zhǔn)確率和召回率方面都有優(yōu)異的表現(xiàn)。對于較大規(guī)模待抽取數(shù)據(jù),提升信息抽取系統(tǒng)效率的關(guān)鍵技術(shù)是提高正則表達式的匹配速度。在此背景下,本文對基于正則表達式匹配的信息抽取技術(shù)進行了深入研究,通過對當(dāng)前正則表達式匹配加速相關(guān)的幾種經(jīng)典算法的比較和分析,針對原始DFA算法狀態(tài)跳轉(zhuǎn)查找表中存在的問題,提出了基于字符分組的查找表壓縮算法的設(shè)計方案,并依托實驗室FPGA硬件平臺實現(xiàn)了對正則表達式匹配速度的優(yōu)化,并對基于該優(yōu)化方案的信息抽取系統(tǒng)進行了設(shè)計和實現(xiàn)。本文首先介紹了信息抽取系統(tǒng)的主要任務(wù)、常用方法和評價標(biāo)準(zhǔn),又介紹了正則表達式匹配技術(shù)的常用方法和匹配過程的研究現(xiàn)狀。然后通過分析現(xiàn)有正則表達式匹配技術(shù)的技術(shù)瓶頸,提出一種基于字符分組的正則表達式匹配優(yōu)化算法,并對算法的性能進行測試和分析。實驗結(jié)果表明,經(jīng)過字符分組優(yōu)化后的查找表...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-3原始查找表單個字符匹配流程??在這種原始查找表的匹配過程中,每個字符的匹配都需要經(jīng)歷如圖3-3所示??的匹配流程,即從讀取一個待匹配字符開始,先根據(jù)當(dāng)前激活狀態(tài)查找狀態(tài)的起??,,
?I??j?[B]?100CMC?0?I??圖3-6位圖的生成過程??取字符?j??<??讀取下一行??否??否有命中?為取后??I?JL??是??Z分組掩碼是否王??|??是???3:???更新激活狀態(tài),跳至對???應(yīng)碰?|?是??▼??結(jié)束?>一??圖3-7基于位圖的查找表單個字符匹配流程??22??
圖3-6位圖的生成過程??
本文編號:3529997
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-3原始查找表單個字符匹配流程??在這種原始查找表的匹配過程中,每個字符的匹配都需要經(jīng)歷如圖3-3所示??的匹配流程,即從讀取一個待匹配字符開始,先根據(jù)當(dāng)前激活狀態(tài)查找狀態(tài)的起??,,
?I??j?[B]?100CMC?0?I??圖3-6位圖的生成過程??取字符?j??<??讀取下一行??否??否有命中?為取后??I?JL??是??Z分組掩碼是否王??|??是???3:???更新激活狀態(tài),跳至對???應(yīng)碰?|?是??▼??結(jié)束?>一??圖3-7基于位圖的查找表單個字符匹配流程??22??
圖3-6位圖的生成過程??
本文編號:3529997
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3529997.html
最近更新
教材專著