基于文本信息的知識文檔管理系統(tǒng)設(shè)計與實現(xiàn)
發(fā)布時間:2021-11-21 01:34
伴隨著全球信息化應(yīng)用水平的提升,智能化IT運維管理平臺已經(jīng)成為互聯(lián)網(wǎng)企業(yè)的投資重點,平臺被大量的數(shù)據(jù)和信息所覆蓋,造成運維管理難度的增大,為了幫助用戶盡快解決平臺告警,并建立企業(yè)知識共享平臺,設(shè)計了基于文本信息的知識文檔管理系統(tǒng)。該系統(tǒng)不僅可以為企業(yè)節(jié)省資源,還能將隱性知識轉(zhuǎn)換成顯性知識進行存儲和利用。因此,該文主要是針對知識文檔管理系統(tǒng)中的開發(fā)需求進行設(shè)計和實現(xiàn)。首先,針對知識文檔文本信息利用率不足的問題,對文檔格式進行研究和分析,設(shè)計知識文檔解析模塊,分別提出了基于Stream流的PDF文檔解析和基于二進制格式的復(fù)合文檔(storage file format,OLE)文檔解析方案,并對文本信息的提取以及轉(zhuǎn)碼等操作進行C語言編程。在此基礎(chǔ)上,進一步對PDF和DOC文檔解析結(jié)果以及模塊性能進行測試與分析。其次,針對知識文檔安全性欠缺的弊端,設(shè)計知識文檔安全模塊,根據(jù)關(guān)鍵詞提取和文檔加密分別研究了基于多特征的TextRank關(guān)鍵詞提取算法和基于文本信息的數(shù)據(jù)加密標準(Data Encryption Standard,DES)加密算法。將提取的關(guān)鍵詞進行預(yù)處理,進而與DES密鑰進行置換,...
【文章來源】:燕山大學(xué)河北省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
知識文檔解析模塊整體設(shè)計框圖
PDF 是 Portable Document Forma 文檔的簡稱,又稱為便攜式文檔,對于保存文本信息是非常熟悉常用的文檔格式,主要的特點是與平臺、硬件應(yīng)用程序無關(guān)的方式保存文字、圖像、視頻和音頻等信息,功能非常強大,F(xiàn)在企業(yè)知識管理中除了用Word 對知識進行存儲以外,PDF 也是主要存儲知識的一種主要方式。本節(jié)研究了基于 Stream 流的 PDF 文檔解析,針對 PDF 文檔編程實現(xiàn)文本信息的提取。2.2.1 PDF 文檔格式研究及解析功能實現(xiàn)PDF 文檔根據(jù)其結(jié)構(gòu)可以分為文檔頭、文檔體、交叉引用表和文檔尾四部分。其中文檔頭(Header)位置位于 PDF 文檔起始位置,用于指明當前 PDF 文檔對應(yīng)的版本號;文檔體(Body)是由多種對象組成,PDF 文檔中的內(nèi)容、格式和編碼方式都保存于此部分;交差引用表(Xreftable)用于間接對象的隨機存取,并為間接對象建立的一個地址索引表,表示偏移量;文檔尾(Trailer)是分析 PDF 文檔格式的入口,指明了文檔體的根對象(Catalog)。PDF 文檔結(jié)構(gòu)的層次關(guān)系示意如圖 2-2 所示:
燕山大學(xué)工程碩士學(xué)位論文 PDF 文檔之前,為了避免出現(xiàn)一些不必要的錯誤,如權(quán)限不前將解析環(huán)境搭建好,PDF 文檔的路徑是一個絕對路徑,程徑去讀取需要解析的 PDF 文檔,然后通過 stat()接口函數(shù)去將其轉(zhuǎn)換成二進制流讀入,之后是加載一些解析配置文件。在 PDF 文檔格式的分析,接下來可以對 PDF 文檔文本信息進行 文檔內(nèi)容解析流程如圖 2-3 所示:
本文編號:3508493
【文章來源】:燕山大學(xué)河北省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
知識文檔解析模塊整體設(shè)計框圖
PDF 是 Portable Document Forma 文檔的簡稱,又稱為便攜式文檔,對于保存文本信息是非常熟悉常用的文檔格式,主要的特點是與平臺、硬件應(yīng)用程序無關(guān)的方式保存文字、圖像、視頻和音頻等信息,功能非常強大,F(xiàn)在企業(yè)知識管理中除了用Word 對知識進行存儲以外,PDF 也是主要存儲知識的一種主要方式。本節(jié)研究了基于 Stream 流的 PDF 文檔解析,針對 PDF 文檔編程實現(xiàn)文本信息的提取。2.2.1 PDF 文檔格式研究及解析功能實現(xiàn)PDF 文檔根據(jù)其結(jié)構(gòu)可以分為文檔頭、文檔體、交叉引用表和文檔尾四部分。其中文檔頭(Header)位置位于 PDF 文檔起始位置,用于指明當前 PDF 文檔對應(yīng)的版本號;文檔體(Body)是由多種對象組成,PDF 文檔中的內(nèi)容、格式和編碼方式都保存于此部分;交差引用表(Xreftable)用于間接對象的隨機存取,并為間接對象建立的一個地址索引表,表示偏移量;文檔尾(Trailer)是分析 PDF 文檔格式的入口,指明了文檔體的根對象(Catalog)。PDF 文檔結(jié)構(gòu)的層次關(guān)系示意如圖 2-2 所示:
燕山大學(xué)工程碩士學(xué)位論文 PDF 文檔之前,為了避免出現(xiàn)一些不必要的錯誤,如權(quán)限不前將解析環(huán)境搭建好,PDF 文檔的路徑是一個絕對路徑,程徑去讀取需要解析的 PDF 文檔,然后通過 stat()接口函數(shù)去將其轉(zhuǎn)換成二進制流讀入,之后是加載一些解析配置文件。在 PDF 文檔格式的分析,接下來可以對 PDF 文檔文本信息進行 文檔內(nèi)容解析流程如圖 2-3 所示:
本文編號:3508493
本文鏈接:http://sikaile.net/guanlilunwen/glzh/3508493.html
教材專著