基于文本信息的知識文檔管理系統(tǒng)設計與實現(xiàn)

發(fā)布時間：2021-11-21 01:34

　　伴隨著全球信息化應用水平的提升,智能化IT運維管理平臺已經(jīng)成為互聯(lián)網(wǎng)企業(yè)的投資重點,平臺被大量的數(shù)據(jù)和信息所覆蓋,造成運維管理難度的增大,為了幫助用戶盡快解決平臺告警,并建立企業(yè)知識共享平臺,設計了基于文本信息的知識文檔管理系統(tǒng)。該系統(tǒng)不僅可以為企業(yè)節(jié)省資源,還能將隱性知識轉換成顯性知識進行存儲和利用。因此,該文主要是針對知識文檔管理系統(tǒng)中的開發(fā)需求進行設計和實現(xiàn)。首先,針對知識文檔文本信息利用率不足的問題,對文檔格式進行研究和分析,設計知識文檔解析模塊,分別提出了基于Stream流的PDF文檔解析和基于二進制格式的復合文檔（storage file format,OLE）文檔解析方案,并對文本信息的提取以及轉碼等操作進行C語言編程。在此基礎上,進一步對PDF和DOC文檔解析結果以及模塊性能進行測試與分析。其次,針對知識文檔安全性欠缺的弊端,設計知識文檔安全模塊,根據(jù)關鍵詞提取和文檔加密分別研究了基于多特征的TextRank關鍵詞提取算法和基于文本信息的數(shù)據(jù)加密標準（Data Encryption Standard,DES）加密算法。將提取的關鍵詞進行預處理,進而與DES密鑰進行置換,...

【文章來源】：燕山大學河北省

【文章頁數(shù)】：58 頁

【學位級別】：碩士

【部分圖文】：

知識文檔解析模塊整體設計框圖

示意圖,文檔結構,層次關系,文檔

PDF 是 Portable Document Forma 文檔的簡稱，又稱為便攜式文檔，對于保存文本信息是非常熟悉常用的文檔格式，主要的特點是與平臺、硬件應用程序無關的方式保存文字、圖像、視頻和音頻等信息，功能非常強大�，F(xiàn)在企業(yè)知識管理中除了用Word 對知識進行存儲以外，PDF 也是主要存儲知識的一種主要方式。本節(jié)研究了基于 Stream 流的 PDF 文檔解析，針對 PDF 文檔編程實現(xiàn)文本信息的提取。2.2.1 PDF 文檔格式研究及解析功能實現(xiàn)PDF 文檔根據(jù)其結構可以分為文檔頭、文檔體、交叉引用表和文檔尾四部分。其中文檔頭(Header)位置位于 PDF 文檔起始位置，用于指明當前 PDF 文檔對應的版本號；文檔體(Body)是由多種對象組成，PDF 文檔中的內(nèi)容、格式和編碼方式都保存于此部分；交差引用表(Xreftable)用于間接對象的隨機存取，并為間接對象建立的一個地址索引表，表示偏移量；文檔尾(Trailer)是分析 PDF 文檔格式的入口，指明了文檔體的根對象(Catalog)。PDF 文檔結構的層次關系示意如圖 2-2 所示：

解析流程,文檔,內(nèi)容

燕山大學工程碩士學位論文 PDF 文檔之前，為了避免出現(xiàn)一些不必要的錯誤，如權限不前將解析環(huán)境搭建好，PDF 文檔的路徑是一個絕對路徑，程徑去讀取需要解析的 PDF 文檔，然后通過 stat()接口函數(shù)去將其轉換成二進制流讀入，之后是加載一些解析配置文件。在 PDF 文檔格式的分析，接下來可以對 PDF 文檔文本信息進行文檔內(nèi)容解析流程如圖 2-3 所示：

本文編號：3508493

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/glzh/3508493.html

上一篇：家族企業(yè)超額控制權對盈余管理的影響研究
下一篇：組織溝通對工作壓力的影響機制分析——應對方式的中介作用

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文本信息的知識文檔管理系統(tǒng)設計與實現(xiàn)