天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于SWT元數(shù)據(jù)提取的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-08-13 10:27
【摘要】:現(xiàn)今越來(lái)越多的PDF出現(xiàn)在網(wǎng)絡(luò)上,并以每天數(shù)以萬(wàn)計(jì)的速度增長(zhǎng)著。面對(duì)如此海量的PDF文檔,如何獲取其中的有用信息,并將其分門別類的保存下來(lái),無(wú)論是對(duì)PDF的歸檔還是對(duì)科學(xué)研究都將會(huì)具有重要的意義。本課題的目的是設(shè)計(jì)并實(shí)現(xiàn)一種基于SWT的元數(shù)據(jù)提取工具,該工具可以用來(lái)對(duì)PDF中圖書元數(shù)據(jù)進(jìn)行自動(dòng)提取并將數(shù)據(jù)進(jìn)行持久化導(dǎo)出。該工具相比于手工提取元數(shù)據(jù)的方式,具有更高的準(zhǔn)確性和高效性,可以極大程度的提高元數(shù)據(jù)提取的效率。本課題通過(guò)對(duì)AWT、SWING、SWT/JFace幾種常用的Java GUI框架的對(duì)比與分析,從而選擇目前最為優(yōu)秀的SWT框架作為本課題進(jìn)行元數(shù)據(jù)提取工具的桌面開(kāi)發(fā)框架。在PDF文本的抽取方式上,通過(guò)對(duì)比PDFBox和iText兩種常用的操作PDF的Java類庫(kù)在PDF文本信息提取方面的優(yōu)缺點(diǎn),選擇性能更加優(yōu)秀的PDFBox作為PDF文本提取的技術(shù)選型。同時(shí)在提取過(guò)程中根據(jù)權(quán)重排序算法設(shè)計(jì)并實(shí)現(xiàn)拼音輔助提示來(lái)彌補(bǔ)自動(dòng)提取的缺陷。為了保護(hù)軟件的知識(shí)產(chǎn)權(quán)和購(gòu)買者的合法權(quán)益,在工具中添加了基于RSA的登錄授權(quán)驗(yàn)證機(jī)制?紤]到工具的維護(hù)與升級(jí),使用了基于log4j的日志管理系統(tǒng)。同時(shí)為了抵抗斷電、程序異常關(guān)閉等不確定性因素所帶來(lái)的災(zāi)難性損失,本工具設(shè)計(jì)了自動(dòng)保存的容災(zāi)機(jī)制。最后通過(guò)大量的測(cè)試和分析,得出本工具完全滿足課題的要求,可以大大提高元數(shù)據(jù)提取的速度和準(zhǔn)確率的結(jié)論。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP311.52
【圖文】:

框架圖,體系框架,運(yùn)行環(huán)境,框架


第二章關(guān)鍵技術(shù)研究面應(yīng)用程序,但是這些插件不是自動(dòng)運(yùn)行的,它們的執(zhí)行需要一個(gè)外在這個(gè)條件提供插件運(yùn)行所需要的各種資源。而這個(gè)啟動(dòng)條件就是由實(shí)的規(guī)范來(lái)提供的。逡逑SGI邋(Open邋Service邋Gateway邋Initiative)技術(shù)是面向邋JAVA邋的動(dòng)態(tài)模型系系列規(guī)范網(wǎng)。OSGI框架具有優(yōu)雅、完整和動(dòng)態(tài)組合的特點(diǎn)。應(yīng)用程序可啟動(dòng)、安裝、升級(jí)、卸載而不需要重新引導(dǎo)。因此廣泛應(yīng)用于無(wú)需重啟變構(gòu)造的網(wǎng)絡(luò)設(shè)備上。OSGI技術(shù)提供一種松耦合可管理的面向服務(wù)的,這種模式使得組件可以動(dòng)態(tài)的發(fā)現(xiàn)對(duì)方。逡逑SGI規(guī)范的核心組件是OSGI框架。其框架圖如下:逡逑

流程設(shè)計(jì),元數(shù)據(jù),文本編輯器,圖書版權(quán)


圖3-1功能模塊分解圖逡逑.邋1.2流程設(shè)計(jì)逡逑根據(jù)本課題的需求,工具使用的主體流程為:r『先導(dǎo)入PDF,加載PDF使逡逑顯示在SWT構(gòu)建的PDF閱讀器中,然后利用JAVA類砟PDFBox將包含元數(shù)逡逑的圖書版權(quán)頁(yè)信息提取到文本編輯器中,接著在文本編輯器中進(jìn)行閣書版權(quán)頁(yè)逡逑數(shù)據(jù)的提取,如果沒(méi)有元數(shù)據(jù)遺漏或者錯(cuò)誤則直接將元數(shù)據(jù)持久化成xml和逡逑ls文件,如果元數(shù)據(jù)提取有遺漏則借助手工干預(yù),使用拼音輔助提S甕瓿梢怕╁義鮮蕕奶崛,检查无误后将提取的X莩志沒(méi)桑恚旌停歟笪募。辶x掀渚嚀辶鞒倘縵攏哄義希保沖義

本文編號(hào):2791881

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2791881.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cc115***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com