天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于PDFBox抽取學(xué)術(shù)論文信息的實(shí)現(xiàn)

發(fā)布時(shí)間:2017-06-28 11:00

  本文關(guān)鍵詞:基于PDFBox抽取學(xué)術(shù)論文信息的實(shí)現(xiàn)?,由筆耕文化傳播整理發(fā)布。


【摘要】:為了對(duì)學(xué)術(shù)動(dòng)態(tài)、熱點(diǎn)及學(xué)術(shù)發(fā)展趨勢(shì)進(jìn)行研究,需要對(duì)學(xué)術(shù)研究論文進(jìn)行數(shù)據(jù)挖掘研究。首先需要從海量的學(xué)術(shù)論文中提取有興趣的信息。針對(duì)目前學(xué)術(shù)論文大多采用PDF格式的現(xiàn)狀,重點(diǎn)研究了PDF文件的格式以及對(duì)PDF格式操作的各種技術(shù),采用開源函數(shù)庫(kù)PDFBox對(duì)PDF格式的學(xué)術(shù)論文按照規(guī)則進(jìn)行信息的提取,提取的信息主要包括學(xué)術(shù)論文的標(biāo)題、作者、單位、關(guān)鍵詞、發(fā)表時(shí)間、摘要等信息。最后對(duì)提取信息的正確率進(jìn)行了統(tǒng)計(jì),有助于針對(duì)學(xué)術(shù)研究的大數(shù)據(jù)研究。
【作者單位】: 延安大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院;
【關(guān)鍵詞】數(shù)據(jù)挖掘 信息抽取 PDF格式 學(xué)術(shù)論文
【基金】:陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃項(xiàng)目(2013JM8042)
【分類號(hào)】:TP391.1;TP311.13
【正文快照】: 0引言隨著互聯(lián)網(wǎng)和通信技術(shù)的發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)悄然來(lái)臨。面對(duì)海量的信息與數(shù)據(jù)資源,人們常常面臨數(shù)據(jù)量大,信息匱乏,因此對(duì)如何能夠從中獲取其隱含的、潛在有用的知識(shí)的要求變得很迫切,于是數(shù)據(jù)挖掘應(yīng)運(yùn)而生。數(shù)據(jù)挖掘的第一步就是數(shù)據(jù)的采集,能夠快速、準(zhǔn)確地采集到感興

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條

1 李朝光,張銘,鄧志鴻,楊冬青,唐世渭;論文元數(shù)據(jù)信息的自動(dòng)抽取[J];計(jì)算機(jī)工程與應(yīng)用;2002年21期

2 李貴林,李建中,楊艷;用Plug-in實(shí)現(xiàn)對(duì)PDF文件的信息提取[J];計(jì)算機(jī)應(yīng)用;2003年02期

3 楊道良;面向?qū)ο蟮闹形腜DF閱讀器的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;1999年06期

4 李蘭友;陳立;謝雪蓮;;面向Web的PDF文檔構(gòu)建技術(shù)[J];計(jì)算機(jī)與現(xiàn)代化;2013年12期

5 陳云榕;劉立柱;丁志鴻;;PDF文件中關(guān)鍵信息的提取與組織方法研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年07期

6 李強(qiáng);劉時(shí)進(jìn);;PDF閱讀器的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年07期

7 宋艷娟,張文德;基于XML的PDF文檔信息抽取系統(tǒng)的研究[J];現(xiàn)代圖書情報(bào)技術(shù);2005年09期

8 張秀秀;馬建霞;;PDF科技論文語(yǔ)義元數(shù)據(jù)的自動(dòng)抽取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期

9 龍瓏;鄧偉;覃曉;;綠色網(wǎng)絡(luò)PDF提取系統(tǒng)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2014年01期

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 高良才;湯幟;陶欣;房婧;;一種自動(dòng)發(fā)現(xiàn)、分割與標(biāo)注引文元數(shù)據(jù)的方法[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年06期

2 李小斌;;一種從HTML頁(yè)面到RDF文檔的轉(zhuǎn)化方法[J];電腦與信息技術(shù);2006年04期

3 黃光芳;;正則表達(dá)式在遠(yuǎn)程網(wǎng)頁(yè)下載中的應(yīng)用[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年12期

4 歐陽(yáng)輝;祿樂濱;;基于證據(jù)理論的論文元數(shù)據(jù)抽取算法研究[J];電子設(shè)計(jì)工程;2010年04期

5 歐陽(yáng)輝;祿樂濱;;基于SVM的論文元數(shù)據(jù)抽取方法研究[J];電子設(shè)計(jì)工程;2010年05期

6 魏宏安;陳忠輝;;電紙書PDF閱讀器的設(shè)計(jì)與實(shí)現(xiàn)[J];福州大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年06期

7 李樹霞;;農(nóng)業(yè)科技核心期刊網(wǎng)站建設(shè)及OA出版調(diào)查研究[J];中國(guó)編輯;2013年05期

8 林青;李健;;PDF文檔HTML化中文本重排問題研究[J];電腦與信息技術(shù);2014年03期

9 郭志鑫;金海;陳漢華;;SemreX中基于語(yǔ)義的文檔參考文獻(xiàn)元數(shù)據(jù)信息提取[J];計(jì)算機(jī)研究與發(fā)展;2006年08期

10 周國(guó)祥;吳自文;;Acrobat插件在PDF安全中的研究與應(yīng)用[J];計(jì)算機(jī)研究與發(fā)展;2010年S1期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條

1 周國(guó)祥;吳自文;;Acrobat插件在PDF安全中的研究與應(yīng)用[A];第六屆中國(guó)測(cè)試學(xué)術(shù)會(huì)議論文集[C];2010年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

1 崔金棟;基于本體的網(wǎng)格信息檢索模型研究[D];吉林大學(xué);2011年

2 周明建;基于本體的開放式知識(shí)管理研究[D];浙江大學(xué);2004年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 赫蘭冰;基于光學(xué)傳感的風(fēng)表自動(dòng)檢定與數(shù)據(jù)采集系統(tǒng)開發(fā)[D];哈爾濱理工大學(xué);2010年

2 沙有闖;基于Web文本挖掘的網(wǎng)絡(luò)口碑監(jiān)測(cè)系統(tǒng)研究[D];安徽大學(xué);2010年

3 熊燕子;基于OWL-S語(yǔ)義服務(wù)描述的數(shù)字圖書館網(wǎng)格應(yīng)用模型研究[D];湖北工業(yè)大學(xué);2011年

4 顧鈞;基于數(shù)字版權(quán)系統(tǒng)的PDF文檔安全性研究與應(yīng)用[D];合肥工業(yè)大學(xué);2011年

5 吳自文;插件技術(shù)在PDF文檔安全保護(hù)中的研究與應(yīng)用[D];合肥工業(yè)大學(xué);2011年

6 劉華中;面向PDF文檔的論文元數(shù)據(jù)提取方法研究[D];燕山大學(xué);2012年

7 王鵬;基于PPML的可變數(shù)字印刷文件解析及加網(wǎng)技術(shù)[D];浙江工業(yè)大學(xué);2012年

8 李暉;面向Web應(yīng)用的電子表單系統(tǒng)[D];大連理工大學(xué);2003年

9 何忠平;圖像數(shù)據(jù)壓縮技術(shù)在PDF中的應(yīng)用研究[D];哈爾濱工程大學(xué);2004年

10 張禎;知識(shí)管理系統(tǒng)中知識(shí)項(xiàng)建立的自動(dòng)化研究[D];浙江大學(xué);2005年

【二級(jí)參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 李德華;;利用方正小樣與PDF文件的無(wú)縫對(duì)接實(shí)現(xiàn)遠(yuǎn)程校對(duì)[J];編輯學(xué)報(bào);2008年06期

2 張強(qiáng);陶宏才;;基于Web網(wǎng)頁(yè)與PDF文檔自動(dòng)構(gòu)建更新語(yǔ)言模型[J];成都信息工程學(xué)院學(xué)報(bào);2009年05期

3 劉曉崢;;基于JAVA的PDF報(bào)表創(chuàng)建[J];長(zhǎng)江工程職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年04期

4 孫傳慶;朱正平;王秀麗;;基于WEB的PDF格式輸出實(shí)現(xiàn)[J];甘肅科技;2007年01期

5 侯金波;王德群;;iText API在計(jì)量管理信息系統(tǒng)中的應(yīng)用[J];中國(guó)計(jì)量;2008年08期

6 田學(xué)軍;PDF文件格式及其轉(zhuǎn)化方法探討[J];荊門職業(yè)技術(shù)學(xué)院學(xué)報(bào);2005年03期

7 張曉孿;王西鋒;;基于概念圖的漢語(yǔ)語(yǔ)義計(jì)算的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2011年10期

8 顧兆軍,張俊;PDF文件鏈接信息提取與修改[J];計(jì)算機(jī)工程;2005年S1期

9 董相志;柳岸;陳偉波;李浚;;基于Domino PKI和PDF文檔的電子印章系統(tǒng)[J];計(jì)算機(jī)工程;2007年19期

10 李貴林,李建中,楊艷;用Plug-in實(shí)現(xiàn)對(duì)PDF文件的信息提取[J];計(jì)算機(jī)應(yīng)用;2003年02期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 張波;PDF文檔語(yǔ)義信息抽取研究[D];河北大學(xué);2004年

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 高建群;;學(xué)術(shù)論文的寫作與發(fā)表技巧[J];中國(guó)科技期刊研究;2000年03期

2 楊琦;學(xué)術(shù)論文作者真?zhèn)蔚漠a(chǎn)生及預(yù)防對(duì)策[J];出版發(fā)行研究;2003年10期

3 ;學(xué)術(shù)論文規(guī)范化信息I[J];宿州師專學(xué)報(bào);2003年04期

4 薛永強(qiáng);吳艷宏;;淺談學(xué)術(shù)論文的寫作[J];黑龍江檔案;2007年06期

5 車軒玉;朱富銘;;工程實(shí)踐型學(xué)術(shù)論文常見問題分析[J];中國(guó)科技期刊研究;2008年03期

6 ;學(xué)術(shù)論文中的數(shù)字及其用法[J];遼寧師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期

7 賴輝榮;劉葵波;;圖書館學(xué)術(shù)論文質(zhì)量滑坡原因探析[J];圖書館工作與研究;2008年09期

8 ;我院一九八○年學(xué)術(shù)論文發(fā)表情況[J];大連輕工業(yè)學(xué)院學(xué)報(bào);1981年01期

9 黃宗忠;;怎樣寫學(xué)術(shù)論文[J];湖南檔案;1982年08期

10 朱和舫;談?wù)劇皩W(xué)術(shù)論文”的寫作[J];麗水師專學(xué)報(bào);1984年01期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 呂青;;護(hù)理學(xué)術(shù)論文的選題與寫作(提綱)[A];第四屆全軍腰腿痛學(xué)術(shù)研討會(huì)、第五屆全國(guó)肢殘康復(fù)護(hù)理研討會(huì)論文選編[C];2005年

2 ;2000年度獲獎(jiǎng)學(xué)術(shù)論文總目次[A];中國(guó)重汽科協(xié)獲獎(jiǎng)學(xué)術(shù)論文選編(2000-2001)[C];2002年

3 ;2001年度獲獎(jiǎng)學(xué)術(shù)論文總目次[A];中國(guó)重汽科協(xié)獲獎(jiǎng)學(xué)術(shù)論文選編(2000-2001)[C];2002年

4 ;2002年度獲獎(jiǎng)學(xué)術(shù)論文總目次[A];中國(guó)重汽科協(xié)獲獎(jiǎng)學(xué)術(shù)論文選編(2002-2003)[C];2004年

5 ;2003年度獲獎(jiǎng)學(xué)術(shù)論文總目次[A];中國(guó)重汽科協(xié)獲獎(jiǎng)學(xué)術(shù)論文選編(2002-2003)[C];2004年

6 薛長(zhǎng)勇;;學(xué)術(shù)論文的撰寫[A];臨床營(yíng)養(yǎng)師實(shí)踐技能培訓(xùn)班匯編[C];2012年

7 劉平;張康莉;劉國(guó)偉;張新國(guó);;撰寫醫(yī)學(xué)論文的規(guī)律及怎樣撰寫學(xué)術(shù)論文[A];中華醫(yī)學(xué)會(huì)醫(yī)學(xué)科研管理學(xué)分會(huì)第十次學(xué)術(shù)年會(huì)暨第二屆醫(yī)學(xué)科研管理研討會(huì)征文匯編[C];2006年

8 李克昭;;學(xué)術(shù)論文撰稿六忌[A];學(xué)報(bào)編輯文集[C];1991年

9 田力;;護(hù)理學(xué)術(shù)論文的選題(提綱)[A];全國(guó)血液凈化護(hù)理學(xué)術(shù)交流暨專題講座會(huì)議論文匯編[C];2003年

10 于方;;學(xué)術(shù)論文“引言”存在問題分析[A];學(xué)報(bào)編輯論叢(第十一集)[C];2003年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

1 駱遠(yuǎn)鑫;集郵學(xué)術(shù)論文“別說(shuō)”[N];中國(guó)集郵報(bào);2014年

2 記者 曾福泉 通訊員 周煒;浙大學(xué)術(shù)論文領(lǐng)跑全國(guó)高校[N];浙江日?qǐng)?bào);2014年

3 王澤華;學(xué)術(shù)論文當(dāng)心走進(jìn)三個(gè)誤區(qū)[N];光明日?qǐng)?bào);2001年

4 馮長(zhǎng)根;學(xué)術(shù)論文該不該受非議[N];光明日?qǐng)?bào);2005年

5 周云;重慶召開集郵學(xué)術(shù)論文發(fā)表會(huì)[N];中國(guó)集郵報(bào);2007年

6 記者 楊樂 實(shí)習(xí)生 余芳;我市學(xué)術(shù)論文進(jìn)步巨大[N];南寧日?qǐng)?bào);2010年

7 張中 復(fù)旦大學(xué)中文系;學(xué)術(shù)論文的“欲望生產(chǎn)”和“符號(hào)消費(fèi)”[N];中國(guó)社會(huì)科學(xué)報(bào);2009年

8 記者 李蓓;新疆論文首次入選中國(guó)百篇最具影響國(guó)際學(xué)術(shù)論文[N];新疆科技報(bào)(漢);2014年

9 楊元豐;市衛(wèi)生監(jiān)督所學(xué)術(shù)論文參加大會(huì)交流[N];大同日?qǐng)?bào);2008年

10 記者 謝宗惠;全國(guó)航海學(xué)術(shù)論文呈現(xiàn)興旺景象[N];中國(guó)水運(yùn)報(bào);2008年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 孟勐;基于語(yǔ)料庫(kù)的中國(guó)作者和英語(yǔ)母語(yǔ)作者英文學(xué)術(shù)論文中評(píng)價(jià)語(yǔ)言的對(duì)比研究[D];上海外國(guó)語(yǔ)大學(xué);2007年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 諸奇嫣;英漢學(xué)術(shù)論文引言和結(jié)論語(yǔ)類分析及其相關(guān)性對(duì)比研究[D];浙江工商大學(xué);2011年

2 楊穎;高校教師網(wǎng)絡(luò)發(fā)表學(xué)術(shù)論文的學(xué)術(shù)影響力評(píng)價(jià)研究[D];哈爾濱工程大學(xué);2011年

3 冉井芳;英漢應(yīng)用語(yǔ)言學(xué)類學(xué)術(shù)論文引言體裁結(jié)構(gòu)的對(duì)比研究[D];西南交通大學(xué);2006年

4 李慧艷;英漢社科學(xué)術(shù)論文的體裁對(duì)比分析[D];南昌大學(xué);2006年

5 李春能;中西學(xué)者學(xué)術(shù)論文中連接狀語(yǔ)對(duì)比研究[D];華中師范大學(xué);2014年

6 王亞非;學(xué)術(shù)論文英文引言及其寫作[D];長(zhǎng)春理工大學(xué);2004年

7 黃品全;高校教師學(xué)術(shù)論文失范問題研究[D];華東師范大學(xué);2008年

8 芮琦家;《何為翻譯—作為一門學(xué)科研究的翻譯》(之七)翻譯報(bào)告[D];南京農(nóng)業(yè)大學(xué);2013年

9 李明偉;學(xué)術(shù)論文結(jié)論部分的功能體裁分析[D];燕山大學(xué);2012年

10 賀芳;經(jīng)濟(jì)類英語(yǔ)學(xué)術(shù)論文引言研究—從宏觀分析到微觀分析[D];重慶大學(xué);2014年


  本文關(guān)鍵詞:基于PDFBox抽取學(xué)術(shù)論文信息的實(shí)現(xiàn)?,,由筆耕文化傳播整理發(fā)布。



本文編號(hào):493547

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/lwzy/493547.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1278d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com