網(wǎng)絡(luò)科技信息監(jiān)測中富文檔識別與信息提取技術(shù)研究
本文關(guān)鍵詞:網(wǎng)絡(luò)科技信息監(jiān)測中富文檔識別與信息提取技術(shù)研究
更多相關(guān)文章: 富文檔 元數(shù)據(jù) 類型識別
【摘要】:【目的/意義】圍繞富文檔載體類型的鑒別、元數(shù)據(jù)的提取等開展相應(yīng)的實(shí)際應(yīng)用探索!痉椒/過程】通過開源工具PDFBox以及Tika對不同類型的富文檔元數(shù)據(jù)及正文內(nèi)容進(jìn)行提取,取得了良好的實(shí)際效果,為科研人員提供了大量的有學(xué)術(shù)價(jià)值的情報(bào)資源!窘Y(jié)果/結(jié)論】通過對富文檔監(jiān)測與識別的研究與探索,筆者拓展了文本知識內(nèi)容的識別方法,為后續(xù)的深度知識分析提供了有效的支撐。
【作者單位】: 中國科學(xué)院文獻(xiàn)情報(bào)中心;中國科學(xué)院大學(xué);
【基金】:中國科學(xué)院文獻(xiàn)情報(bào)能力建設(shè)專項(xiàng)(院1509) 教育部人文社科基金(14YJC870029)
【分類號】:G254
【正文快照】: 隨著網(wǎng)絡(luò)傳播方式的廣泛普及,越來越多的管理機(jī)構(gòu)、科研機(jī)構(gòu)在通過正式交流渠道(如期刊、圖書等媒介)發(fā)布研究成果的同時(shí),他們也選擇通過Internet這類非正式交流平臺發(fā)布、共享相關(guān)的科研新聞、重大成果或研究報(bào)告、年度預(yù)算等,這些內(nèi)容除了以html形式存在,更多的以PDF、DOC、
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王志軍;;借助高級替換刪除包含特定內(nèi)容的行[J];電腦知識與技術(shù)(經(jīng)驗(yàn)技巧);2011年10期
2 王蘭富;;合并文檔原來如此奧妙[J];電腦愛好者;2013年02期
3 張迎新;唯有源頭活水來——用樣式管理文檔內(nèi)容[J];電腦應(yīng)用文萃;2004年01期
4 小威;;利用宏隱藏重要文檔[J];網(wǎng)絡(luò)與信息;2007年12期
5 友文;;讓你的本本更商務(wù)化[J];電腦知識與技術(shù)(經(jīng)驗(yàn)技巧);2013年11期
6 萬立夫;;檢索文檔內(nèi)容 查找需要文件[J];電腦迷;2014年07期
7 陳桂鑫;;文檔異地打開不走樣[J];家庭科技;2010年04期
8 阿珊;;第一次打印文檔[J];電腦界.應(yīng)用文萃;2000年07期
9 劉劉;;自動比對文章細(xì)節(jié) 輕松區(qū)分其不同之處[J];網(wǎng)絡(luò)與信息;2010年04期
10 一頁 ,王杰;用好“潛望鏡”,文檔內(nèi)容早知道[J];電腦愛好者;2005年21期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 李旭;余靖;;一種基于提取指紋方法的數(shù)字文檔拷貝檢測模型[A];2005年全國理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會論文集[C];2005年
2 李偉;;文檔的標(biāo)準(zhǔn)化在MIS系統(tǒng)建設(shè)中的重要意義[A];中國煙草行業(yè)信息化研討會論文集[C];2004年
3 祝建軍;黃冬梅;;XML文檔更新時(shí)鍵約束保持的研究與實(shí)現(xiàn)[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2004年
4 于亞新;胡軍安;吳剛;成杰峰;王國仁;于戈;;一個(gè)可視化的文檔瀏覽器X-Explorer的設(shè)計(jì)與實(shí)現(xiàn)[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2001年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 華軍;Word文檔損壞后的修復(fù)[N];江蘇科技報(bào);2007年
2 張樹忠;Word 2003中瀏覽多文檔技巧[N];中國電腦教育報(bào);2004年
3 ;快速將Word文檔變?yōu)閳D片[N];電腦報(bào);2005年
4 ;企業(yè)選擇透明加密產(chǎn)品“四步曲”[N];網(wǎng)絡(luò)世界;2010年
5 黑龍江 魏俊嶺;PDF輕松看[N];電腦報(bào);2001年
6 李鋒白;漢王新系統(tǒng)可編輯11種PDF文檔[N];中國計(jì)算機(jī)報(bào);2007年
7 清風(fēng);認(rèn)識幫助文檔[N];中國電腦教育報(bào);2002年
8 ;編輯HTML文檔的利器[N];中國電腦教育報(bào);2002年
9 新疆 張迎新;修訂審閱有條不紊[N];電腦報(bào);2002年
10 賈培武;Word文檔混亂不用愁[N];中國證券報(bào);2005年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 易姝仙;云環(huán)境下多安全級別的文檔自毀機(jī)制研究[D];福建師范大學(xué);2015年
2 顧鈞;基于數(shù)字版權(quán)系統(tǒng)的PDF文檔安全性研究與應(yīng)用[D];合肥工業(yè)大學(xué);2011年
3 王常有;基于固有特征的復(fù)印文檔取證研究[D];大連理工大學(xué);2013年
4 劉彤;基于BLP模型文檔保護(hù)系統(tǒng)實(shí)現(xiàn)[D];天津大學(xué);2012年
5 高蒙;基于PDF的電子文檔保護(hù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];上海交通大學(xué);2008年
6 吳皓;基于COM組件的智能文檔模型及其實(shí)現(xiàn)研究[D];華中科技大學(xué);2007年
,本文編號:1251738
本文鏈接:http://sikaile.net/tushudanganlunwen/1251738.html