當(dāng)前位置：主頁 > 論文百科 > 環(huán)境科學(xué)論文 >

PDF格式中文科技論文的有效信息提取方法及分類研究

發(fā)布時間：2017-06-01 07:12

本文關(guān)鍵詞：PDF格式中文科技論文的有效信息提取方法及分類研究，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著信息技術(shù)的不斷發(fā)展,在人們的生活和工作中出現(xiàn)了各種各樣的信息資源,這給我們帶來了諸多便利,其中文檔資源是當(dāng)前使用最普遍的信息資源之一。PDF格式的文檔資源由于其本身具有操作平臺的無關(guān)性、文檔的視覺顯示信息和數(shù)據(jù)信息之間的獨(dú)立性以及良好的安全性,逐漸地受到了人們的青睞,正慢慢地發(fā)展成為電子文檔資源在信息系統(tǒng)中共享的主流文檔格式。由于PDF格式文檔具有這些優(yōu)勢,當(dāng)前的科技論文一般都要求采用PDF格式來提交。但是在上傳提交PDF格式論文時,由于PDF文檔是面向顯示的,無法對其內(nèi)容進(jìn)行直接處理。所以當(dāng)前一般采用人工識別和提取的方式來處理PDF格式論文的標(biāo)記信息,但是這種方式隨著論文規(guī)模的不斷增大,不僅效率降低而且錯誤率也會提高,這給人們在定位所需的論文資源時帶來了麻煩。所以如何更好地對PDF格式論文的標(biāo)記信息進(jìn)行準(zhǔn)確而高效的提取并對它們做一定的語義處理,成為了當(dāng)前研究的熱點(diǎn)。本文主要討論對于PDF格式的中文科技論文的有效信息的提取、摘要的主題句的提取以及根據(jù)提取的摘要主題句對論文進(jìn)行有效地分類。以此希望能提高論文提交時標(biāo)記論文的準(zhǔn)確率和效率,幫助人們能快速而準(zhǔn)確地定位到所需的論文信息資源。其中論文的有效信息指的是論文的標(biāo)題、作者、論文關(guān)鍵詞、摘要等信息。圍繞這個主題,本文做了一系列的研究工作,主要的研究內(nèi)容有以下幾個方面: 1)對PDF論文的有效信息的提取。由于中文科技論文的格式一般都是固定的,可以利用格式來對論文的有效信息進(jìn)行提取。并且對于特定的有效信息,它的視覺特征和關(guān)鍵詞都是特定的。所以本文將采用論文格式、有效信息的視覺特征和關(guān)鍵詞三者相結(jié)合的方式來提取論文的有效信息。利用這種方法提取有效信息充分利用了PDF文檔的特性,思想簡單,能準(zhǔn)確、高效地提取出論文的有效信息。 2)提取論文摘要的主題句。這部分是對論文摘要所進(jìn)行的語義處理。毋庸置疑,論文的關(guān)鍵詞是對論文主題的一個簡練的概括,論文摘要是對論文中心思想的一個概述,但論文摘要中通常會包含一些冗余信息。在此將討論利用論文的關(guān)鍵詞來提取論文摘要的主題句,從而能夠使用戶很直觀的看到最能體現(xiàn)論文中心思想的主題句。所以在此研究了基于遺傳算法,利用論文關(guān)鍵詞來提取論文摘要的主題句,達(dá)到對論文摘要的精簡。 3)利用提取出來的論文摘要主題句對論文進(jìn)行分類。由于摘要的主題句能夠精煉地概括論文的中心主題,所以可以利用其對論文進(jìn)行有效的分類。這部分是基于樸素貝葉斯算法,利用Lucne.Net和ICTCLAS中文分詞系統(tǒng)進(jìn)行中文分詞形成特征向量,從而對論文進(jìn)行分類。這一部分的主要目的是通過對上傳論文的歸類,節(jié)約了人工分類的開銷,為用戶準(zhǔn)確地定位到所需的論文資源提供了支持。
【關(guān)鍵詞】：PDF中文論文 有效信息提取 主題句抽取 分類
【學(xué)位授予單位】：吉林大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2011
【分類號】：TP391.1
【目錄】：

前言4-5
摘要5-7
Abstract7-12
第1章緒論12-16
1.1 研究背景及意義12-14
1.2 論文的主要工作14-15
1.3 論文的組織結(jié)構(gòu)15-16
第2章論文的有效信息的提取16-25
2.1 PDF 文檔格式介紹16-19
2.1.1 PDF 文檔簡介16-17
2.1.2 PDF 文檔的結(jié)構(gòu)和分析17-19
2.2 PDF 文件解析類庫 PDFBox 的介紹19-20
2.3 論文的有效信息及提取的方法20-23
2.3.1 論文標(biāo)題信息的提取21
2.3.2 論文作者信息的提取21-22
2.3.3 論文摘要信息的提取22
2.3.4 論文關(guān)鍵詞信息的提取22-23
2.4 論文的有效信息的實(shí)現(xiàn)23-24
2.5 本章小結(jié)24-25
第3章論文摘要的主題句的提取25-39
3.1 中文分詞25-29
3.1.1 中文分詞介紹25
3.1.2 幾種分詞方法的介紹25-28
3.1.3 ICTCLAS 中文分詞系統(tǒng)和 Lucene.Net 介紹28-29
3.1.4 中文分詞的實(shí)現(xiàn)29
3.2 遺傳算法介紹29-35
3.2.1 遺傳算法概述29-32
3.2.2 選擇操作32-33
3.2.3 雜交操作33-34
3.2.4 變異操作34-35
3.2.5 終止條件35
3.3 基于遺傳算法的論文摘要主題句的提取的實(shí)現(xiàn)35-38
3.3.1 問題建模35-36
3.3.2 編碼方案的確定36
3.3.3 適應(yīng)度函數(shù)的確定36-37
3.3.4 選擇操作的確定37-38
3.3.5 雜交操作的確定38
3.3.6 變異操作的確定38
3.4 本章小結(jié)38-39
第4章基于樸素貝葉斯算法的中文文本分類39-44
4.1 中文文本分類介紹39-40
4.2 樸素貝葉斯分類算法介紹40-41
4.3 基于樸素貝葉斯算法的中文文本分類器的實(shí)現(xiàn)41-43
4.3.1 問題定義41-42
4.3.2 中文分詞42
4.3.3 特征向量的形成42
4.3.4 文本分類訓(xùn)練集介紹42
4.3.5 文本分類器的形成42-43
4.4 本章小結(jié)43-44
第5章總結(jié)44-45
參考文獻(xiàn)45-47
致謝47

【引證文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前1條

1 丁筠;官鑫;;快速編輯和提取PDF文件信息[J];中國科技信息;2012年12期

本文關(guān)鍵詞：PDF格式中文科技論文的有效信息提取方法及分類研究，由筆耕文化傳播整理發(fā)布。

，

本文編號：412002

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/wenshubaike/hetongwenben/412002.html

上一篇：科技論文的撰寫要求與格式的標(biāo)準(zhǔn)化
下一篇：撰寫科技論文應(yīng)該注意格式的標(biāo)準(zhǔn)化

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

PDF格式中文科技論文的有效信息提取方法及分類研究