PDF格式中文科技論文的有效信息提取方法及分類研究
發(fā)布時間:2017-06-01 07:12
本文關(guān)鍵詞:PDF格式中文科技論文的有效信息提取方法及分類研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著信息技術(shù)的不斷發(fā)展,在人們的生活和工作中出現(xiàn)了各種各樣的信息資源,這給我們帶來了諸多便利,其中文檔資源是當(dāng)前使用最普遍的信息資源之一。PDF格式的文檔資源由于其本身具有操作平臺的無關(guān)性、文檔的視覺顯示信息和數(shù)據(jù)信息之間的獨(dú)立性以及良好的安全性,逐漸地受到了人們的青睞,正慢慢地發(fā)展成為電子文檔資源在信息系統(tǒng)中共享的主流文檔格式。由于PDF格式文檔具有這些優(yōu)勢,當(dāng)前的科技論文一般都要求采用PDF格式來提交。但是在上傳提交PDF格式論文時,由于PDF文檔是面向顯示的,無法對其內(nèi)容進(jìn)行直接處理。所以當(dāng)前一般采用人工識別和提取的方式來處理PDF格式論文的標(biāo)記信息,但是這種方式隨著論文規(guī)模的不斷增大,不僅效率降低而且錯誤率也會提高,這給人們在定位所需的論文資源時帶來了麻煩。所以如何更好地對PDF格式論文的標(biāo)記信息進(jìn)行準(zhǔn)確而高效的提取并對它們做一定的語義處理,成為了當(dāng)前研究的熱點(diǎn)。 本文主要討論對于PDF格式的中文科技論文的有效信息的提取、摘要的主題句的提取以及根據(jù)提取的摘要主題句對論文進(jìn)行有效地分類。以此希望能提高論文提交時標(biāo)記論文的準(zhǔn)確率和效率,幫助人們能快速而準(zhǔn)確地定位到所需的論文信息資源。其中論文的有效信息指的是論文的標(biāo)題、作者、論文關(guān)鍵詞、摘要等信息。圍繞這個主題,本文做了一系列的研究工作,主要的研究內(nèi)容有以下幾個方面: 1)對PDF論文的有效信息的提取。由于中文科技論文的格式一般都是固定的,可以利用格式來對論文的有效信息進(jìn)行提取。并且對于特定的有效信息,它的視覺特征和關(guān)鍵詞都是特定的。所以本文將采用論文格式、有效信息的視覺特征和關(guān)鍵詞三者相結(jié)合的方式來提取論文的有效信息。利用這種方法提取有效信息充分利用了PDF文檔的特性,思想簡單,能準(zhǔn)確、高效地提取出論文的有效信息。 2)提取論文摘要的主題句。這部分是對論文摘要所進(jìn)行的語義處理。毋庸置疑,論文的關(guān)鍵詞是對論文主題的一個簡練的概括,論文摘要是對論文中心思想的一個概述,但論文摘要中通常會包含一些冗余信息。在此將討論利用論文的關(guān)鍵詞來提取論文摘要的主題句,從而能夠使用戶很直觀的看到最能體現(xiàn)論文中心思想的主題句。所以在此研究了基于遺傳算法,利用論文關(guān)鍵詞來提取論文摘要的主題句,達(dá)到對論文摘要的精簡。 3)利用提取出來的論文摘要主題句對論文進(jìn)行分類。由于摘要的主題句能夠精煉地概括論文的中心主題,所以可以利用其對論文進(jìn)行有效的分類。這部分是基于樸素貝葉斯算法,利用Lucne.Net和ICTCLAS中文分詞系統(tǒng)進(jìn)行中文分詞形成特征向量,從而對論文進(jìn)行分類。這一部分的主要目的是通過對上傳論文的歸類,節(jié)約了人工分類的開銷,為用戶準(zhǔn)確地定位到所需的論文資源提供了支持。
【關(guān)鍵詞】:PDF中文論文 有效信息提取 主題句抽取 分類
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:TP391.1
【目錄】:
- 前言4-5
- 摘要5-7
- Abstract7-12
- 第1章 緒論12-16
- 1.1 研究背景及意義12-14
- 1.2 論文的主要工作14-15
- 1.3 論文的組織結(jié)構(gòu)15-16
- 第2章 論文的有效信息的提取16-25
- 2.1 PDF 文檔格式介紹16-19
- 2.1.1 PDF 文檔簡介16-17
- 2.1.2 PDF 文檔的結(jié)構(gòu)和分析17-19
- 2.2 PDF 文件解析類庫 PDFBox 的介紹19-20
- 2.3 論文的有效信息及提取的方法20-23
- 2.3.1 論文標(biāo)題信息的提取21
- 2.3.2 論文作者信息的提取21-22
- 2.3.3 論文摘要信息的提取22
- 2.3.4 論文關(guān)鍵詞信息的提取22-23
- 2.4 論文的有效信息的實(shí)現(xiàn)23-24
- 2.5 本章小結(jié)24-25
- 第3章 論文摘要的主題句的提取25-39
- 3.1 中文分詞25-29
- 3.1.1 中文分詞介紹25
- 3.1.2 幾種分詞方法的介紹25-28
- 3.1.3 ICTCLAS 中文分詞系統(tǒng)和 Lucene.Net 介紹28-29
- 3.1.4 中文分詞的實(shí)現(xiàn)29
- 3.2 遺傳算法介紹29-35
- 3.2.1 遺傳算法概述29-32
- 3.2.2 選擇操作32-33
- 3.2.3 雜交操作33-34
- 3.2.4 變異操作34-35
- 3.2.5 終止條件35
- 3.3 基于遺傳算法的論文摘要主題句的提取的實(shí)現(xiàn)35-38
- 3.3.1 問題建模35-36
- 3.3.2 編碼方案的確定36
- 3.3.3 適應(yīng)度函數(shù)的確定36-37
- 3.3.4 選擇操作的確定37-38
- 3.3.5 雜交操作的確定38
- 3.3.6 變異操作的確定38
- 3.4 本章小結(jié)38-39
- 第4章 基于樸素貝葉斯算法的中文文本分類39-44
- 4.1 中文文本分類介紹39-40
- 4.2 樸素貝葉斯分類算法介紹40-41
- 4.3 基于樸素貝葉斯算法的中文文本分類器的實(shí)現(xiàn)41-43
- 4.3.1 問題定義41-42
- 4.3.2 中文分詞42
- 4.3.3 特征向量的形成42
- 4.3.4 文本分類訓(xùn)練集介紹42
- 4.3.5 文本分類器的形成42-43
- 4.4 本章小結(jié)43-44
- 第5章 總結(jié)44-45
- 參考文獻(xiàn)45-47
- 致謝47
【引證文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 丁筠;官鑫;;快速編輯和提取PDF文件信息[J];中國科技信息;2012年12期
本文關(guān)鍵詞:PDF格式中文科技論文的有效信息提取方法及分類研究,由筆耕文化傳播整理發(fā)布。
,本文編號:412002
本文鏈接:http://sikaile.net/wenshubaike/hetongwenben/412002.html
教材專著