Web中LaTex數(shù)學(xué)公式提取方法研究
發(fā)布時間:2017-04-25 14:13
本文關(guān)鍵詞:Web中LaTex數(shù)學(xué)公式提取方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)信息急速增長,大量的信息涌現(xiàn)在互聯(lián)網(wǎng)上。搜索引擎為廣大人們提供了信息檢索和共享的一個平臺,而傳統(tǒng)的搜索引擎在一些方面已經(jīng)滿足不了人們增長的需求。在數(shù)學(xué)領(lǐng)域,Web中的數(shù)學(xué)論壇、Wiki等社會性的網(wǎng)站在數(shù)學(xué)教育方面影響力日益增長,而這些網(wǎng)站中存在大量的數(shù)學(xué)公式,而全文搜索引擎已經(jīng)不能滿足人們對數(shù)學(xué)公式搜索能力的要求。因此,如何對這些網(wǎng)站中數(shù)學(xué)公式進(jìn)行搜索,對數(shù)學(xué)方面的學(xué)習(xí)、科學(xué)研究十分重要,其中,數(shù)學(xué)公式提取是索引系統(tǒng)的前提和基礎(chǔ),是搜索引擎中的重要環(huán)節(jié)。 在此類網(wǎng)站中,數(shù)學(xué)公式主要以LaTex、圖片等形式存在,本文主要研究LaTex格式的數(shù)學(xué)公式的提取方法,一方面,本文結(jié)合BNF表述方式,提出自動分析提取包含LaTex公式特征的方法,來找出網(wǎng)頁中包含LaTex公式的特征;另一方面,依據(jù)公式包含特征,提出提取和過濾LaTex數(shù)學(xué)公式的方法,過濾掉提取內(nèi)容中存在的非LaTex數(shù)學(xué)公式,增加提取公式的精度,通過實驗發(fā)現(xiàn),該方法的查全率達(dá)到75%,查準(zhǔn)率達(dá)到99%。
【關(guān)鍵詞】:數(shù)學(xué)公式 LaTex 查準(zhǔn)率 查全率 BNF 搜索引擎
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 中文摘要3-4
- Abstract4-5
- 目錄5-7
- 第一章 引言7-13
- 1.1 背景7-8
- 1.2 研究現(xiàn)狀及分析8-12
- 1.2.1 現(xiàn)有數(shù)學(xué)搜索的研究現(xiàn)狀8-11
- 1.2.2 小結(jié)11-12
- 1.3 論文結(jié)構(gòu)12-13
- 第二章 相關(guān)研究基礎(chǔ)13-21
- 2.1 Wiki概述13-14
- 2.2 MathSearch概述14-15
- 2.3 Nutch簡介15-17
- 2.3.1 Nutch特點15
- 2.3.2 Nutch系統(tǒng)結(jié)構(gòu)15-17
- 2.4 DOM簡介17
- 2.5 正則表達(dá)式17-18
- 2.6 LaTex簡介18-20
- 2.6.1 LaTex概述18-19
- 2.6.2 LaTex數(shù)學(xué)公式19-20
- 2.7 小結(jié)20-21
- 第三章 LaTex數(shù)學(xué)公式識別與提取21-37
- 3.1 LaTex數(shù)學(xué)公式識別與提取過程22-23
- 3.2 自動分析提取包含LaTex數(shù)學(xué)公式特征23-31
- 3.2.1 Web中在線處理LaTex數(shù)學(xué)公式方式23-25
- 3.2.2 自動分析提取包含LaTex數(shù)學(xué)公式過程25-31
- 3.3 提取和過濾LaTex數(shù)學(xué)公式31-36
- 3.3.1 提取和過濾LaTex數(shù)學(xué)公式過程31-32
- 3.3.2 采用提取特征提取LaTex數(shù)學(xué)公式32
- 3.3.3 采用LaTex數(shù)學(xué)符號提取LaTex數(shù)學(xué)公式32
- 3.3.4 采用過濾規(guī)則過濾提取內(nèi)容32-36
- 3.4 小結(jié)36-37
- 第四章 實驗及數(shù)據(jù)分析37-41
- 4.1 實驗平臺37
- 4.1.1 平臺開發(fā)介紹37
- 4.1.2 評價方法及數(shù)據(jù)選取37
- 4.2 實驗結(jié)果及分析37-40
- 4.3 小結(jié)40-41
- 第五章 總結(jié)與展望41-43
- 5.1 總結(jié)41-42
- 5.2 展望42-43
- 參考文獻(xiàn)43-45
- 附錄45-57
- 附錄一 LaTex數(shù)學(xué)符號分類表45-48
- 附錄二 LaTex數(shù)學(xué)符號影響因子統(tǒng)計表48-57
- 在學(xué)期間的研究成果57-58
- 致謝58
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 趙飛;周濤;張良;馬鳴卉;劉金虎;余飛;查一龍;李睿琪;;維基百科研究綜述[J];電子科技大學(xué)學(xué)報;2010年03期
2 葉春曉;鐘將;馮永;;基于屬性的訪問控制策略描述語言(英文)[J];Journal of Southeast University(English Edition);2008年03期
3 崔林衛(wèi);蘇偉;郭衛(wèi);李廉;;基于Nutch的Web數(shù)學(xué)公式提取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2011年01期
4 聶俊;陳天瑩;符紅光;;基于Latex的互聯(lián)網(wǎng)數(shù)學(xué)公式搜索引擎[J];計算機(jī)應(yīng)用;2010年S2期
5 鄭冬冬,趙朋朋,崔志明;Deep Web爬蟲研究與設(shè)計[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年S1期
本文關(guān)鍵詞:Web中LaTex數(shù)學(xué)公式提取方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號:326464
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/326464.html
最近更新
教材專著