數(shù)學(xué)表達(dá)式檢索系統(tǒng)的設(shè)計與實(shí)現(xiàn)
本文關(guān)鍵詞:數(shù)學(xué)表達(dá)式檢索系統(tǒng)的設(shè)計與實(shí)現(xiàn)
更多相關(guān)文章: 數(shù)學(xué)表達(dá)式 數(shù)學(xué)表達(dá)式檢索 搜索引擎 分詞器
【摘要】:互聯(lián)網(wǎng)的發(fā)展,給信息的產(chǎn)生和傳播帶來了極大的便利。搜索引擎的出現(xiàn),在很大程度上解決的人們查找信息的困難。人們通過搜索引擎可以從互聯(lián)網(wǎng)上獲取到各方面的信息。然而,在數(shù)學(xué)表達(dá)式的搜索這個特定的領(lǐng)域,目前的基于文本檢索技術(shù)的搜索引擎還不能進(jìn)行有效的輸入和檢索。如何才能像檢索普通文本一樣檢索數(shù)學(xué)表達(dá)式,是目前信息檢索領(lǐng)域的需要解決的問題之一。 本論文利用成熟的文本檢索技術(shù),,基于MathML數(shù)學(xué)描述語言,通過擴(kuò)展開源全文檢索框架Lucene使之適應(yīng)數(shù)學(xué)表達(dá)式檢索的方法來構(gòu)建數(shù)學(xué)表達(dá)式檢索原型系統(tǒng)FormulaSearch。論文主要開展以下工作: ①論文分析了數(shù)學(xué)表達(dá)式檢索的一般模型和典型的數(shù)學(xué)表達(dá)式檢索系統(tǒng),在此基礎(chǔ)上,提出了數(shù)學(xué)表達(dá)式檢索系統(tǒng)FormulaSearch的總體架構(gòu)。FormulaSearch由輸入模塊、預(yù)處理模塊、索引模塊和檢索模塊等四大模塊組成。其中,輸入模塊主要完成數(shù)學(xué)表達(dá)式的輸入和數(shù)學(xué)表達(dá)式轉(zhuǎn)化為MathML代碼;預(yù)處理模塊主要完成數(shù)學(xué)表達(dá)式的提取和分詞;索引模塊主要完成倒排索引的構(gòu)建。檢索模塊主要完成數(shù)學(xué)表達(dá)式的檢索,結(jié)果的排序和高亮呈現(xiàn)。 ②為了使Lucene對數(shù)學(xué)表達(dá)式這種高度結(jié)構(gòu)化的文本也有較好的的檢索效果,本文重新設(shè)計了針對數(shù)學(xué)表達(dá)式的Lucene分詞器。其設(shè)計思想是基于MathML文檔的DOM樹結(jié)構(gòu),將每一個子樹都看作是數(shù)學(xué)表達(dá)式的一個分詞結(jié)果。通過對DOM樹子樹的分析,得到數(shù)學(xué)表達(dá)式的分詞結(jié)果。 ③為了檢索系統(tǒng)的實(shí)際需要,本文使用SilverLight技術(shù)實(shí)現(xiàn)了一個簡單的數(shù)學(xué)表達(dá)式編輯器,可以實(shí)現(xiàn)對含有+、-、*、%、分式、開方、積分等常用數(shù)學(xué)表達(dá)式的輸入。 ④為了檢驗(yàn)FormulaSearch的實(shí)際檢索效果,本文以200道初中數(shù)學(xué)試題為測試數(shù)據(jù),通過實(shí)驗(yàn)檢測了系統(tǒng)的響應(yīng)時間、查全率、查準(zhǔn)率和F-Measure四項(xiàng)檢驗(yàn)指標(biāo)。實(shí)驗(yàn)表明,F(xiàn)ormulaSearch的實(shí)際檢索效果良好。
【關(guān)鍵詞】:數(shù)學(xué)表達(dá)式 數(shù)學(xué)表達(dá)式檢索 搜索引擎 分詞器
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要3-4
- ABSTRACT4-8
- 1 緒論8-12
- 1.1 研究背景及意義8-9
- 1.2 研究現(xiàn)狀9-11
- 1.2.1 數(shù)學(xué)表達(dá)式搜素引擎9-10
- 1.2.2 數(shù)學(xué)表達(dá)式描述語言10-11
- 1.3 本文的主要工作及組織結(jié)構(gòu)11-12
- 1.3.1 本文的主要工作11
- 1.3.2 組織結(jié)構(gòu)11-12
- 2 數(shù)學(xué)表達(dá)式檢索相關(guān)理論和技術(shù)12-22
- 2.1 數(shù)學(xué)表達(dá)式的描述語言12-15
- 2.1.1 基于 XML 的數(shù)學(xué)標(biāo)記方法概述12
- 2.1.2 MathML 標(biāo)記語言12-14
- 2.1.3 OpenMath 標(biāo)記語言14-15
- 2.2 數(shù)學(xué)表達(dá)式檢索15-20
- 2.2.1 數(shù)學(xué)表達(dá)式檢索的概念與構(gòu)成16-17
- 2.2.2 典型的數(shù)學(xué)表達(dá)式檢索系統(tǒng)17-19
- 2.3.3 現(xiàn)有搜索引擎對比19-20
- 2.3 全文檢索引擎框架 Lucene20-21
- 2.4 本章小結(jié)21-22
- 3 FormulaSearch 系統(tǒng)設(shè)計22-42
- 3.1 設(shè)計需求22
- 3.2 FormulaSearch 的系統(tǒng)設(shè)計22-23
- 3.3 數(shù)據(jù)庫的設(shè)計23-25
- 3.3.1 XML 文檔數(shù)據(jù)庫24-25
- 3.3.2 數(shù)學(xué)表達(dá)式數(shù)據(jù)庫25
- 3.4 輸入模塊25-30
- 3.4.1 數(shù)學(xué)表達(dá)式的編輯26-29
- 3.4.2 將數(shù)學(xué)表達(dá)式存儲為 MathML 代碼29-30
- 3.5 預(yù)處理模塊30-37
- 3.5.1 提取子模塊32
- 3.5.2 分詞子模塊32-37
- 3.6 索引模塊37-39
- 3.6.1 Lucene 索引過程分析37-38
- 3.6.2 FormulaSearch 索引模塊的設(shè)計38-39
- 3.7 檢索模塊39-41
- 3.7.1 Lucene 檢索過程分析39-40
- 3.7.2 FormulaSearch 檢索模塊的設(shè)計40-41
- 3.8 本章小結(jié)41-42
- 4 FormulaSearch 系統(tǒng)實(shí)現(xiàn)42-52
- 4.1 開發(fā)環(huán)境42
- 4.1.1 硬件環(huán)境42
- 4.1.2 軟件環(huán)境42
- 4.2 輸入模塊的實(shí)現(xiàn)42-43
- 4.3 預(yù)處理模塊的實(shí)現(xiàn)43-46
- 4.3.1 提取子模塊的實(shí)現(xiàn)43-44
- 4.3.2 分詞子模塊的實(shí)現(xiàn)44-46
- 4.4 索引模塊的實(shí)現(xiàn)46-48
- 4.5 檢索模塊的實(shí)現(xiàn)48-51
- 4.5.1 數(shù)學(xué)表達(dá)式檢索的實(shí)現(xiàn)48-49
- 4.5.2 檢索結(jié)果高亮的實(shí)現(xiàn)49-51
- 4.6 本章小結(jié)51-52
- 5 實(shí)驗(yàn)結(jié)果及分析52-56
- 5.1 實(shí)驗(yàn)結(jié)果52-54
- 5.1.1 數(shù)學(xué)表達(dá)式的輸入和呈現(xiàn)52
- 5.1.2 數(shù)學(xué)表達(dá)式的分詞52-54
- 5.1.3 數(shù)學(xué)表達(dá)式的檢索54
- 5.2 FormulaSearch 實(shí)驗(yàn)結(jié)果分析54-56
- 6 總結(jié)與展望56-58
- 6.1 總結(jié)56
- 6.2 后續(xù)工作展望56-58
- 致謝58-59
- 參考文獻(xiàn)59-61
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張成昱 ,竇天芳 ,吳濱 ,高競妹;數(shù)學(xué)公式的采集、組織和檢索[J];大學(xué)圖書館學(xué)報;2005年05期
2 郝保水;;數(shù)學(xué)公式檢索與匹配技術(shù)研究[J];大眾科技;2011年05期
3 劉遷;賈惠波;;中文信息處理中自動分詞技術(shù)的研究與展望[J];計算機(jī)工程與應(yīng)用;2006年03期
4 張瑞雪;宋明秋;公衍磊;;逆序解析DOM樹及網(wǎng)頁正文信息提取[J];計算機(jī)科學(xué);2011年04期
5 聶俊;陳天瑩;符紅光;;基于Latex的互聯(lián)網(wǎng)數(shù)學(xué)公式搜索引擎[J];計算機(jī)應(yīng)用;2010年S2期
6 蔡川;蘇偉;李廉;;Presentation數(shù)學(xué)公式到Content轉(zhuǎn)換關(guān)鍵問題研究[J];計算機(jī)應(yīng)用與軟件;2012年08期
7 楊煒辰;凌海風(fēng);武鵬;徐偉亞;;一種基于相似度矩陣的本體檢索匹配算法[J];計算機(jī)工程與應(yīng)用;2013年22期
8 程嵐嵐;;基于正則表達(dá)式的大規(guī)模網(wǎng)頁術(shù)語對抽取研究[J];情報雜志;2008年11期
9 吳剛,唐杰,李涓子,王克宏;細(xì)粒度語義網(wǎng)檢索[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年S1期
10 盧托;于俊清;廖兆存;聶江;;基于Web的數(shù)學(xué)公式檢索系統(tǒng)設(shè)計與實(shí)現(xiàn)[J];微處理機(jī);2008年02期
本文編號:975237
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/975237.html