面向語義的數(shù)學(xué)公式N-grams索引結(jié)構(gòu)研究
發(fā)布時間:2017-11-01 10:01
本文關(guān)鍵詞:面向語義的數(shù)學(xué)公式N-grams索引結(jié)構(gòu)研究
更多相關(guān)文章: 搜索引擎 MathSearch 公式搜索 N-grams劃分 子公式權(quán)重 常見計算
【摘要】:近幾年來,數(shù)學(xué)公式搜索已經(jīng)成為信息學(xué)科領(lǐng)域的熱點問題。數(shù)學(xué)公式結(jié)構(gòu)復(fù)雜且語義豐富,會出現(xiàn)一種表示形式多種含義以及一種含義多種表示形式等問題,而且子公式的檢索、公式類型劃分與常見計算也成為數(shù)學(xué)公式搜索的一個研究點。國內(nèi)外一些知名的數(shù)學(xué)搜索研究機構(gòu)在檢索數(shù)學(xué)公式時,沒有考慮數(shù)學(xué)公式的結(jié)構(gòu)特點和語義信息,對等價公式、相關(guān)公式的檢索也沒有展開相關(guān)研究。本論文首先對現(xiàn)有的幾種數(shù)學(xué)搜索系統(tǒng)的索引結(jié)構(gòu)進行了仔細研究,并借鑒文本搜索引擎的N-gram方法,提出了數(shù)學(xué)公式N-grams劃分的方法,通過實驗確定了劃分的粒度,即N∈[2,15],并提出了一種基于公式復(fù)雜度、N-grams長度和深度的計算子公式權(quán)重的方法。其次,本論文給出了等價公式、相關(guān)公式的定義,它們應(yīng)該和查詢公式是高度相關(guān)的,應(yīng)該作為數(shù)學(xué)搜索排序過程中重點考慮的因素,實現(xiàn)等價公式和相關(guān)公式的有效存儲與管理。本論文通過Wolfram Alpha對數(shù)學(xué)公式常見類型進行了研究,結(jié)合數(shù)學(xué)公式的特點和用戶搜索意圖,對公式類型做了三級分類,其中,一級分類有27種,二級分類有50種,三級分類有77種,制定了數(shù)學(xué)公式類型標準,并通過實驗對250個公式進行了統(tǒng)計,確定了不同類型公式的相關(guān)計算,找出了每一種常見計算的影響因素,通過這些因素來判定常見計算的類型。同時,本論文對數(shù)學(xué)公式的存儲結(jié)構(gòu)及流程進行了詳細設(shè)計和分析,能夠?qū)崿F(xiàn)等價公式、相關(guān)公式和子公式搜索,實現(xiàn)了存儲數(shù)據(jù)和查詢數(shù)據(jù)的有機統(tǒng)一。綜上,本論文借鑒現(xiàn)有系統(tǒng)的長處,彌補其不足,構(gòu)建了適合數(shù)學(xué)搜索的面向語義的數(shù)學(xué)公式N-grams索引機制。本文提出的方法是一種基于語義的快速方便的存儲和查詢數(shù)學(xué)表達式和符號的方法,該方法可以實現(xiàn)子公式、等價公式、相關(guān)公式的有效搜索,滿足不同用戶對數(shù)學(xué)公式搜索的需求,提高數(shù)學(xué)公式的查全率和查準率,能夠在很大程度上提升數(shù)學(xué)搜索的語義檢索效率,促進數(shù)學(xué)知識的交流與共享。
【關(guān)鍵詞】:搜索引擎 MathSearch 公式搜索 N-grams劃分 子公式權(quán)重 常見計算
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【目錄】:
- 中文摘要3-4
- Abstract4-8
- 第一章 緒論8-14
- 1.1 研究背景及意義8-9
- 1.2 國內(nèi)外研究現(xiàn)狀9-13
- 1.2.1 數(shù)學(xué)公式搜索引擎索引模型簡介9-12
- 1.2.2 小結(jié)12-13
- 1.3 文章組織結(jié)構(gòu)13-14
- 第二章 數(shù)學(xué)公式N-grams劃分14-29
- 2.1 MathSearch概述14-15
- 2.2 文本搜索引擎中的N-grams技術(shù)研究15-16
- 2.3 數(shù)學(xué)公式的N-grams劃分16-21
- 2.3.1 數(shù)學(xué)公式的特點17-18
- 2.3.2 數(shù)學(xué)公式的N-grams劃分18-21
- 2.4 N-grams實驗---N的范圍確定21-24
- 2.4.1 文本搜索中N值的選擇21-22
- 2.4.2 數(shù)學(xué)搜索中N的范圍確定22-24
- 2.5 N-grams劃分下子公式權(quán)重計算方法24-27
- 2.6 小結(jié)27-29
- 第三章 公式類型與常見計算研究29-44
- 3.1 數(shù)學(xué)公式標準化29-30
- 3.2 相關(guān)公式30-31
- 3.3 公式類型與常見計算31-43
- 3.4 小結(jié)43-44
- 第四章 數(shù)學(xué)公式存儲研究44-54
- 4.1 數(shù)據(jù)庫設(shè)計44-48
- 4.2 數(shù)學(xué)公式的存儲流程48-50
- 4.3 數(shù)學(xué)公式的查詢流程50-52
- 4.4 小結(jié)52-54
- 第五章 總結(jié)與展望54-57
- 5.1 總結(jié)54-55
- 5.2 展望55-57
- 參考文獻57-59
- 附錄59-68
- 附錄一 數(shù)學(xué)公式測試集(250個)59-68
- 在學(xué)期間的研究成果68-69
- 致謝69
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 劉金紅;陸余良;;基于Ontology改進的N-Gram文本分類模型研究[J];計算機工程與設(shè)計;2007年13期
2 余小軍;劉峰;張春;;基于N-Gram文本特征提取的改進算法[J];現(xiàn)代計算機(專業(yè)版);2012年34期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 蘇偉;基于Web的數(shù)學(xué)公式輸入及可訪問性關(guān)鍵問題研究[D];蘭州大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 劉志偉;數(shù)學(xué)搜索引擎研究[D];蘭州大學(xué);2011年
,本文編號:1126307
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1126307.html
最近更新
教材專著