“材料基因”高性能化學(xué)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文選題:材料信息學(xué) + 搜索引擎 ; 參考:《中國(guó)科學(xué)技術(shù)大學(xué)》2017年碩士論文
【摘要】:化學(xué)信息學(xué)和材料信息學(xué)在今天的化學(xué)研究中地位日益顯著,而在其中,計(jì)算機(jī)輔助的化學(xué)信息檢索,包括基于關(guān)鍵字的檢索、基于數(shù)值的過(guò)濾,以及結(jié)構(gòu)檢索,成為了實(shí)現(xiàn)高效化學(xué)信息管理的重要部分。為此,筆者在CouchDB和ElasticSearch基礎(chǔ)之上,開(kāi)發(fā)了一個(gè)名為DCAIKU的高效率、高靈活性的化學(xué)結(jié)構(gòu)和數(shù)據(jù)檢索系統(tǒng)。DCAIKU可以高效處理對(duì)于化學(xué)關(guān)鍵字、數(shù)值的過(guò)濾,并且通過(guò)描述符機(jī)制,將化學(xué)結(jié)構(gòu)檢索轉(zhuǎn)換為和文本檢索相似的模式。除此之外,DCAIKU通過(guò)選擇使用無(wú)模式的文檔數(shù)據(jù)庫(kù),使其可以支持多樣性巨大的化學(xué)信息。通過(guò)在百萬(wàn)量級(jí)的數(shù)據(jù)庫(kù)中和其他同類服務(wù)對(duì)比測(cè)試,筆者認(rèn)為DCAIKU對(duì)于關(guān)鍵字和結(jié)構(gòu)的檢索性能都處于優(yōu)勢(shì)地位:準(zhǔn)確性達(dá)到與同類檢索工具相當(dāng)?shù)乃疁?zhǔn),可以輕松應(yīng)對(duì)百萬(wàn)量級(jí)的記錄,維持檢索過(guò)程的吞吐量和低延遲,且響應(yīng)速度和吞吐量均提高了一個(gè)數(shù)量級(jí)。故此筆者認(rèn)為DCAIKU可以成為下一代大規(guī)模、低成本的材料檢索體系的基礎(chǔ)。
[Abstract]:Chemical informatics and material informatics play an increasingly important role in today's chemical research, in which computer-aided chemical information retrieval, including keyword-based retrieval, numerical filtering, and structural retrieval, It has become an important part of realizing the efficient management of chemical information. Therefore, on the basis of CouchDB and ElasticSearch, a highly efficient and flexible chemical structure and data retrieval system called DCAIKU is developed. Chemical structure retrieval is converted to a pattern similar to text retrieval. In addition, DCAIKU can support a wide variety of chemical information by opting to use schema-free document databases. By comparing and testing with other similar services in a million-scale database, the author thinks that DCAIKU is in a superior position in terms of keyword and structure retrieval performance: accuracy is comparable to that of similar retrieval tools. It can easily deal with millions of order of magnitude records, maintain the throughput and low latency of the retrieval process, and increase the response speed and throughput by one order of magnitude. Therefore, I believe that DCAIKU can become the basis of the next generation of large-scale and low-cost material retrieval system.
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:O6-39
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 羅代洪,顏茂弘;分析方法標(biāo)準(zhǔn)信息檢索系統(tǒng)[J];化學(xué)通報(bào);1994年07期
2 王新政;夏媛媛;;專利信息檢索系統(tǒng)設(shè)計(jì)[J];廣西輕工業(yè);2009年09期
3 楊斌;紡織品模糊信息檢索系統(tǒng)[J];紡織學(xué)報(bào);1994年09期
4 吳延鳳,周全明;超文本中英文信息檢索系統(tǒng)的實(shí)現(xiàn)[J];江蘇煤炭;2001年03期
5 黃俊,周申范;環(huán)境監(jiān)測(cè)方法信息檢索系統(tǒng)的開(kāi)發(fā)[J];環(huán)境監(jiān)測(cè)管理與技術(shù);1999年03期
6 劉永強(qiáng);圖書館網(wǎng)上信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];連云港化工高等?茖W(xué)校學(xué)報(bào);2001年01期
7 陽(yáng)世青;有色金屬科技信息檢索系統(tǒng)研究[J];世界有色金屬;1997年09期
8 孔田野;李萬(wàn)龍;張海鷗;;基于藥品本體的信息檢索系統(tǒng)研究[J];河北科技大學(xué)學(xué)報(bào);2008年03期
9 楊銘,,宋宇紅,葛春光,王志丹;微機(jī)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];齊齊哈爾輕工學(xué)院學(xué)報(bào);1995年03期
10 夏玉杰;張栓記;;基于ARM的嵌入式信息檢索系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)[J];化工自動(dòng)化及儀表;2010年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前5條
1 倪耀群;許洪波;譚婧霞;唐慧豐;程學(xué)旗;孟丹;;基于優(yōu)化維漢雙語(yǔ)詞典的多語(yǔ)言信息檢索系統(tǒng)[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
2 林耀q
本文編號(hào):1781796
本文鏈接:http://sikaile.net/kejilunwen/huaxue/1781796.html