生物醫(yī)學(xué)文獻(xiàn)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-04-27 10:26
生物醫(yī)學(xué)文獻(xiàn)是記錄、積累、傳播和繼承生物醫(yī)學(xué)知識(shí)的有效手段,是生物醫(yī)學(xué)科研人員獲取和交流領(lǐng)域知識(shí)的最基本、最重要的途徑。隨著生物醫(yī)學(xué)科學(xué)技術(shù)的迅速發(fā)展,生物醫(yī)學(xué)文獻(xiàn)呈現(xiàn)指數(shù)型增長(zhǎng)。如何從這些海量生物醫(yī)學(xué)文獻(xiàn)中挖掘出潛在的規(guī)律和知識(shí)是當(dāng)前生物信息學(xué)的熱點(diǎn)問(wèn)題之一。本文基于MedLine數(shù)據(jù)庫(kù)、PubMed搜索引擎、網(wǎng)絡(luò)爬蟲(chóng)技術(shù)和數(shù)據(jù)挖掘算法,設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)生物醫(yī)學(xué)文獻(xiàn)分析系統(tǒng),主要包括搜索詞關(guān)聯(lián)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)的獲取、文獻(xiàn)數(shù)據(jù)預(yù)處理、多維統(tǒng)計(jì)分析、聚類分析和結(jié)果可視化等功能。生物醫(yī)學(xué)文獻(xiàn)分析系統(tǒng)具有占用資源少、輕量便捷等優(yōu)勢(shì),能夠輔助用戶深度挖掘生物醫(yī)學(xué)文獻(xiàn)的內(nèi)在規(guī)律,為其提供搜索詞所涉領(lǐng)域的關(guān)聯(lián)熱詞、研究團(tuán)隊(duì)、主流期刊、地域熱度、研究趨勢(shì)和文獻(xiàn)聚集等信息,幫助用戶快速了解科研動(dòng)態(tài),做出準(zhǔn)確的科研決策,從而實(shí)現(xiàn)系統(tǒng)的應(yīng)用價(jià)值。主要研究?jī)?nèi)容包括四個(gè)方面:(1)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)。生物醫(yī)學(xué)文獻(xiàn)分析系統(tǒng)以PubMed搜索引擎為橋梁連通MedLine數(shù)據(jù)庫(kù),根據(jù)文獻(xiàn)頁(yè)面的呈現(xiàn)形式和存儲(chǔ)結(jié)構(gòu),基于XPath路徑定位頁(yè)面及信息,采用深度優(yōu)先策略爬取搜索詞相關(guān)聯(lián)的生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)。(2)數(shù)據(jù)預(yù)處理及分析。...
【文章來(lái)源】:曲阜師范大學(xué)山東省
【文章頁(yè)數(shù)】:78 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 課題研究?jī)?nèi)容
1.4 論文組織結(jié)構(gòu)
第2章 相關(guān)方法與技術(shù)簡(jiǎn)述
2.1 數(shù)據(jù)獲取方法
2.1.1 API接口
2.1.2 網(wǎng)絡(luò)爬蟲(chóng)
2.2 數(shù)據(jù)處理方法
2.2.1 文本模型
2.2.2 特征降維
2.2.3 文本相似度計(jì)算
2.3 文獻(xiàn)聚類算法
第3章 系統(tǒng)分析與設(shè)計(jì)
3.1 系統(tǒng)總體需求
3.1.1 系統(tǒng)處理需求
3.1.2 系統(tǒng)開(kāi)發(fā)需求
3.2 系統(tǒng)總體架構(gòu)
3.2.1 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
3.2.2 系統(tǒng)功能設(shè)計(jì)
3.3 系統(tǒng)模塊設(shè)計(jì)
3.3.1 爬蟲(chóng)設(shè)計(jì)
3.3.2 多維分析模塊設(shè)計(jì)
3.3.3 聚類分析模塊設(shè)計(jì)
3.4 界面設(shè)計(jì)
第4章 系統(tǒng)功能實(shí)現(xiàn)
4.1 數(shù)據(jù)獲取功能實(shí)現(xiàn)
4.1.1 數(shù)據(jù)準(zhǔn)備
4.1.2 數(shù)據(jù)爬取
4.2 多維分析功能實(shí)現(xiàn)
4.2.1 文獻(xiàn)數(shù)據(jù)存儲(chǔ)
4.2.2 文獻(xiàn)預(yù)處理
4.2.3 詞頻統(tǒng)計(jì)
4.3 聚類分析功能實(shí)現(xiàn)
4.3.1 TF-IDF算法
4.3.2 TF-IDF算法優(yōu)化
4.3.3 權(quán)重計(jì)算和向量化實(shí)現(xiàn)
4.3.4 Ward Method層次聚類算法
4.3.5 文獻(xiàn)聚類實(shí)現(xiàn)
第5章 結(jié)果展示與分析
5.1 系統(tǒng)頁(yè)面展示
5.2 多維分析結(jié)果展示與分析
5.2.1 關(guān)聯(lián)詞分析
5.2.2 文獻(xiàn)作者分析
5.2.3 接收期刊分析
5.2.4 文獻(xiàn)發(fā)表趨勢(shì)分析
5.2.5 國(guó)家分布分析
5.3 文獻(xiàn)聚類結(jié)果展示與分析
5.3.1 文獻(xiàn)數(shù)據(jù)獲取
5.3.2 聚類結(jié)果可視化
第6章 總結(jié)與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間的研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]文本分類TF-IDF算法的改進(jìn)研究[J]. 葉雪梅,毛雪岷,夏錦春,王波. 計(jì)算機(jī)工程與應(yīng)用. 2019(02)
[2]B/S模式醫(yī)學(xué)文獻(xiàn)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 陳碩,律苗,龍莉艷. 中國(guó)數(shù)字醫(yī)學(xué). 2018(09)
[3]基于生物醫(yī)學(xué)文獻(xiàn)挖掘的疾病-基因-藥物關(guān)系抽取研究[J]. 翟菊葉,葉澤坤,楊樞,劉長(zhǎng)青. 新余學(xué)院學(xué)報(bào). 2018(02)
[4]改進(jìn)的TFIDF標(biāo)簽提取算法[J]. 王杰,李旭健. 軟件工程. 2018(02)
[5]面向知識(shí)發(fā)現(xiàn)的生物醫(yī)學(xué)文獻(xiàn)信息檢索與可視化設(shè)計(jì)[J]. 張莉,閔波,楊帆,張?jiān)坪?杜冰,許文娟. 醫(yī)學(xué)信息學(xué)雜志. 2017(12)
[6]醫(yī)學(xué)文獻(xiàn)檢索關(guān)鍵詞多維分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 曾展鵬. 中國(guó)中醫(yī)藥圖書(shū)情報(bào)雜志. 2017(01)
[7]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計(jì)算機(jī)科學(xué). 2016(06)
[8]基于改進(jìn)的TF-IDF算法的微博話題檢測(cè)[J]. 陳朔鷹,金鎮(zhèn)晟. 科技導(dǎo)報(bào). 2016(02)
[9]Medas:一個(gè)基于Medline的生物醫(yī)學(xué)文獻(xiàn)分析系統(tǒng)[J]. 佘玉軒,熊赟. 計(jì)算機(jī)研究與發(fā)展. 2015(S1)
[10]智能導(dǎo)醫(yī)系統(tǒng)中TF-IDF權(quán)重改進(jìn)算法研究[J]. 徐奕楓,劉利軍,黃青松,傅鐵威. 計(jì)算機(jī)工程與應(yīng)用. 2017(04)
碩士論文
[1]智能制造文獻(xiàn)分析系統(tǒng)的研究與實(shí)現(xiàn)[D]. 程銘.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[2]組學(xué)研究的脈絡(luò)梳理與趨勢(shì)展望—文獻(xiàn)挖掘視角[D]. 李靖宇.山西醫(yī)科大學(xué) 2018
[3]基于TF-IDF推薦算法的多樣性研究[D]. 熊魏.長(zhǎng)江大學(xué) 2018
[4]基于生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)的分布式爬蟲(chóng)項(xiàng)目設(shè)計(jì)與實(shí)現(xiàn)[D]. 高揚(yáng).寧夏大學(xué) 2017
[5]面向Web文本挖掘的主題網(wǎng)絡(luò)爬蟲(chóng)研究[D]. 陳晨.電子科技大學(xué) 2017
[6]金融資訊熱點(diǎn)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 韓昫.北京郵電大學(xué) 2017
[7]科技文獻(xiàn)數(shù)據(jù)挖掘系統(tǒng)的研究與實(shí)現(xiàn)[D]. 林連志.北京郵電大學(xué) 2017
[8]基于文檔集的生物信息挖掘模型研究與實(shí)現(xiàn)[D]. 姜楠楠.東北農(nóng)業(yè)大學(xué) 2016
[9]基于引文網(wǎng)絡(luò)的文獻(xiàn)在線推薦系統(tǒng)研究和實(shí)現(xiàn)[D]. 馬丙超.大連理工大學(xué) 2016
[10]面向?qū)n}情報(bào)服務(wù)的英文科技文獻(xiàn)深度加工與主題演化研究[D]. 吳洋.南京理工大學(xué) 2016
本文編號(hào):3163299
【文章來(lái)源】:曲阜師范大學(xué)山東省
【文章頁(yè)數(shù)】:78 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 課題研究?jī)?nèi)容
1.4 論文組織結(jié)構(gòu)
第2章 相關(guān)方法與技術(shù)簡(jiǎn)述
2.1 數(shù)據(jù)獲取方法
2.1.1 API接口
2.1.2 網(wǎng)絡(luò)爬蟲(chóng)
2.2 數(shù)據(jù)處理方法
2.2.1 文本模型
2.2.2 特征降維
2.2.3 文本相似度計(jì)算
2.3 文獻(xiàn)聚類算法
第3章 系統(tǒng)分析與設(shè)計(jì)
3.1 系統(tǒng)總體需求
3.1.1 系統(tǒng)處理需求
3.1.2 系統(tǒng)開(kāi)發(fā)需求
3.2 系統(tǒng)總體架構(gòu)
3.2.1 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
3.2.2 系統(tǒng)功能設(shè)計(jì)
3.3 系統(tǒng)模塊設(shè)計(jì)
3.3.1 爬蟲(chóng)設(shè)計(jì)
3.3.2 多維分析模塊設(shè)計(jì)
3.3.3 聚類分析模塊設(shè)計(jì)
3.4 界面設(shè)計(jì)
第4章 系統(tǒng)功能實(shí)現(xiàn)
4.1 數(shù)據(jù)獲取功能實(shí)現(xiàn)
4.1.1 數(shù)據(jù)準(zhǔn)備
4.1.2 數(shù)據(jù)爬取
4.2 多維分析功能實(shí)現(xiàn)
4.2.1 文獻(xiàn)數(shù)據(jù)存儲(chǔ)
4.2.2 文獻(xiàn)預(yù)處理
4.2.3 詞頻統(tǒng)計(jì)
4.3 聚類分析功能實(shí)現(xiàn)
4.3.1 TF-IDF算法
4.3.2 TF-IDF算法優(yōu)化
4.3.3 權(quán)重計(jì)算和向量化實(shí)現(xiàn)
4.3.4 Ward Method層次聚類算法
4.3.5 文獻(xiàn)聚類實(shí)現(xiàn)
第5章 結(jié)果展示與分析
5.1 系統(tǒng)頁(yè)面展示
5.2 多維分析結(jié)果展示與分析
5.2.1 關(guān)聯(lián)詞分析
5.2.2 文獻(xiàn)作者分析
5.2.3 接收期刊分析
5.2.4 文獻(xiàn)發(fā)表趨勢(shì)分析
5.2.5 國(guó)家分布分析
5.3 文獻(xiàn)聚類結(jié)果展示與分析
5.3.1 文獻(xiàn)數(shù)據(jù)獲取
5.3.2 聚類結(jié)果可視化
第6章 總結(jié)與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間的研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]文本分類TF-IDF算法的改進(jìn)研究[J]. 葉雪梅,毛雪岷,夏錦春,王波. 計(jì)算機(jī)工程與應(yīng)用. 2019(02)
[2]B/S模式醫(yī)學(xué)文獻(xiàn)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 陳碩,律苗,龍莉艷. 中國(guó)數(shù)字醫(yī)學(xué). 2018(09)
[3]基于生物醫(yī)學(xué)文獻(xiàn)挖掘的疾病-基因-藥物關(guān)系抽取研究[J]. 翟菊葉,葉澤坤,楊樞,劉長(zhǎng)青. 新余學(xué)院學(xué)報(bào). 2018(02)
[4]改進(jìn)的TFIDF標(biāo)簽提取算法[J]. 王杰,李旭健. 軟件工程. 2018(02)
[5]面向知識(shí)發(fā)現(xiàn)的生物醫(yī)學(xué)文獻(xiàn)信息檢索與可視化設(shè)計(jì)[J]. 張莉,閔波,楊帆,張?jiān)坪?杜冰,許文娟. 醫(yī)學(xué)信息學(xué)雜志. 2017(12)
[6]醫(yī)學(xué)文獻(xiàn)檢索關(guān)鍵詞多維分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 曾展鵬. 中國(guó)中醫(yī)藥圖書(shū)情報(bào)雜志. 2017(01)
[7]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計(jì)算機(jī)科學(xué). 2016(06)
[8]基于改進(jìn)的TF-IDF算法的微博話題檢測(cè)[J]. 陳朔鷹,金鎮(zhèn)晟. 科技導(dǎo)報(bào). 2016(02)
[9]Medas:一個(gè)基于Medline的生物醫(yī)學(xué)文獻(xiàn)分析系統(tǒng)[J]. 佘玉軒,熊赟. 計(jì)算機(jī)研究與發(fā)展. 2015(S1)
[10]智能導(dǎo)醫(yī)系統(tǒng)中TF-IDF權(quán)重改進(jìn)算法研究[J]. 徐奕楓,劉利軍,黃青松,傅鐵威. 計(jì)算機(jī)工程與應(yīng)用. 2017(04)
碩士論文
[1]智能制造文獻(xiàn)分析系統(tǒng)的研究與實(shí)現(xiàn)[D]. 程銘.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[2]組學(xué)研究的脈絡(luò)梳理與趨勢(shì)展望—文獻(xiàn)挖掘視角[D]. 李靖宇.山西醫(yī)科大學(xué) 2018
[3]基于TF-IDF推薦算法的多樣性研究[D]. 熊魏.長(zhǎng)江大學(xué) 2018
[4]基于生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)的分布式爬蟲(chóng)項(xiàng)目設(shè)計(jì)與實(shí)現(xiàn)[D]. 高揚(yáng).寧夏大學(xué) 2017
[5]面向Web文本挖掘的主題網(wǎng)絡(luò)爬蟲(chóng)研究[D]. 陳晨.電子科技大學(xué) 2017
[6]金融資訊熱點(diǎn)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 韓昫.北京郵電大學(xué) 2017
[7]科技文獻(xiàn)數(shù)據(jù)挖掘系統(tǒng)的研究與實(shí)現(xiàn)[D]. 林連志.北京郵電大學(xué) 2017
[8]基于文檔集的生物信息挖掘模型研究與實(shí)現(xiàn)[D]. 姜楠楠.東北農(nóng)業(yè)大學(xué) 2016
[9]基于引文網(wǎng)絡(luò)的文獻(xiàn)在線推薦系統(tǒng)研究和實(shí)現(xiàn)[D]. 馬丙超.大連理工大學(xué) 2016
[10]面向?qū)n}情報(bào)服務(wù)的英文科技文獻(xiàn)深度加工與主題演化研究[D]. 吳洋.南京理工大學(xué) 2016
本文編號(hào):3163299
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3163299.html
最近更新
教材專著