基于主題模型的生物醫(yī)學(xué)文獻(xiàn)知識發(fā)現(xiàn)
本文選題:主題模型 + 知識發(fā)現(xiàn)。 參考:《吉林大學(xué)》2017年碩士論文
【摘要】:近些年來,生物醫(yī)學(xué)文獻(xiàn)的數(shù)量以指數(shù)級增長,癌癥研究領(lǐng)域更是積累了大量的生物醫(yī)學(xué)文獻(xiàn)。而癌癥研究的進(jìn)展仍十分緩慢,文獻(xiàn)數(shù)據(jù)規(guī)模龐大,為癌癥研究人員帶來了閱讀和使用困難。并且癌癥研究的不同領(lǐng)域之間缺乏有效的信息交流和知識整合。在當(dāng)今機器學(xué)習(xí)廣泛應(yīng)用的時代背景下,主題模型獲得了學(xué)術(shù)界和工業(yè)界的一致認(rèn)可。主題模型能夠挖掘出隱含在大量文本中的主題語義層次信息。相較于基于本體等知識庫的語義挖掘方法,主題模型挖掘出的語義內(nèi)容更豐富,更適合跨領(lǐng)域的知識發(fā)現(xiàn)。本文使用主題模型與聚類分析進(jìn)行信息整合,提出了基于主題抽取和主題聚類兩種生物醫(yī)學(xué)文獻(xiàn)知識發(fā)現(xiàn)方法。在基于主題抽取的知識發(fā)現(xiàn)方法中,本文對5種癌癥(乳腺癌,肺癌,大腸癌,胰腺癌和前列腺癌)自2005年至2014年的摘要文獻(xiàn)分別進(jìn)行主題建模,挖掘出了共性主題的演化關(guān)系,構(gòu)建了癌癥研究的主題框架。通過主題融合計算,分析了癌癥研究的流行趨勢和主題相關(guān)性。在基于主題聚類的知識發(fā)現(xiàn)方法中,本文改進(jìn)了主題相似度的計算方法,對6種癌癥(乳腺癌,肺癌,大腸癌,前列腺癌,膀胱癌和非霍奇金淋巴瘤)自2005年至2014的文獻(xiàn)主題進(jìn)行了密度峰值聚類分析和吸引子傳播聚類分析。以乳腺癌為例進(jìn)行主題中心內(nèi)容分析,本文總結(jié)了乳腺癌的懷孕主題的發(fā)展過程,發(fā)現(xiàn)了主題中心對文獻(xiàn)數(shù)量的正相關(guān)作用。以肺癌中的奧沙利鉑主題中心為例,說明了藥物主題中心在生物制藥領(lǐng)域有很好的啟迪作用。使用臨床癌癥突破年報對乳腺癌主題中心進(jìn)行實證分析,驗證了該方法的有效性和可信度。將乳腺癌的主題框圖和主題中心相結(jié)合,對乳腺癌主題中心進(jìn)行了初步預(yù)測。最后,通過癌癥主題弦圖,將癌癥和主題的關(guān)系進(jìn)行可視化,進(jìn)一步分析了癌癥和主題間的相關(guān)性。
[Abstract]:In recent years, the number of biomedical literature has increased exponentially, and a large amount of biomedical literature has been accumulated in the field of cancer research.However, the progress of cancer research is still very slow and the literature data is very large, which makes it difficult for cancer researchers to read and use.And there is a lack of effective exchange of information and integration of knowledge between different areas of cancer research.In the background of the wide application of machine learning, the subject model has been accepted by both academia and industry.The topic model can mine the semantic level information hidden in a large number of texts.Compared with the semantic mining method based on ontology and other knowledge bases, the semantic content of topic model mining is richer and more suitable for cross-domain knowledge discovery.In this paper, we use topic model and cluster analysis to integrate information, and propose two methods of knowledge discovery in biomedical literature based on topic extraction and topic clustering.In the method of knowledge discovery based on topic extraction, five kinds of cancer (breast cancer, lung cancer, colorectal cancer, pancreatic cancer and prostate cancer) from 2005 to 2014 were thematically modeled.The evolutionary relationship of common themes is excavated and the thematic framework of cancer research is constructed.The prevalence trend and thematic correlation of cancer research were analyzed by thematic fusion calculation.In the knowledge discovery method based on topic clustering, this paper improved the method of topic similarity calculation, and studied six kinds of cancer (breast cancer, lung cancer, colorectal cancer, prostate cancer, cancer of breast cancer, lung cancer, colorectal cancer, prostate cancer).From 2005 to 2014, peak density cluster analysis and attractor propagation cluster analysis were performed for bladder cancer and non Hodgkin's lymphoma.Taking breast cancer as an example, this paper summarizes the development process of the theme of breast cancer, and finds the positive correlation between the theme center and the quantity of literature.Taking oxaliplatin thematic center in lung cancer as an example, it shows that the drug theme center has a very good enlightening effect in the field of biopharmaceuticals.The clinical cancer breakthrough annual report is used to analyze the breast cancer theme center, and the validity and reliability of the method are verified.The thematic block diagram of breast cancer was combined with the thematic center to predict the thematic center of breast cancer.Finally, the relationship between cancer and theme is visualized by using the cancer theme chord graph, and the correlation between cancer and theme is further analyzed.
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:R-05;TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前7條
1 孫曾一;;談?wù)劙┌Y研究的情報問題[J];情報科學(xué);1981年04期
2 李倪雨珠;;美國國家癌癥研究規(guī)劃[J];科技導(dǎo)報;1981年03期
3 范國鷹;國際癌癥研究資料庫[J];國外醫(yī)學(xué)(腫瘤學(xué)分冊);1979年06期
4 ;《中國癌癥研究進(jìn)展》(第五卷)出版[J];中華腫瘤雜志;2000年04期
5 金石琦;光學(xué)活組織檢查啟示癌癥研究[J];激光與光電子學(xué)進(jìn)展;1997年03期
6 ;健康新知[J];中國新聞周刊;2010年34期
7 包日月,劉之景;癌癥研究中DNA芯片技術(shù)的最新進(jìn)展[J];微納電子技術(shù);2003年05期
相關(guān)會議論文 前6條
1 鄒小農(nóng);;煙草與癌癥研究的新進(jìn)展[A];履約 控?zé)?創(chuàng)建無煙環(huán)境——第14屆全國控制吸煙學(xué)術(shù)研討會暨中國控?zé)煾呒壯杏懓嗾撐募痆C];2009年
2 林丹紅;;臺灣地區(qū)癌癥研究進(jìn)展[A];閩臺中醫(yī)藥文化研究論文集上冊(1988~1994)[C];2007年
3 梅蔚德;劉愛國;顧康生;惠錦林;程先平;王彬;;癌癥研究的新進(jìn)展[A];安徽省抗癌協(xié)會第四次代表大會暨乳腺癌、肺癌專業(yè)委員會成立會議、安徽省腫瘤防治進(jìn)展學(xué)術(shù)研討會論文匯編[C];2001年
4 高燕寧;程書鈞;;系統(tǒng)生物學(xué)模式下的癌癥研究[A];第九屆中國實驗動物科學(xué)年會(2010新疆)論文集[C];2010年
5 李依宸;;精氨酸脫亞胺酶治療癌癥研究進(jìn)展(綜述)[A];天津市生物醫(yī)學(xué)工程學(xué)會第29屆學(xué)術(shù)年會暨首屆生物醫(yī)學(xué)工程前沿科學(xué)研討會論文集[C];2009年
6 于丁;;2011年腫瘤治療的熱點問題(內(nèi)科)[A];第22屆湖北省腫瘤學(xué)術(shù)大會論文匯編[C];2012年
相關(guān)重要報紙文章 前10條
1 記者 劉志強;國際癌癥研究領(lǐng)軍學(xué)者加盟貴州國家重點實驗室[N];科技日報;2013年
2 記者 陳磊;中國癌癥研究有引領(lǐng)潛力[N];科技日報;2014年
3 葛秋芳;英國癌癥研究成績斐然[N];健康報;2007年
4 任勇 通訊員 李運紅 趙迎;全美癌癥研究基金會中國國際合作基地揭牌[N];天津日報;2007年
5 李釗;世界癌癥研究大會在瑞士召開[N];科技日報;2008年
6 南方日報記者 曹斯 實習(xí)生 卞德龍 通訊員 黃金娟;癌癥研究駛?cè)牖蜍壍繹N];南方日報;2012年
7 龍東波;為癌癥研究募捐[N];科技日報;2006年
8 記者 李穎;院士提出防治癌癥研究戰(zhàn)略前移[N];科技日報;2013年
9 汪敏 章米力;戰(zhàn)勝癌癥不能靠“零打碎敲”[N];健康報;2004年
10 任勇;邢元敏會見全美癌癥研究基金會總裁[N];天津日報;2007年
相關(guān)博士學(xué)位論文 前1條
1 魏慶;cDNA芯片在癌癥研究中的應(yīng)用[D];復(fù)旦大學(xué);2006年
相關(guān)碩士學(xué)位論文 前1條
1 崔明亮;基于主題模型的生物醫(yī)學(xué)文獻(xiàn)知識發(fā)現(xiàn)[D];吉林大學(xué);2017年
,本文編號:1763170
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1763170.html