網(wǎng)絡生物醫(yī)學信息自動分類系統(tǒng)的研究與實現(xiàn)
本文關(guān)鍵詞:網(wǎng)絡生物醫(yī)學信息自動分類系統(tǒng)的研究與實現(xiàn)
更多相關(guān)文章: 文本自動分類 特征選擇 分類算法 TF-IDF IG KNN
【摘要】:目的:隨著計算機和網(wǎng)絡技術(shù)的發(fā)展,互聯(lián)網(wǎng)上積聚了越來越多的生物醫(yī)學信息,呈現(xiàn)出數(shù)量巨大、分布廣泛、種類繁多等特點,并隨時間以指數(shù)形式增長。要從網(wǎng)上獲取有效信息變得越來越困難。如何處理和組織這些信息并從中查找、提取出人們想要的內(nèi)容,是目前亟待解決的一個問題。基于此,本文在研究了中文文本自動分類技術(shù)的基礎(chǔ)上,研究設計了一套中文文本自動分類系統(tǒng),來對網(wǎng)絡上海量的生物醫(yī)學信息進行自動的分類和整理,以求最終能夠為生物醫(yī)學信息需求者主動、及時、全面地提供最新的生物醫(yī)學信息,使其更加準確和快捷地獲取想要的信息,提高工作效率并為決策提供情報依據(jù)和參考。方法:系統(tǒng)研發(fā)過程中,文本表示模型采用了目前最為流行的VSM模型;系統(tǒng)開發(fā)采用Visual studio2010作為開發(fā)平臺;編程語言采用C++語言;界面設計采用Qt來完成。原型系統(tǒng)的構(gòu)建中分詞系統(tǒng)采用中科院的ICTCLAS分詞系統(tǒng),詞的權(quán)重計算采用最常用的TF-IDF公式,特征選擇方法選用信息增益(IG),分類方法選用K-最近鄰(KNN)來進行設計并實現(xiàn)。分類效果用MacroP、MacroR、MacroF1和MicroF1四個指標進行評估。系統(tǒng)各部分的功能實現(xiàn)先按照各種算法的思想原型進行編寫,然后針對算法的缺陷與不足做相應的改進。最后對比原型和各種算法改進后系統(tǒng)分類的效果,并進行相應的討論。另外,由于目前并沒有現(xiàn)成的中文生物醫(yī)學相關(guān)的語料庫可以直接使用,分類系統(tǒng)訓練和測試時所使用的語料庫為自建語料庫。結(jié)果:本研究在系統(tǒng)編寫過程中對TF-IDF特征權(quán)重計算公式和KNN分類算法做了部分調(diào)整和改進。另外,本研究提出了一種新的基于TF-IDF思想的特征選擇方法——TF-IDF-DF方法。結(jié)論:經(jīng)試驗測試驗證本研究所做的調(diào)整和改進以及提出的新的特征選擇方法是有效的,可提高分類系統(tǒng)的分類效果?梢詼蚀_的對生物醫(yī)學信息進行歸類,可為網(wǎng)絡生物醫(yī)學信息的組織和檢索提供幫助。將本分類系統(tǒng)和搜索引擎的應用相結(jié)合可為生物醫(yī)學信息需求者提供快速、準確、及時的信息服務。
【關(guān)鍵詞】:文本自動分類 特征選擇 分類算法 TF-IDF IG KNN
【學位授予單位】:新疆醫(yī)科大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1;R-05
【目錄】:
- 中英文縮略詞對照表5-8
- 摘要8-9
- ABSTRACT9-11
- 前言11-15
- 1 研究背景11-12
- 2 國內(nèi)外研究現(xiàn)狀12-13
- 3 研究目的及意義13
- 4 課題來源13-15
- 研究內(nèi)容與方法15-36
- 1 開發(fā)工具15-17
- 1.1 Microsoft visual studio 201015
- 1.2 C++編程語言15-16
- 1.3 Qt16-17
- 1.4 ICTCLAS中文分詞系統(tǒng)17
- 2 系統(tǒng)架構(gòu)17-19
- 2.1 整體系統(tǒng)架構(gòu)17-18
- 2.2 自動分類系統(tǒng)架構(gòu)18-19
- 3 分類系統(tǒng)的分類流程19-20
- 4 系統(tǒng)性能評估指標20-23
- 5 分類體系的建立23-24
- 6 數(shù)據(jù)來源24-26
- 6.1 語料庫樣本語料來源24-26
- 6.2 待分類信息來源26
- 7 分類系統(tǒng)的實現(xiàn)26-36
- 7.1 文本表示模型27-28
- 7.2 中文分詞28
- 7.3 詞的權(quán)重計算28-30
- 7.4 特征選擇方法30-33
- 7.5 分類方法33-36
- 結(jié)果36-43
- 1 確定閾值的測試36-40
- 1.1 固定FN數(shù)量的測試36-38
- 1.2 固定K值的測試38-40
- 2 原型和新系統(tǒng)分類效果對比40-43
- 討論43-45
- 1 閾值的確定43
- 2 系統(tǒng)研發(fā)過程中的難題與解決方法43-45
- 小結(jié)45-46
- 1 研究中的創(chuàng)新工作45
- 2 將來的工作45-46
- 致謝46-47
- 參考文獻47-50
- 綜述50-66
- 參考文獻64-66
- 攻讀碩士學位期間發(fā)表的學位論文66-67
- 導師評閱表67
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 康嵐蘭;董丹丹;;常用特征選擇方法的比較研究[J];電腦知識與技術(shù);2009年34期
2 趙小華;馬建芬;;文本分類算法中詞語權(quán)重計算方法的改進[J];電腦知識與技術(shù);2009年36期
3 周晏;桑書娟;;淺談基于云計算的數(shù)據(jù)挖掘技術(shù)[J];電腦知識與技術(shù);2010年34期
4 王維娜;康耀紅;伍小芹;;文本分類中特征選擇方法研究[J];信息技術(shù);2008年12期
5 徐燕;李錦濤;王斌;孫春明;張森;;文本分類中特征選擇的約束研究[J];計算機研究與發(fā)展;2008年04期
6 郝秀蘭;陶曉鵬;徐和祥;胡運發(fā);;kNN文本分類器類偏斜問題的一種處理對策[J];計算機研究與發(fā)展;2009年01期
7 郭秀娟;數(shù)據(jù)挖掘方法綜述[J];吉林建筑工程學院學報;2004年01期
8 單松巍,馮是聰,李曉明;幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J];計算機工程與應用;2003年22期
9 徐鳳亞,羅振聲;文本自動分類中特征權(quán)重算法的改進研究[J];計算機工程與應用;2005年01期
10 石志偉,劉濤,吳功宜;一種快速高效的文本分類方法[J];計算機工程與應用;2005年29期
,本文編號:847189
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/847189.html