天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 社區(qū)管理論文 >

文本聚類及其在電子病歷分析中的應(yīng)用研究

發(fā)布時(shí)間:2022-01-06 16:17
  在文本聚類算法研究領(lǐng)域中,面對(duì)大規(guī)模、高維的文本集合,如何建立精度高、可擴(kuò)展的聚類算法一直是研究者們努力的方向。傳統(tǒng)文本聚類算法仍然存在著如下問題:一是數(shù)據(jù)的高維問題,傳統(tǒng)基于向量空間模型VSM(vector space model)的文本表示方法造成文本表示的維度過高,影響聚類的效率和精度;二是聚類算法在大規(guī)模文本集上聚類效果的問題,即聚類算法需要良好的精度和可擴(kuò)展性;三是聚類結(jié)果簇的描述問題,一個(gè)好的類簇描述能夠讓人們直觀的了解到每個(gè)類簇所代表的主題。解決以上三個(gè)問題一直是文本聚類領(lǐng)域的研究重點(diǎn)。同時(shí)隨著醫(yī)學(xué)信息化的發(fā)展,電子病歷EMR(electronic medical record)已經(jīng)成為幫助患者診療的寶貴資源。相對(duì)于傳統(tǒng)紙質(zhì)病歷的組織形式,電子病歷提供了全新的病歷管理模式,使查詢、分析功能成為可能。但隨著數(shù)字化醫(yī)院的發(fā)展,電子病歷的數(shù)量成指數(shù)級(jí)增長(zhǎng),如何組織海量的電子病歷并對(duì)病歷數(shù)據(jù)根據(jù)病種進(jìn)行歸類以及如何從中發(fā)掘有價(jià)值的信息或知識(shí)成為目前電子病歷分析研究的一個(gè)熱點(diǎn)問題。文本聚類作為一種無監(jiān)督算法,它的應(yīng)用之一就是在無標(biāo)簽信息的情況下將無組織的文本自動(dòng)歸類。針對(duì)以上文本聚... 

【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:65 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

文本聚類及其在電子病歷分析中的應(yīng)用研究


圖2-1?CBOW模型??Figure?2-1?CBOW?model??

概率分布,算法模型,主題


LDA方法會(huì)首先選定一個(gè)主題向量0,確定每一個(gè)主題會(huì)被選擇的概率,然??后在生成單詞時(shí),從向量0中選擇出一個(gè)主題z,按主題z的詞概率分布生成一個(gè)??單詞。它的圖模型如圖2-1所示:??a?〇?z?N?M??圖2-3?LDA算法模型圖??Figure?2-3?Model?of?LDA??其中參數(shù)《和;0定義了模型中的文檔集層,向量《刻畫了文本集中潛在隱含主題??間的強(qiáng)弱,矩陣/?表示的是潛在主題在文本集中的概率分布情況。從圖2-1可知??LDA的聯(lián)合概率為:??14??

算法流程圖


和社區(qū)劃分的方法,使得聚類算法更加靈活。??3.2算法架構(gòu)??HC算法的總體架構(gòu)如圖3-1所示,其中的主要步驟為:數(shù)據(jù)預(yù)處理、特征選??擇、頻繁詞集挖掘、文本表示模型、文本網(wǎng)絡(luò)構(gòu)建、社區(qū)劃分和主題詞挖掘。該??算法以整個(gè)待聚類的文本集合作為輸入數(shù)據(jù),對(duì)于英文數(shù)據(jù)集,數(shù)據(jù)預(yù)處理階段??只需進(jìn)行停用詞的過濾,對(duì)于中文本還需中文切詞的步驟。特征選擇過程是為了??過進(jìn)一步過濾那些對(duì)文本類別區(qū)別力不大的特征詞,從而能夠進(jìn)一步減小文本表??示的維度,同時(shí)避免無關(guān)詞對(duì)文本歸檔的擾動(dòng)。然后對(duì)處理完的數(shù)據(jù)進(jìn)行頻繁詞??集的挖掘,考慮到頻繁詞挖掘的效率問題,本文采用Fp-Growth算法進(jìn)行挖掘,??將用頻繁詞集表示的文本構(gòu)建成文本網(wǎng)絡(luò)之后進(jìn)行社區(qū)劃分,每個(gè)社區(qū)即為文本??聚類中的一個(gè)類簇,簇中的節(jié)點(diǎn)即為文本,再對(duì)劃分好的簇進(jìn)行主題描述。下面??將具體介紹算法中的關(guān)鍵步驟。??22??

【參考文獻(xiàn)】:
期刊論文
[1]Semi-supervised Document Clustering Based on Latent Dirichlet Allocation (LDA)[J]. 秦永彬,李解,黃瑞章,李晶.  Journal of Donghua University(English Edition). 2016(05)
[2]基于頻繁項(xiàng)集的海量短文本聚類與主題抽取[J]. 彭敏,黃佳佳,朱佳暉,黃濟(jì)民,劉紀(jì)平.  計(jì)算機(jī)研究與發(fā)展. 2015(09)
[3]電子病歷命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究綜述[J]. 楊錦鋒,于秋濱,關(guān)毅,蔣志鵬.  自動(dòng)化學(xué)報(bào). 2014(08)
[4]電子病歷中命名實(shí)體的智能識(shí)別[J]. 葉楓,陳鶯鶯,周根貴,李昊旻,李瑩.  中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào). 2011(02)
[5]國(guó)外電子病歷的發(fā)展現(xiàn)狀及其對(duì)我國(guó)的啟示[J]. 李明.  醫(yī)學(xué)信息(上旬刊). 2011(03)
[6]極大熵球面K均值文本聚類分析[J]. 修宇,王士同,朱林,宗成慶.  計(jì)算機(jī)科學(xué)與探索. 2007(03)
[7]An improved TF-IDF approach for text classification[J]. 張?jiān)茲?龔玲,王永成.  Journal of Zhejiang University Science A(Science in Engineering). 2005(01)
[8]數(shù)字化醫(yī)院建設(shè)思路與實(shí)踐[J]. 李書章,劉國(guó)祥,吳昊,李剛榮.  解放軍醫(yī)院管理雜志. 2004(02)
[9]向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J]. 陸玉昌,魯明羽,李凡,周立柱.  計(jì)算機(jī)研究與發(fā)展. 2002(10)



本文編號(hào):3572772

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/shequguanli/3572772.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5e60a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com