Web文本中癥狀命名實體識別系統(tǒng)
發(fā)布時間:2025-01-04 05:34
網(wǎng)絡上存在著大量的、寶貴的臨床醫(yī)療信息,僅專業(yè)醫(yī)療網(wǎng)站就幾十個。但從網(wǎng)絡上提取醫(yī)學知識并結構化、建立醫(yī)學知識圖譜,進而實施醫(yī)學診斷一直是WEB挖掘領域非常具有挑戰(zhàn)的工作。在以往的研究中,很多學者通過命名實體識別技術從網(wǎng)頁文本信息中識別疾病、癥狀、誘因、化驗指標、治療措施等相關術語,并建立起各類詞語間的相互關系。由于癥狀實體的表述有很多俗語表示,至今還沒有標準、完善的癥狀庫。對癥狀實體的識別,也一直沒有較好的途徑。為解決這一問題,本文使用JAVA語言開發(fā)了一個基于癥狀實體構成規(guī)則的Web文本中癥狀實體識別系統(tǒng)。并針對癥狀實體識別過程中的具體問題設計了相應的策略:(1)識別、提取專業(yè)醫(yī)療網(wǎng)站中的結構化癥狀信息。策略1給出了通用網(wǎng)站中提取癥狀實體的流程。策略2給出了爬取過程中斷點續(xù)傳的功能途徑,用于解決程序中斷問題。系統(tǒng)運行結果表明,共獲取癥狀實體18114個。(2)從癥狀列表中提取部位詞和強癥狀詞,為之后的部位詞+強癥狀詞組合成癥狀提供基礎數(shù)據(jù)。根據(jù)大部分癥狀是由部位詞+強癥狀詞組合而成的特點,設計了策略3,從策略1、策略2中已獲取的癥狀實體18114個中提取部位詞。系統(tǒng)運行后,共獲取部位詞...
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
本文編號:4022982
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
圖2-1基本分詞使用示例
AnsjSeg分詞工具有四種可供選擇的調(diào)用方式,即基本分詞-BaseAnalysis、精準分詞-ToAnalysis、nlp分詞-NlpAnalysis、面向索引的分詞-IndexAnalysis。(1)基本分詞基本分詞是這四種模式中最簡單快捷的一種模式,它所涉及的詞匯量近....
圖2-2精準分詞使用示例
圖2-2精準分詞使用示例(3)NLP分詞NLP分詞是在功能支持上最全面的一種模式,對比精準分詞,它增加了機構名識別和新詞發(fā)現(xiàn)的功能,可以識別出未登錄的詞。適用于以下幾種情景:實體名抽取、整理未登錄詞、文本分析等。功能上較為齊全,只是在速度上較其他幾種分詞模式都要慢,僅4....
圖2-3NLP分詞使用示例
圖2-2精準分詞使用示例(3)NLP分詞NLP分詞是在功能支持上最全面的一種模式,對比精準分詞,它增加了機構名識別和新詞發(fā)現(xiàn)的功能,可以識別出未登錄的詞。適用于以下幾種情景:實體名抽取、整理未登錄詞、文本分析等。功能上較為齊全,只是在速度上較其他幾種分詞模式都要慢,僅4....
圖2-4面向索引的分詞使用示例
第2章相關技術和資源東路/nr]。準確率準確率和召回本身是具有一定矛盾性的,AnsjSeg其中一個優(yōu)點就是巧妙的避開了召回率和準確率之間的沖突。召回的過程是先通過精準分詞模式獲得分詞后結果,再對其進行細分,很好的解決了這個問題。如表2-7,面向索引的分詞方法有以下功....
本文編號:4022982
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/4022982.html
最近更新
教材專著