醫(yī)患問答社區(qū)文本挖掘研究
發(fā)布時間:2017-06-09 01:05
本文關鍵詞:醫(yī)患問答社區(qū)文本挖掘研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的人們參與其中交流信息。醫(yī)患問答社區(qū)是醫(yī)生和患者可以在線交流的網(wǎng)絡健康社區(qū),社區(qū)中保留了大量的問答信息,其中包括病例信息、醫(yī)學常識和用藥健康等豐富的知識,對其深入挖掘可以為醫(yī)學研究,商業(yè)運作等提供有價值的參考資料。傳統(tǒng)的方法多是通過問卷調(diào)查或人工分析方式來進行探索研究,但當面對日益增長的海量信息時,傳統(tǒng)方法的缺陷日益凸顯。本文對醫(yī)患問答社區(qū)中的藥名實體識別和情感分析兩個主題進行研究,構(gòu)建了基于機器學習的層次結(jié)構(gòu)多策略方法進行知識挖掘。針對中文網(wǎng)絡健康社區(qū)中的文本口語化和藥名實體不規(guī)范等問題,本文采用條件隨機場模型結(jié)合改進的最大匹配算法對藥名實體進行抽取,并補充模糊匹配和搜索引擎的方法對其中的不規(guī)范藥名實體規(guī)范化。本文接下來對識別出的醫(yī)藥文本進行情感分析研究,首先采取二次二分類的方法進行情感分析,使用支持向量機模型對主客觀文本分類,分別選取了N元特征,文體特征和情感詞特征等。然后用情感詞典匹配的方法對主觀文本極性分類,其中對于情感詞典沒有收錄領域情感詞的問題,本文利用情感新詞發(fā)現(xiàn)的方法補充領域情感詞。最后對真實數(shù)據(jù)進行實驗,驗證了本文方法的可行性和合理性。目前對中文網(wǎng)絡健康社區(qū)的研究還處于初步階段,本文結(jié)合藥名實體識別和情感分析兩種方法對中文網(wǎng)絡健康社區(qū)中的醫(yī)藥信息抽取研究,挖掘出的內(nèi)容為網(wǎng)絡健康社區(qū)中的用藥狀況和病癥差異等研究提供了重要的幫助,同時為大數(shù)據(jù)時代的醫(yī)藥信息化挖掘管理提供了新思路。
【關鍵詞】:網(wǎng)絡健康社區(qū) 藥名實體識別 情感分析
【學位授予單位】:遼寧科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 中文摘要5-6
- ABSTRACT6-9
- 1. 緒論9-15
- 1.1. 研究背景9-10
- 1.2. 研究現(xiàn)狀10-13
- 1.2.1 命名實體識別11-12
- 1.2.2 情感分析12-13
- 1.3. 研究內(nèi)容13-14
- 1.4. 本文結(jié)構(gòu)14-15
- 2. 相關理論與資源15-23
- 2.1. 條件隨機場15-17
- 2.1.1. 簡介15
- 2.1.2. 形式化描述15-16
- 2.1.3. 參數(shù)化估計16-17
- 2.2. 支持向量機17-20
- 2.2.1. 線性可分支持向量機18
- 2.2.2. 函數(shù)間隔與幾何間隔18-20
- 2.2.3. 間隔最大化20
- 2.3. 評測方法20-21
- 2.4. 數(shù)據(jù)資源21-23
- 2.4.1. 數(shù)據(jù)集資源21
- 2.4.2. 詞典資源21-23
- 3. 藥物實體識別及標準化23-34
- 3.1. 問題引出23
- 3.2. 系統(tǒng)流程23-30
- 3.2.1. 數(shù)據(jù)集24
- 3.2.2. 藥名實體識別24-27
- 3.2.3. 標準化及擴充藥名詞典27-30
- 3.3. 實驗結(jié)果與分析30-33
- 3.3.1. 藥名實體識別實驗30-31
- 3.3.2. 標準化及擴充藥名詞典實驗結(jié)果31-33
- 3.4. 本章總結(jié)33-34
- 4. 醫(yī)患問答社區(qū)情感分析34-49
- 4.1. 問題引出34
- 4.2. 系統(tǒng)流程34-42
- 4.2.1. 數(shù)據(jù)集35
- 4.2.2. 基于支持向量機的主客觀文本分類35-37
- 4.2.3. 基于情感詞典的情感極性分析37-42
- 4.3. 實驗結(jié)果與分析42-48
- 4.3.1. 特征選擇評價42-48
- 4.4. 本章總結(jié)48-49
- 5.結(jié)論49-51
- 參考文獻51-55
- 攻讀碩士學位期間發(fā)表學術(shù)論文情況55-56
- 致謝56-57
- 作者簡介57-58
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 孫鎮(zhèn);王惠臨;;命名實體識別研究進展綜述[J];現(xiàn)代圖書情報技術(shù);2010年06期
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 邱莎;基于統(tǒng)計的生物命名實體識別研究[D];四川大學;2006年
本文關鍵詞:醫(yī)患問答社區(qū)文本挖掘研究,由筆耕文化傳播整理發(fā)布。
,本文編號:434106
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/434106.html
最近更新
教材專著