基于針灸文本數(shù)據(jù)的分類方法研究
發(fā)布時(shí)間:2021-11-23 05:38
人工智能在醫(yī)療領(lǐng)域的研究逐漸成為關(guān)注的熱點(diǎn),人工智能輔助的在線診療系統(tǒng)大多基于專家模式,該模式對(duì)人力、財(cái)力和精力的消耗會(huì)更多.近年來,針灸治療因其特殊的治療效果越來越被重視.根據(jù)患者癥狀,自動(dòng)給出疾病的初步判斷和相關(guān)針灸治療方案推薦,以及自主導(dǎo)診的在線診療系統(tǒng)尤顯重要,而系統(tǒng)的關(guān)鍵技術(shù)是構(gòu)建具有較高準(zhǔn)確率的疾病癥狀分類模型.本文應(yīng)用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)理論,通過對(duì)針灸文本數(shù)據(jù)中疾病癥狀構(gòu)建分類模型,有助于解決目前在線診療系統(tǒng)的專家模式問題.通過醫(yī)院實(shí)地和網(wǎng)絡(luò)爬蟲收集針灸文本數(shù)據(jù),因其存在與其它通用數(shù)據(jù)集截然不同的特性,所以對(duì)疾病癥狀分類時(shí)需借鑒其它短文本的分類方法.數(shù)據(jù)集較少時(shí),卡方統(tǒng)計(jì)量因其計(jì)算復(fù)雜度低的優(yōu)勢(shì)成為特征選擇中最常用的方法之一,但傳統(tǒng)卡方統(tǒng)計(jì)量忽視了特征項(xiàng)在短文本中出現(xiàn)的頻度,且存在特征項(xiàng)與短文本類別負(fù)相關(guān)等問題.結(jié)合針灸文本數(shù)據(jù)固有特性,本文在使用卡方統(tǒng)計(jì)量做特征選擇之前,用TextRank算法進(jìn)行類關(guān)鍵詞抽取,然后將保留類關(guān)鍵詞擴(kuò)展到文檔向量中,構(gòu)成一種新的混合特征選擇方法.該方法可避免傳統(tǒng)卡方統(tǒng)計(jì)量存在的問題.最后結(jié)合支持向量機(jī)分類算法,建立一種基于CHI的混合特征選...
【文章來源】:西安建筑科技大學(xué)陜西省
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
短文本的分類實(shí)現(xiàn)過程
西安建筑科技大學(xué)碩士學(xué)位論文10document時(shí),而且短文本document的每一個(gè)特征項(xiàng)kt被賦予權(quán)重ijw后,那么這個(gè)數(shù)據(jù)集D的表示形式如下:11121212221212(,,,)kkmmmmkwwwwwwDdddwww(2-2)其中ijw表示第i(i1,2,,m)個(gè)短文本的第j(j1,2,,k)個(gè)特征項(xiàng)的權(quán)重.Bengio等人在2003年的時(shí)候在通過文章《NeuralProbabilisticLanguageModel》提出了NNLM(NeutralNetworkLanguageModel,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型)[39,43],NNLM的模型圖如下:圖2.2NNLM模型結(jié)構(gòu)原理圖該模型的目標(biāo)是構(gòu)建語(yǔ)言模型:(1)1(|,,)iiniDPwww(2-3)其模型的目的是求(2-3)式的最大值,其中,n表示從語(yǔ)料庫(kù)中選擇的文本序列的長(zhǎng)度,即從第i1個(gè)詞到i(n1)個(gè)詞.D表示選擇出的文本序列組合的集合.(2-3)式是通過已知的前面n個(gè)詞(1)1,,iniww,預(yù)測(cè)第i個(gè)詞iw出現(xiàn)的概率.神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型包括輸入層、隱藏層和輸出層,輸入層是將每個(gè)詞的詞向量進(jìn)行拼接,然后將其輸入到隱藏層.隱藏層的計(jì)算方法如下:
西安建筑科技大學(xué)碩士學(xué)位論文11htanh(bHx)(2-4)ybUh(2-5)其中,x為輸入層經(jīng)過每個(gè)詞的詞向量拼接后得到的輸入,h為隱藏層得到的值,b為偏置量,H為輸入層到隱藏層的權(quán)重矩陣,U為隱藏層到輸出層的權(quán)重矩陣,tanh()為激活函數(shù).在輸出層會(huì)添加softmax函數(shù),如下:(1)11exp(())(|,,)exp(())iiiniVkkywPwwwyw(2-6)其中,V表示詞表的大小,將輸出層的值轉(zhuǎn)換為概率值,Hinton提出了一種叫做wordembedding的詞向量表示方法,這種方法主要思想是將詞從高維空間中映射到低維空間中.在映射后的低維空間中,不同詞所對(duì)應(yīng)的詞向量之間的位置關(guān)系可以很好地反映它們?cè)谡Z(yǔ)義層面上的聯(lián)系,非常適合作為文本的高層抽象特征表示[40,41].Milolov等人在NNLM模型的基礎(chǔ)提出了CBOW模型(ContinuousBagof-wordsModel)和Skip-gram模型[60].Ⅰ.CBOW(ContinuousBagof-wordsModel)模型CBOW模型也叫連續(xù)詞袋模型,CBOW模型圖如下:圖2.3CBOW模型圖該模型的主要思想是用上下文已經(jīng)訓(xùn)練出來的詞向量來計(jì)算當(dāng)前詞的詞向量,也就是通過已知的上下文()tcontextw,來計(jì)算當(dāng)前詞為tw的概率(|())ttPwcontextw[35].CBOW模型目標(biāo)函數(shù)如下:,log(|())tttcwDLPwcontextw(2-7)
【參考文獻(xiàn)】:
期刊論文
[1]卷積神經(jīng)網(wǎng)絡(luò)下的Twitter文本情感分析[J]. 王煜涵,張春云,趙寶林,襲肖明,耿蕾蕾,崔超然. 數(shù)據(jù)采集與處理. 2018(05)
[2]文本分類中基于CHI改進(jìn)的特征選擇方法[J]. 宋呈祥,陳秀宏,牛強(qiáng). 微電子學(xué)與計(jì)算機(jī). 2018(09)
[3]結(jié)合改進(jìn)的CHI統(tǒng)計(jì)方法的TF-IDF算法優(yōu)化[J]. 馬瑩,趙輝,李萬龍,龐海龍,崔巖. 計(jì)算機(jī)應(yīng)用研究. 2019(09)
[4]基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)的垃圾短信識(shí)別方法[J]. 賴文輝,喬宇鵬. 計(jì)算機(jī)應(yīng)用. 2018(09)
[5]基于卷積神經(jīng)網(wǎng)絡(luò)的中文新聞文本分類[J]. 藍(lán)雯飛,徐蔚,王濤. 中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(01)
[6]基于卷積神經(jīng)網(wǎng)絡(luò)與多特征融合的Twitter情感分類方法[J]. 王汝嬌,姬東鴻. 計(jì)算機(jī)工程. 2018(02)
[7]基于改進(jìn)的CHI統(tǒng)計(jì)方法在文本分類中的應(yīng)用[J]. 黃章樹,葉志龍. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2016(11)
[8]基于LDA特征擴(kuò)展的短文本分類[J]. 呂超鎮(zhèn),姬東鴻,吳飛飛. 計(jì)算機(jī)工程與應(yīng)用. 2015(04)
[9]不均衡數(shù)據(jù)集上文本分類方法研究[J]. 謝娜娜,房斌,吳磊. 計(jì)算機(jī)工程與應(yīng)用. 2013(20)
[10]基于LDA高頻詞擴(kuò)展的中文短文本分類[J]. 胡勇軍,江嘉欣,常會(huì)友. 現(xiàn)代圖書情報(bào)技術(shù). 2013(06)
碩士論文
[1]面向疾病診斷的多分類器集成方法研究[D]. 熊婷.華東交通大學(xué) 2018
[2]社交媒體短文本分類方法研究[D]. 文永.電子科技大學(xué) 2018
[3]基于SVM和半監(jiān)督學(xué)習(xí)的短文本分類算法研究[D]. 向俊.南京信息工程大學(xué) 2017
[4]Relief特征選擇與混合核SVM在疾病診斷中的研究[D]. 麻書琴.太原理工大學(xué) 2017
[5]基于機(jī)器學(xué)習(xí)的漢語(yǔ)短文本分類方法研究與實(shí)現(xiàn)[D]. 黃旭.黑龍江大學(xué) 2016
[6]智能疾病導(dǎo)診及醫(yī)療問答方法研究與應(yīng)用[D]. 李超.大連理工大學(xué) 2016
[7]基于改進(jìn)TF-IDF特征提取的文本分類模型的設(shè)計(jì)與實(shí)現(xiàn)[D]. 杜朋朋.華中科技大學(xué) 2016
[8]基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類方法研究[D]. 蔡慧蘋.西南大學(xué) 2016
[9]基于文本挖掘的疾病輔助導(dǎo)診技術(shù)研究[D]. 徐冉.北京郵電大學(xué) 2015
[10]中文短文本分類的相關(guān)技術(shù)研究[D]. 崔爭(zhēng)艷.河南大學(xué) 2011
本文編號(hào):3513239
【文章來源】:西安建筑科技大學(xué)陜西省
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
短文本的分類實(shí)現(xiàn)過程
西安建筑科技大學(xué)碩士學(xué)位論文10document時(shí),而且短文本document的每一個(gè)特征項(xiàng)kt被賦予權(quán)重ijw后,那么這個(gè)數(shù)據(jù)集D的表示形式如下:11121212221212(,,,)kkmmmmkwwwwwwDdddwww(2-2)其中ijw表示第i(i1,2,,m)個(gè)短文本的第j(j1,2,,k)個(gè)特征項(xiàng)的權(quán)重.Bengio等人在2003年的時(shí)候在通過文章《NeuralProbabilisticLanguageModel》提出了NNLM(NeutralNetworkLanguageModel,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型)[39,43],NNLM的模型圖如下:圖2.2NNLM模型結(jié)構(gòu)原理圖該模型的目標(biāo)是構(gòu)建語(yǔ)言模型:(1)1(|,,)iiniDPwww(2-3)其模型的目的是求(2-3)式的最大值,其中,n表示從語(yǔ)料庫(kù)中選擇的文本序列的長(zhǎng)度,即從第i1個(gè)詞到i(n1)個(gè)詞.D表示選擇出的文本序列組合的集合.(2-3)式是通過已知的前面n個(gè)詞(1)1,,iniww,預(yù)測(cè)第i個(gè)詞iw出現(xiàn)的概率.神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型包括輸入層、隱藏層和輸出層,輸入層是將每個(gè)詞的詞向量進(jìn)行拼接,然后將其輸入到隱藏層.隱藏層的計(jì)算方法如下:
西安建筑科技大學(xué)碩士學(xué)位論文11htanh(bHx)(2-4)ybUh(2-5)其中,x為輸入層經(jīng)過每個(gè)詞的詞向量拼接后得到的輸入,h為隱藏層得到的值,b為偏置量,H為輸入層到隱藏層的權(quán)重矩陣,U為隱藏層到輸出層的權(quán)重矩陣,tanh()為激活函數(shù).在輸出層會(huì)添加softmax函數(shù),如下:(1)11exp(())(|,,)exp(())iiiniVkkywPwwwyw(2-6)其中,V表示詞表的大小,將輸出層的值轉(zhuǎn)換為概率值,Hinton提出了一種叫做wordembedding的詞向量表示方法,這種方法主要思想是將詞從高維空間中映射到低維空間中.在映射后的低維空間中,不同詞所對(duì)應(yīng)的詞向量之間的位置關(guān)系可以很好地反映它們?cè)谡Z(yǔ)義層面上的聯(lián)系,非常適合作為文本的高層抽象特征表示[40,41].Milolov等人在NNLM模型的基礎(chǔ)提出了CBOW模型(ContinuousBagof-wordsModel)和Skip-gram模型[60].Ⅰ.CBOW(ContinuousBagof-wordsModel)模型CBOW模型也叫連續(xù)詞袋模型,CBOW模型圖如下:圖2.3CBOW模型圖該模型的主要思想是用上下文已經(jīng)訓(xùn)練出來的詞向量來計(jì)算當(dāng)前詞的詞向量,也就是通過已知的上下文()tcontextw,來計(jì)算當(dāng)前詞為tw的概率(|())ttPwcontextw[35].CBOW模型目標(biāo)函數(shù)如下:,log(|())tttcwDLPwcontextw(2-7)
【參考文獻(xiàn)】:
期刊論文
[1]卷積神經(jīng)網(wǎng)絡(luò)下的Twitter文本情感分析[J]. 王煜涵,張春云,趙寶林,襲肖明,耿蕾蕾,崔超然. 數(shù)據(jù)采集與處理. 2018(05)
[2]文本分類中基于CHI改進(jìn)的特征選擇方法[J]. 宋呈祥,陳秀宏,牛強(qiáng). 微電子學(xué)與計(jì)算機(jī). 2018(09)
[3]結(jié)合改進(jìn)的CHI統(tǒng)計(jì)方法的TF-IDF算法優(yōu)化[J]. 馬瑩,趙輝,李萬龍,龐海龍,崔巖. 計(jì)算機(jī)應(yīng)用研究. 2019(09)
[4]基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)的垃圾短信識(shí)別方法[J]. 賴文輝,喬宇鵬. 計(jì)算機(jī)應(yīng)用. 2018(09)
[5]基于卷積神經(jīng)網(wǎng)絡(luò)的中文新聞文本分類[J]. 藍(lán)雯飛,徐蔚,王濤. 中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(01)
[6]基于卷積神經(jīng)網(wǎng)絡(luò)與多特征融合的Twitter情感分類方法[J]. 王汝嬌,姬東鴻. 計(jì)算機(jī)工程. 2018(02)
[7]基于改進(jìn)的CHI統(tǒng)計(jì)方法在文本分類中的應(yīng)用[J]. 黃章樹,葉志龍. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2016(11)
[8]基于LDA特征擴(kuò)展的短文本分類[J]. 呂超鎮(zhèn),姬東鴻,吳飛飛. 計(jì)算機(jī)工程與應(yīng)用. 2015(04)
[9]不均衡數(shù)據(jù)集上文本分類方法研究[J]. 謝娜娜,房斌,吳磊. 計(jì)算機(jī)工程與應(yīng)用. 2013(20)
[10]基于LDA高頻詞擴(kuò)展的中文短文本分類[J]. 胡勇軍,江嘉欣,常會(huì)友. 現(xiàn)代圖書情報(bào)技術(shù). 2013(06)
碩士論文
[1]面向疾病診斷的多分類器集成方法研究[D]. 熊婷.華東交通大學(xué) 2018
[2]社交媒體短文本分類方法研究[D]. 文永.電子科技大學(xué) 2018
[3]基于SVM和半監(jiān)督學(xué)習(xí)的短文本分類算法研究[D]. 向俊.南京信息工程大學(xué) 2017
[4]Relief特征選擇與混合核SVM在疾病診斷中的研究[D]. 麻書琴.太原理工大學(xué) 2017
[5]基于機(jī)器學(xué)習(xí)的漢語(yǔ)短文本分類方法研究與實(shí)現(xiàn)[D]. 黃旭.黑龍江大學(xué) 2016
[6]智能疾病導(dǎo)診及醫(yī)療問答方法研究與應(yīng)用[D]. 李超.大連理工大學(xué) 2016
[7]基于改進(jìn)TF-IDF特征提取的文本分類模型的設(shè)計(jì)與實(shí)現(xiàn)[D]. 杜朋朋.華中科技大學(xué) 2016
[8]基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類方法研究[D]. 蔡慧蘋.西南大學(xué) 2016
[9]基于文本挖掘的疾病輔助導(dǎo)診技術(shù)研究[D]. 徐冉.北京郵電大學(xué) 2015
[10]中文短文本分類的相關(guān)技術(shù)研究[D]. 崔爭(zhēng)艷.河南大學(xué) 2011
本文編號(hào):3513239
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3513239.html
最近更新
教材專著