中醫(yī)藥癥狀的中文分詞與句子相似度研究
本文選題:中醫(yī)藥 + 癥狀; 參考:《浙江大學》2017年碩士論文
【摘要】:中醫(yī)藥是中國傳統(tǒng)醫(yī)藥,也是中華民族的文化瑰寶。隨著醫(yī)學技術(shù)的發(fā)展,中醫(yī)藥由于其整體性、動態(tài)性、辯證性等特征,越來越被人們重視。信息技術(shù)、人工智能的不斷突破,也為中醫(yī)藥的發(fā)展提供了新思路。目前國家已將中醫(yī)藥信息化列在國家信息化發(fā)展戰(zhàn)略綱要中。由于中醫(yī)藥信息化起步較晚、長期投入不足,中醫(yī)藥信息化的研究總體滯后。本文結(jié)合自然語言處理技術(shù),對中醫(yī)藥信息化過程中的中醫(yī)藥癥狀,進行了深入的研究。重點研究了中醫(yī)藥癥狀分詞和中醫(yī)藥癥狀句子相似度計算,具體貢獻如下:1)研究了中醫(yī)藥癥狀的數(shù)據(jù)特征。在大量的觀察實驗和互聯(lián)網(wǎng)搜索的基礎(chǔ)上,將其總結(jié)成表達各異、理解不同、表述不清、單字成詞、部分字詞用法特殊、用字不規(guī)范、詞典不完善這七大特征。2)研究了中文分詞的主要算法、技術(shù)難點以及評價指標。分析了每種算法的優(yōu)點和缺點。針對已有分詞算法的不足和中醫(yī)藥癥狀數(shù)據(jù)的特征,設(shè)計了一種基于雙向條件概率統(tǒng)計模型和相對位置的中醫(yī)藥癥狀分詞算法。通過與互信息模型、二元文法模型、正向條件概率模型、雙向條件概率模型比較,本論文的方法在準確率和召回率上分別較其他算法平均提高了 13.39%和17.88%。3)研究了漢語句子相似度計算的主要算法、技術(shù)難點以及評價指標。分析了每種算法在中醫(yī)藥環(huán)境下的優(yōu)缺點。改進了已有的詞語相似度計算方法。提出了中醫(yī)藥癥狀詞語的分級概念,按照癥狀詞語的重要性將其分為六個等級。綜合詞語相似度和詞語重要性兩個指標,改進了原來的基于語義向量的句子相似度計算方法。新方法較傳統(tǒng)的方法在句子相似度打分的準確性上提高了 11%。4)為使中醫(yī)藥算法可以方便的被中醫(yī)藥領(lǐng)域的研究者使用,本文從中醫(yī)藥信息化角度出發(fā),設(shè)計并實現(xiàn)了一個完整的、易用的、可擴展的中醫(yī)藥數(shù)據(jù)挖掘平臺。該平臺將所有算法看成一個算子,用戶通過組合不同的算子來進行實驗。
[Abstract]:Traditional Chinese medicine is a traditional Chinese medicine and a cultural treasure of the Chinese nation. With the development of medical technology, traditional Chinese medicine has been paid more and more attention because of its integrity, dynamics and dialectics. The continuous breakthrough of information technology and artificial intelligence also provides new ideas for the development of traditional Chinese medicine. In the outline of national information development strategy, the research of TCM information is lagging behind due to the late start of Chinese medicine informatization and insufficient long-term investment. This paper studies the symptoms of traditional Chinese medicine in the information process of traditional Chinese medicine, and focuses on the symptoms participle and TCM syndrome of traditional Chinese medicine. Sentence similarity calculation, specific contributions are as follows: 1) study the data characteristics of Chinese medicine symptoms. On the basis of a large number of observation experiments and Internet search, they are summarized into different expressions, different understanding, vague expression, single word formation, special use of words, unstandardized words and incomplete dictionaries, the seven characteristics.2). The main algorithm, technical difficulty and evaluation index of word segmentation. The advantages and disadvantages of each algorithm are analyzed. In view of the shortcomings of the existing segmentation algorithms and the characteristics of TCM symptom data, a Chinese medicine symptom segmentation algorithm based on the two-way conditional probability statistical model and relative position is designed. Through the mutual information model, the two element grammar model is used. Comparison of the positive conditional probability model and two-way conditional probability model, the methods of this paper are improved by 13.39% and 17.88%.3 respectively compared with other algorithms in accuracy and recall. The main algorithms, technical difficulties and evaluation indexes of Chinese sentence similarity calculation are studied. The advantages and disadvantages of each algorithm in the environment of traditional Chinese medicine are analyzed. This paper improves the existing method of calculating the similarity degree of words and phrases. It puts forward the classification concept of Chinese medicine symptom words and divides them into six grades according to the importance of the symptom words. It improves the original sentence similarity calculation method based on the semantic vector based sentence similarity degree and the word importance. The new method is more than the traditional method in the sentence. The accuracy of sub similarity score is improved by 11%.4). In order to make traditional Chinese medicine algorithms easy to be used by researchers in the field of traditional Chinese medicine, this paper designs and implements a complete, easy to use and extensible data mining platform for traditional Chinese medicine from the perspective of Chinese medicine information. This platform regards all algorithms as an operator and users are connected. A combination of different operators is used to experiment.
【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 孟洪宇;謝晴宇;常虹;孟慶剛;;基于條件隨機場的《傷寒論》中醫(yī)術(shù)語自動識別[J];北京中醫(yī)藥大學學報;2015年09期
2 章志華;陸海良;郁鋼;;基于TFIDF算法的關(guān)鍵詞提取方法[J];信息技術(shù)與信息化;2015年08期
3 張帆;劉曉峰;孫燕;;中醫(yī)醫(yī)案文獻自動分詞研究[J];中國中醫(yī)藥信息雜志;2015年02期
4 蔡勇;劉美玲;李玫;胡豪;;一種中醫(yī)藥行業(yè)搜索引擎的推薦詞產(chǎn)生方式[J];計算機系統(tǒng)應(yīng)用;2013年05期
5 鐘偉金;;基于層層深入的關(guān)鍵詞-敘詞同義關(guān)系自動識別研究[J];情報科學;2013年04期
6 修馳;宋柔;;基于無監(jiān)督學習的專業(yè)領(lǐng)域分詞歧義消解方法[J];計算機應(yīng)用;2013年03期
7 張五輩;白宇;王裴巖;張桂平;;一種中醫(yī)名詞術(shù)語自動抽取方法[J];沈陽航空航天大學學報;2011年01期
8 操牡丹;何前鋒;王柏;;中醫(yī)藥方劑相似度模型[J];計算機工程;2009年16期
9 周揚;王振國;;基于文本內(nèi)容理解的中醫(yī)藥數(shù)據(jù)基礎(chǔ)研究——中醫(yī)藥文獻語料庫的建設(shè)[J];中國中醫(yī)藥信息雜志;2007年09期
10 劉華梅,侯漢清;基于情報檢索的漢語同義詞識別初探[J];情報理論與實踐;2005年04期
相關(guān)會議論文 前1條
1 李月雷;師瑞峰;林麗冰;周一民;;漢語語句語義相似度的計算方法[A];2008'中國信息技術(shù)與應(yīng)用學術(shù)論壇論文集(一)[C];2008年
相關(guān)博士學位論文 前3條
1 周忠眉;中醫(yī)方劑數(shù)據(jù)挖掘模式和算法研究[D];浙江大學;2006年
2 李川;中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)TCMiner設(shè)計、實現(xiàn)與核心技術(shù)研究[D];四川大學;2006年
3 周雪忠;文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D];浙江大學;2004年
相關(guān)碩士學位論文 前4條
1 康生巧;中醫(yī)藥知識檢索系統(tǒng)的研究與實現(xiàn)[D];沈陽航空航天大學;2011年
2 范巖;基于條件隨機場模型的中醫(yī)文獻知識發(fā)現(xiàn)方法研究[D];北京交通大學;2009年
3 吳毅挺;DartSpora數(shù)據(jù)挖掘平臺的構(gòu)建及其在中醫(yī)方劑領(lǐng)域的應(yīng)用[D];浙江大學;2008年
4 吉哲;《黃帝內(nèi)經(jīng)·素問》四字詞組英譯研究[D];南京中醫(yī)藥大學;2007年
,本文編號:1881539
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1881539.html