天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 社科博士論文 >

網(wǎng)絡(luò)健康社區(qū)中的文本挖掘方法研究

發(fā)布時(shí)間:2017-05-10 05:12

  本文關(guān)鍵詞:網(wǎng)絡(luò)健康社區(qū)中的文本挖掘方法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著人們對(duì)自身健康關(guān)注程度的日益提高,對(duì)醫(yī)療保健的觀念也正逐漸發(fā)生改變,主張從過去被動(dòng)的疾病治療到積極的健康自我管理。病人要想積極的參與到自身疾病的診療決策以及日常的健康自我管理,沒有一個(gè)良好的信息交流平臺(tái)是無法實(shí)現(xiàn)的。近年來網(wǎng)絡(luò)健康社區(qū)的快速發(fā)展為人們交流醫(yī)療健康信息提供了可能,大量用戶參與到網(wǎng)絡(luò)健康社區(qū)中尋求和分享個(gè)人健康保健和疾病診療經(jīng)驗(yàn)、對(duì)各健康話題提出自己的觀點(diǎn),同時(shí)網(wǎng)絡(luò)健康社區(qū)也為病人及其家屬進(jìn)行情感交流與尋求情感支持創(chuàng)造了良好的溝通平臺(tái)。深入地了解和分析網(wǎng)絡(luò)健康社區(qū)是一個(gè)非常有意義的研究課題,一方面可以幫助社區(qū)網(wǎng)站優(yōu)化人機(jī)交互界面,提供更個(gè)性化的工具和功能來便于社區(qū)成員更好地參與到社區(qū)討論中,提高其參與的積極性;另一方面對(duì)參與網(wǎng)絡(luò)健康社區(qū)的廣大用戶來說,對(duì)網(wǎng)絡(luò)健康社區(qū)的深入研究可以幫助他們更快的了解這一新興的在線交流形式,幫助他們快速的發(fā)現(xiàn)其感興趣的話題或者尋找他們希望與之交流的社區(qū)成員,使他們更好的融入到網(wǎng)絡(luò)健康社區(qū)平臺(tái)中。 正因?yàn)榫W(wǎng)絡(luò)健康社區(qū)在人們?nèi)粘I钪邪l(fā)揮著越來越重要的作用,因此也成為眾多研究者關(guān)注的熱點(diǎn)。許多研究已經(jīng)從不同角度和側(cè)面展開,例如分析不同人群在社區(qū)中的參與特點(diǎn),探索社區(qū)中健康相關(guān)的熱點(diǎn)主題以及分析成員在社區(qū)中的情感表達(dá)與交流等幾個(gè)方面。但目前大部分研究采用的是基于調(diào)查問卷的方法,或者依靠人工標(biāo)注的內(nèi)容分析方法,隨著網(wǎng)絡(luò)健康社區(qū)的快速發(fā)展,當(dāng)面對(duì)日益增長的海量的社區(qū)文本時(shí),這些傳統(tǒng)的人工分析方法不但效率低下,而且缺乏科學(xué)性和客觀性,無法對(duì)網(wǎng)絡(luò)健康社區(qū)進(jìn)行更有效的分析。因此本文探索利用機(jī)器學(xué)習(xí)和文本挖掘等智能化處理方法,對(duì)目前網(wǎng)絡(luò)健康社區(qū)研究中的主要熱點(diǎn)問題進(jìn)行全面系統(tǒng)的分析,主要研究內(nèi)容包括以下三個(gè)方面:健康熱點(diǎn)主題的識(shí)別、社區(qū)成員角色的識(shí)別以及社區(qū)成員的情感表達(dá)分析等。 (1)健康熱點(diǎn)主題識(shí)別。社區(qū)成員在網(wǎng)絡(luò)健康社區(qū)中可以對(duì)感興趣的話題進(jìn)行自由的交流,但研究發(fā)現(xiàn)由于社區(qū)信息組織的無序?qū)е掠脩綦y以快速的查找到所需要的信息,社區(qū)網(wǎng)站和相關(guān)研究者也很難從中發(fā)現(xiàn)用戶對(duì)各類健康主題的興趣和需求,由此我們提出了健康熱點(diǎn)主題的自動(dòng)識(shí)別方法。通過借助于UMLS等外部醫(yī)療知識(shí)源,我們從社區(qū)論壇的發(fā)帖文本中抽取了n-gram特征、領(lǐng)域相關(guān)特征以及情感特征等能有效表示健康主題的特征集合,然后通過文本聚類技術(shù)對(duì)社區(qū)發(fā)帖文本按其主題劃分為不同的簇,每一個(gè)結(jié)果簇代表一類健康熱點(diǎn)主題,最后通過對(duì)簇中關(guān)鍵詞抽取的方式實(shí)現(xiàn)對(duì)健康熱點(diǎn)主題的有效識(shí)別。在實(shí)驗(yàn)的測試和評(píng)估中,以國際知名網(wǎng)絡(luò)健康社區(qū)Medhelp為實(shí)驗(yàn)數(shù)據(jù)來源,選擇其中的肺癌、乳腺癌和糖尿病三種典型疾病為研究對(duì)象搜集樣本數(shù)據(jù),在對(duì)模型的各項(xiàng)參數(shù)進(jìn)行確定后,我們分別得到了7個(gè)結(jié)果簇,通過關(guān)鍵詞抽取,我們最終定義了7個(gè)健康熱點(diǎn)主題,分別是個(gè)人詳細(xì)介紹、情感支持、癥狀、檢查、并發(fā)癥、用藥和治療,隨后驗(yàn)證了方法的有效性。最后通過進(jìn)一步討論,我們發(fā)現(xiàn)在不同類型疾病論壇中健康熱點(diǎn)主題的分布也有明顯差異,比如肺癌論壇中的癥狀、乳腺癌論壇中的檢查、糖尿病論壇中的用藥等主題的分布都明顯高于其他主題。 (2)社區(qū)成員角色識(shí)別。網(wǎng)絡(luò)健康社區(qū)中有不同類型的參與人群,他們有著不同的參與目的和需求,表現(xiàn)出不同的角色特征。對(duì)不同角色成員的有效識(shí)別便于網(wǎng)站提供差異化服務(wù)來滿足不同成員的需求,也便于社區(qū)成員之間增強(qiáng)相互理解和信任。然而出于隱私保護(hù)等原因使得個(gè)人有效信息相對(duì)缺乏,這給有效識(shí)別社區(qū)成員的角色造成了很大困難,為此我們引入了基于文體學(xué)的文本作者角色識(shí)別理論,提出了網(wǎng)絡(luò)健康社區(qū)中的成員角色識(shí)別方法,通過對(duì)社區(qū)成員發(fā)帖文本的文體寫作特征來判斷社區(qū)成員的不同角色類型,提取的文體特征包括詞匯特征、句法特征和結(jié)構(gòu)特征,并結(jié)合內(nèi)容相關(guān)的特征構(gòu)成特征集,然后采用文本聚類方法將所有發(fā)帖按其不同的文體寫作特征進(jìn)行劃分,最終實(shí)現(xiàn)對(duì)社區(qū)成員角色的有效識(shí)別。在實(shí)驗(yàn)中我們?nèi)匀灰訫edhelp健康社區(qū)三種疾病論壇中的發(fā)帖文本作為實(shí)驗(yàn)語料,對(duì)病人、護(hù)理者和醫(yī)療專家等三類主要角色進(jìn)行了有效識(shí)別,并通過進(jìn)一步討論對(duì)三類人群的差異化進(jìn)行了分析。 (3)社區(qū)成員的情感表達(dá)分析。網(wǎng)絡(luò)健康社區(qū)作為一個(gè)用戶廣泛參與交流的平臺(tái),社區(qū)成員的發(fā)帖都包含了他們豐富的情感表達(dá),因此我們探索建立了一套面向網(wǎng)絡(luò)健康社區(qū)的情感分析方法來有效地識(shí)別這些包含情感表達(dá)的發(fā)帖文本,并分析其中的情感傾向性。首先,我們介紹了對(duì)網(wǎng)絡(luò)文本的情感分析技術(shù),并分別根據(jù)基于機(jī)器學(xué)習(xí)的情感分析方法和基于情感詞典的情感分析方法來設(shè)計(jì)研究框架,對(duì)健康社區(qū)中的發(fā)帖文本進(jìn)行主客觀分類和情感極性分類。在基于機(jī)器學(xué)習(xí)的方法中通過選取領(lǐng)域特征、詞性特征、文體特征等有效區(qū)分文本情感的特征構(gòu)成特征集,并采用SVM分類算法實(shí)現(xiàn)對(duì)文本的情感分類。在基于情感詞典的分析方法中,探索如何引入外部情感知識(shí)源來抽取文本中的情感詞并計(jì)算其情感表達(dá)強(qiáng)度,設(shè)定合理的情感極性區(qū)分標(biāo)準(zhǔn)來判別文本的情感傾向性。通過實(shí)驗(yàn)測試,發(fā)現(xiàn)兩種情感分析方法各有優(yōu)劣,最終我們將兩種方法進(jìn)行有效的融合,并通過科學(xué)的度量驗(yàn)證了融合兩種方法的情感分析綜合模型的有效性。在進(jìn)一步深入的分析討論中,我們針對(duì)不同的疾病類型,不同的健康主題和不同類型的成員角色等從多個(gè)角度對(duì)社區(qū)成員的情感表達(dá)特點(diǎn)進(jìn)行了分析和總結(jié)。 本文的創(chuàng)新工作主要體現(xiàn)在以下三個(gè)方面: (1)提出了基于文本聚類的網(wǎng)絡(luò)健康社區(qū)熱點(diǎn)主題識(shí)別方法。由于目前對(duì)網(wǎng)絡(luò)健康社區(qū)熱點(diǎn)主題的研究多采用基于人工統(tǒng)計(jì)標(biāo)注的方法,處理效率低下且缺乏科學(xué)性,本文提出將文本聚類的方法運(yùn)用到網(wǎng)絡(luò)社區(qū)的健康主題識(shí)別中,在傳統(tǒng)的文本表示方法的基礎(chǔ)上,本文提出引入外部醫(yī)療健康知識(shí)源從文本中抽取出區(qū)分健康主題的領(lǐng)域相關(guān)特征,并進(jìn)一步提出加入情感特征來提高聚類效果,最后通過實(shí)驗(yàn)驗(yàn)證我們構(gòu)建的健康主題識(shí)別模型的有效性。 (2)提出了基于文體學(xué)的網(wǎng)絡(luò)健康社區(qū)成員角色識(shí)別方法。有效地識(shí)別不同的社區(qū)成員角色是分析研究網(wǎng)絡(luò)健康社區(qū)的主要基礎(chǔ)和前提,而由于個(gè)人資料的缺乏和隱私保護(hù)的需要使得我們難以識(shí)別成員的角色,因此相關(guān)角度的研究也非常少。本文創(chuàng)新性的提出了基于文體學(xué)的角色識(shí)別方法,從網(wǎng)絡(luò)文本中提取詞匯特征、語法特征和結(jié)構(gòu)特征等能區(qū)分不同類型社區(qū)成員的發(fā)帖風(fēng)格特征來判斷成員的角色,并通過實(shí)驗(yàn)驗(yàn)證了該方法的有效性。 (3)提出了適用于網(wǎng)絡(luò)健康社區(qū)中情感分析綜合模型。由于基于機(jī)器學(xué)習(xí)的情感分析方法和基于情感詞典的情感分析方法在應(yīng)用于網(wǎng)絡(luò)健康社區(qū)的文本情感分析中各有利弊,,我們提出了將兩者相結(jié)合的情感分析綜合模型,首先在文本的主客觀分類上,我們采用機(jī)器學(xué)習(xí)的方法,選取領(lǐng)域特征、詞性特征、文體特征等特征集,實(shí)現(xiàn)對(duì)文本的主客觀分類。然后在對(duì)主觀性文本的情感極性分析中,我們采用基于情感詞典的方法,利用外部情感詞典SentiWordNet來抽取文本中的情感極性詞,實(shí)現(xiàn)對(duì)文本整體的極性判斷。實(shí)驗(yàn)結(jié)果也表明我們提出的模型在網(wǎng)絡(luò)健康社區(qū)的情感分析中具有很好的效果。
【關(guān)鍵詞】:網(wǎng)絡(luò)健康社區(qū) 健康主題識(shí)別 角色識(shí)別 情感分析
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2013
【分類號(hào)】:C912.8
【目錄】:
  • 摘要5-8
  • ABSTRACT8-11
  • 目錄11-14
  • 表格目錄14-15
  • Index of Table15-16
  • 圖表目錄16-17
  • Index of Figure17-18
  • 第1章 緒論18-30
  • 1.1 研究背景18-22
  • 1.1.1 網(wǎng)絡(luò)健康社區(qū)簡介18-20
  • 1.1.2 國內(nèi)外網(wǎng)絡(luò)健康社區(qū)的發(fā)展現(xiàn)狀20-21
  • 1.1.3 網(wǎng)絡(luò)健康社區(qū)的特點(diǎn)和功能21-22
  • 1.2 研究意義22-23
  • 1.3 國內(nèi)外研究述評(píng)23-26
  • 1.3.1 網(wǎng)絡(luò)健康社區(qū)的研究角度23-25
  • 1.3.2 網(wǎng)絡(luò)健康社區(qū)的研究方法25-26
  • 1.4 研究問題的提出26-27
  • 1.5 課題研究內(nèi)容27-29
  • 1.6 主要?jiǎng)?chuàng)新點(diǎn)29-30
  • 第2章 網(wǎng)絡(luò)健康社區(qū)中的熱點(diǎn)主題識(shí)別研究30-46
  • 2.1 引言30
  • 2.2 主題識(shí)別的相關(guān)研究30-33
  • 2.2.1 基于統(tǒng)計(jì)方法的健康熱點(diǎn)主題分析30-32
  • 2.2.2 基于文本挖掘的健康熱點(diǎn)主題分析32
  • 2.2.3 主題識(shí)別技術(shù)32-33
  • 2.3 網(wǎng)絡(luò)健康社區(qū)中熱點(diǎn)主題識(shí)別框架33-34
  • 2.4 數(shù)據(jù)搜集和注釋34-35
  • 2.5 特征集產(chǎn)生35-42
  • 2.5.1 n-gram 特征35-36
  • 2.5.2 領(lǐng)域相關(guān)的特征36-41
  • 2.5.3 情感特征41-42
  • 2.6 特征抽取42
  • 2.7 聚類和聚類結(jié)果識(shí)別42-43
  • 2.8 聚類結(jié)果評(píng)估43-45
  • 2.9 本章小結(jié)45-46
  • 第3章 網(wǎng)絡(luò)健康社區(qū)中熱點(diǎn)主題識(shí)別的實(shí)驗(yàn)與評(píng)估46-68
  • 3.1 實(shí)驗(yàn)語料46-48
  • 3.2 數(shù)據(jù)總體統(tǒng)計(jì)特征48-51
  • 3.3 參數(shù)的確定51-53
  • 3.4 結(jié)果分析53-63
  • 3.5 聚類方法評(píng)價(jià)63-65
  • 3.6 不同疾病社區(qū)論壇中熱點(diǎn)主題的差異化分析65-67
  • 3.7 本章小結(jié)67-68
  • 第4章 網(wǎng)絡(luò)健康社區(qū)中的成員角色識(shí)別研究68-98
  • 4.1 背景介紹68-70
  • 4.2 研究意義70-72
  • 4.3 網(wǎng)絡(luò)文本作者角色識(shí)別的相關(guān)研究72-74
  • 4.3.1 文體學(xué)72
  • 4.3.2 文體學(xué)相關(guān)研究72-73
  • 4.3.3 基于文體學(xué)的網(wǎng)絡(luò)文本作者角色識(shí)別研究73-74
  • 4.4 網(wǎng)絡(luò)健康社區(qū)中的成員角色識(shí)別框架74-75
  • 4.5 數(shù)據(jù)搜集和注釋75-77
  • 4.6 特征集產(chǎn)生77-84
  • 4.6.1 詞匯特征77-80
  • 4.6.2 句法特征80-83
  • 4.6.3 結(jié)構(gòu)特征83
  • 4.6.4 內(nèi)容相關(guān)的特征83-84
  • 4.7 特征抽取、聚類識(shí)別和評(píng)估84-86
  • 4.8 實(shí)驗(yàn)86-97
  • 4.8.1 參數(shù)確定86-88
  • 4.8.2 結(jié)果分析88-92
  • 4.8.3 方法評(píng)價(jià)92-94
  • 4.8.4 不同疾病論壇的成員角色構(gòu)成分析94-97
  • 4.9 本章小結(jié)97-98
  • 第5章 網(wǎng)絡(luò)健康社區(qū)中的情感分析研究98-120
  • 5.1 背景介紹98-101
  • 5.2 網(wǎng)絡(luò)文本的情感分析技術(shù)101-102
  • 5.2.1 網(wǎng)絡(luò)文本的情感分類101-102
  • 5.2.2 情感分類粒度及方法102
  • 5.3 基于機(jī)器學(xué)習(xí)的健康社區(qū)文本情感分析102-106
  • 5.4 基于情感詞典的健康社區(qū)文本情感分析106-110
  • 5.5 實(shí)驗(yàn)110-113
  • 5.5.1 特征選擇評(píng)價(jià)110-112
  • 5.5.2 研究方法評(píng)價(jià)112-113
  • 5.6 情感分析綜合模型113-115
  • 5.7 進(jìn)一步討論115-119
  • 5.7.1 主客觀文本的分布115-116
  • 5.7.2 不同類型社區(qū)成員的情感表達(dá)116-117
  • 5.7.3 不同主題的情感表達(dá)117-119
  • 5.8 本章小結(jié)119-120
  • 第6章 總結(jié)與展望120-126
  • 6.1 全文回顧120-122
  • 6.2 研究不足122-123
  • 6.3 研究展望123-126
  • 參考文獻(xiàn)126-132
  • 致謝132-134
  • 攻讀博士學(xué)位期間的學(xué)術(shù)論文、科研課題和資助134

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前9條

1 張凱;張明允;;基于SVM的《紅樓夢(mèng)》寫作風(fēng)格研究[J];貴陽學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年01期

2 丁媛;;中國病人參與治療決策影響因素論述研究[J];東方企業(yè)文化;2011年22期

3 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期

4 張運(yùn)良;朱禮軍;喬曉東;張全;;基于句類特征的作者寫作風(fēng)格分類研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年22期

5 石晶;范猛;李萬龍;;基于LDA模型的主題分析[J];自動(dòng)化學(xué)報(bào);2009年12期

6 沈光寶;Internet上藥學(xué)信息資源的開發(fā)利用及評(píng)價(jià)[J];情報(bào)科學(xué);2002年09期

7 周慧;葛榮霞;馮順利;馮帥;;醫(yī)學(xué)圖書館數(shù)字信息資源用戶分析[J];情報(bào)科學(xué);2009年07期

8 徐敏娜;;我國公共醫(yī)療健康信息公益性增值利用研究[J];情報(bào)資料工作;2011年01期

9 楊星;李保利;金明舉;;基于LDA模型的研究領(lǐng)域熱點(diǎn)及趨勢分析[J];計(jì)算機(jī)技術(shù)與發(fā)展;2012年10期


  本文關(guān)鍵詞:網(wǎng)絡(luò)健康社區(qū)中的文本挖掘方法研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):354084

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/sklbs/354084.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶34249***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com