社交媒體文本數(shù)據(jù)的知識(shí)發(fā)現(xiàn)模型與實(shí)證研究
發(fā)布時(shí)間:2021-08-28 20:45
目前,隨著大數(shù)據(jù)(Big Data)概念的提出及大數(shù)據(jù)時(shí)代的到來,社交媒體以其數(shù)據(jù)傳輸速度快、應(yīng)用范圍廣、更新頻率快等特征,已經(jīng)成為大數(shù)據(jù)時(shí)代數(shù)據(jù)倉(cāng)庫的重要組成部分,蘊(yùn)含大量數(shù)據(jù)、形式復(fù)雜多樣、價(jià)值深埋有待挖掘的社交媒體數(shù)據(jù),為數(shù)據(jù)挖掘及知識(shí)發(fā)現(xiàn)奠定堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),吸引了眾多的數(shù)學(xué)、計(jì)算機(jī)、圖書情報(bào)領(lǐng)域的科研工作者的充分關(guān)注。對(duì)由用戶生成的、數(shù)量眾多的社交媒體數(shù)據(jù)進(jìn)行采集、清洗和結(jié)構(gòu)化,進(jìn)而進(jìn)行統(tǒng)計(jì)、信息分析與數(shù)據(jù)挖據(jù),探尋領(lǐng)域的研究熱點(diǎn)、研究前沿和研究趨勢(shì),發(fā)現(xiàn)某一領(lǐng)域的特殊個(gè)案,揭示事件的相關(guān)性等等,能夠?yàn)榭茖W(xué)研究與實(shí)踐應(yīng)用提供新信息、新線索、新知識(shí),因而成為當(dāng)前具有一定現(xiàn)實(shí)意義的工作。而且與文獻(xiàn)數(shù)據(jù)、科研數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)相比,社交媒體文本數(shù)據(jù)具有不規(guī)范特性,主要表現(xiàn)在:數(shù)據(jù)在社交媒體上以自由的、非結(jié)構(gòu)化的文本數(shù)據(jù)的形式展現(xiàn);文本中概念描述用詞口語化、習(xí)慣用語程度高、存在大量字符缺失、單復(fù)數(shù)混用等現(xiàn)象;數(shù)據(jù)中實(shí)體語義關(guān)系通過語境來體現(xiàn),并未給予直觀的抽象文本;社交媒體作為表達(dá)個(gè)人感受的平臺(tái),文本數(shù)據(jù)中客觀事件的描述夾雜著情感表達(dá),使得事件陳述更加模糊;與此同時(shí)大量的知識(shí)隱含在事件中...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:208 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖2.?2?KDD處理過程模型??①任務(wù)理解:了解KDD相關(guān)領(lǐng)域的研宄狀況,包括實(shí)際應(yīng)用中的儲(chǔ)備知??
⑵文本挖掘理論??①文本挖掘含義和過程??文本挖掘是一個(gè)從非結(jié)構(gòu)化文本信息中獲取用戶感興趣或者有用的模式,??對(duì)具有豐富語義的文本進(jìn)行分析從而理解其所包含的內(nèi)容和意義的過程。其中??被普遍認(rèn)可的文本挖掘定義如下文本挖掘是指從大量文本數(shù)據(jù)中抽取事先未知??的、可理解的、最終可用的知識(shí)的過程,同時(shí)運(yùn)用這些知識(shí)更好地組織信息以??便將來參考[171]。??文本挖掘的基本思想是首先利用文本切分技術(shù)、抽取文本特征,將非結(jié)構(gòu)??化的文本數(shù)據(jù)轉(zhuǎn)化為描述文本內(nèi)容的結(jié)構(gòu)化數(shù)據(jù);然后利用分類、聚類和關(guān)聯(lián)??分析等數(shù)據(jù)挖掘技術(shù),形成結(jié)構(gòu)化文本,并根據(jù)該結(jié)構(gòu)發(fā)現(xiàn)新的概念和獲取相??應(yīng)的關(guān)系,因此,文本挖掘同時(shí)也被成為文本知識(shí)發(fā)現(xiàn)[172]。??文本挖掘的過程一般可分為文本預(yù)處理、特征提取和表示、模式挖掘和結(jié)??果評(píng)價(jià)與可視等,其過程如圖2.3所示。??
中語義關(guān)系,除了“is-a”等級(jí)關(guān)系外,還定義了一組非等級(jí)關(guān)系,非等級(jí)關(guān)系主??要為“locationof’相關(guān)關(guān)系,包括:“物理相關(guān)”、“空間相關(guān)”、“時(shí)間相關(guān)”、“功??能相關(guān)”、“概念相關(guān)”。圖3.3展示并顯示了語義網(wǎng)絡(luò)中的層次與關(guān)聯(lián)。??圖3.3?UMLS語義網(wǎng)絡(luò)中的層次與關(guān)聯(lián)[219】??圖書情報(bào)領(lǐng)域的研宄者對(duì)實(shí)體的語義關(guān)系進(jìn)行了大量研宄,目前主要的技??術(shù)主要集中在語義相似度計(jì)算、聚類技術(shù)、基于關(guān)聯(lián)規(guī)則、計(jì)量分析方法和語??法規(guī)則。尤其在相似度計(jì)算,聚類技術(shù)的研宄中已經(jīng)積累了大量的成果。而基??[219]醫(yī)學(xué)一體化語言系統(tǒng).[EB/OL].?[2015-12-12].?www.cintcm.com/yuyan/content/word/UMLS.ppt.??74??
【參考文獻(xiàn)】:
期刊論文
[1]利用實(shí)體與依存句法結(jié)構(gòu)特征的病歷短文本分類方法[J]. 呂愿愿,鄧永莉,劉明亮,崔宇佳,陸起涌. 中國(guó)醫(yī)療器械雜志. 2016(04)
[2]三種數(shù)據(jù)挖掘算法在電子病歷知識(shí)發(fā)現(xiàn)中的比較[J]. 牟冬梅,任珂. 現(xiàn)代圖書情報(bào)技術(shù). 2016(06)
[3]建立基于供給側(cè)改革的協(xié)同育人平臺(tái)運(yùn)行機(jī)制[J]. 詹勇,王文婷. 中國(guó)高等教育. 2016(10)
[4]社交媒體環(huán)境下的檔案信息資源建設(shè)探討[J]. 朱蘭蘭,裴佳勇. 檔案學(xué)研究. 2015(05)
[5]基于微博文本數(shù)據(jù)分析的社會(huì)群體情感可視計(jì)算方法研究[J]. 劉翠娟,劉箴,柴艷杰,方昊,劉良平. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(01)
[6]社交媒體在高校圖書館知識(shí)服務(wù)中的應(yīng)用[J]. 藍(lán)冬梅. 圖書館學(xué)刊. 2015(06)
[7]社交媒體在兒童先天性心臟病解剖學(xué)教學(xué)中的應(yīng)用[J]. 陳盛,文川,李慧繁,蔡娜,沈蕾蕾. 局解手術(shù)學(xué)雜志. 2015(03)
[8]世界主要國(guó)家大數(shù)據(jù)戰(zhàn)略的新發(fā)展及對(duì)我國(guó)的啟示——基于PV-GPG框架的比較研究[J]. 李一男. 圖書與情報(bào). 2015(02)
[9]關(guān)于社交媒體對(duì)赴日旅游影響的幾點(diǎn)思考[J]. 李昭霞,楊波,于桂芹. 新聞研究導(dǎo)刊. 2015(07)
[10]試論社交媒體對(duì)檔案工作的影響[J]. 于華. 山西檔案. 2015(02)
博士論文
[1]虛擬社區(qū)信息運(yùn)動(dòng)互動(dòng)機(jī)理與規(guī)律研究[D]. 貫君.吉林大學(xué) 2015
[2]特定事件情境下中文微博用戶情感挖掘與傳播研究[D]. 紀(jì)雪梅.南開大學(xué) 2014
[3]微博用戶及其信息傳播影響因素研究[D]. 劉行軍.華中師范大學(xué) 2013
[4]基于概率生成模型的社區(qū)發(fā)現(xiàn)和網(wǎng)絡(luò)數(shù)據(jù)分類方法研究[D]. 王楨文.國(guó)防科學(xué)技術(shù)大學(xué) 2013
[5]虛擬社區(qū)信息質(zhì)量建模及感知差異性比較研究[D]. 李晶.武漢大學(xué) 2013
[6]語義萬維網(wǎng)中本體與規(guī)則上的非經(jīng)典推理[D]. 黃莎莎.湖南大學(xué) 2012
[7]非功能需求交互的語義建模和自動(dòng)化推理[D]. 胡海波.重慶大學(xué) 2012
[8]虛擬社區(qū)知識(shí)共享可持續(xù)行為研究[D]. 趙文軍.華中師范大學(xué) 2012
[9]虛擬團(tuán)隊(duì)知識(shí)共享機(jī)理與實(shí)證研究[D]. 王學(xué)東.武漢大學(xué) 2011
[10]在線社會(huì)網(wǎng)絡(luò)信任計(jì)算與挖掘分析中若干模型與算法研究[D]. 張宇.浙江大學(xué) 2009
碩士論文
[1]基于微博的網(wǎng)絡(luò)輿情信息擴(kuò)散及其預(yù)警機(jī)制研究[D]. 杜松源.西南科技大學(xué) 2015
[2]基于數(shù)據(jù)挖掘的金融時(shí)間序列預(yù)測(cè)研究與應(yīng)用[D]. 戴陽陽.江南大學(xué) 2015
[3]面向命名實(shí)體抽取的大規(guī)模中醫(yī)臨床病歷語料庫構(gòu)建方法研究[D]. 馮麗芝.北京交通大學(xué) 2015
[4]復(fù)雜社會(huì)網(wǎng)絡(luò)中輿情傳播模型及影響因素分析[D]. 黃格.湘潭大學(xué) 2015
[5]基于現(xiàn)代臨床文獻(xiàn)的針灸治療不孕癥文獻(xiàn)特征及取穴規(guī)律研究[D]. 夏春玲.廣州中醫(yī)藥大學(xué) 2015
[6]社交網(wǎng)站的個(gè)性化知識(shí)服務(wù)研究[D]. 宋承蕾.黑龍江大學(xué) 2015
[7]微博實(shí)體與百科條目鏈接的多策略研究[D]. 郭云龍.西南大學(xué) 2015
[8]旅游虛擬社區(qū)隱性知識(shí)轉(zhuǎn)移影響因素研究[D]. 孫天舒.黑龍江大學(xué) 2015
[9]半監(jiān)督學(xué)習(xí)及其在社交媒體分析中的應(yīng)用[D]. 杜俊.華北電力大學(xué) 2015
[10]基于豐富語言特征的中文社交媒體事件發(fā)掘[D]. 景悅誠(chéng).上海交通大學(xué) 2015
本文編號(hào):3369216
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:208 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖2.?2?KDD處理過程模型??①任務(wù)理解:了解KDD相關(guān)領(lǐng)域的研宄狀況,包括實(shí)際應(yīng)用中的儲(chǔ)備知??
⑵文本挖掘理論??①文本挖掘含義和過程??文本挖掘是一個(gè)從非結(jié)構(gòu)化文本信息中獲取用戶感興趣或者有用的模式,??對(duì)具有豐富語義的文本進(jìn)行分析從而理解其所包含的內(nèi)容和意義的過程。其中??被普遍認(rèn)可的文本挖掘定義如下文本挖掘是指從大量文本數(shù)據(jù)中抽取事先未知??的、可理解的、最終可用的知識(shí)的過程,同時(shí)運(yùn)用這些知識(shí)更好地組織信息以??便將來參考[171]。??文本挖掘的基本思想是首先利用文本切分技術(shù)、抽取文本特征,將非結(jié)構(gòu)??化的文本數(shù)據(jù)轉(zhuǎn)化為描述文本內(nèi)容的結(jié)構(gòu)化數(shù)據(jù);然后利用分類、聚類和關(guān)聯(lián)??分析等數(shù)據(jù)挖掘技術(shù),形成結(jié)構(gòu)化文本,并根據(jù)該結(jié)構(gòu)發(fā)現(xiàn)新的概念和獲取相??應(yīng)的關(guān)系,因此,文本挖掘同時(shí)也被成為文本知識(shí)發(fā)現(xiàn)[172]。??文本挖掘的過程一般可分為文本預(yù)處理、特征提取和表示、模式挖掘和結(jié)??果評(píng)價(jià)與可視等,其過程如圖2.3所示。??
中語義關(guān)系,除了“is-a”等級(jí)關(guān)系外,還定義了一組非等級(jí)關(guān)系,非等級(jí)關(guān)系主??要為“locationof’相關(guān)關(guān)系,包括:“物理相關(guān)”、“空間相關(guān)”、“時(shí)間相關(guān)”、“功??能相關(guān)”、“概念相關(guān)”。圖3.3展示并顯示了語義網(wǎng)絡(luò)中的層次與關(guān)聯(lián)。??圖3.3?UMLS語義網(wǎng)絡(luò)中的層次與關(guān)聯(lián)[219】??圖書情報(bào)領(lǐng)域的研宄者對(duì)實(shí)體的語義關(guān)系進(jìn)行了大量研宄,目前主要的技??術(shù)主要集中在語義相似度計(jì)算、聚類技術(shù)、基于關(guān)聯(lián)規(guī)則、計(jì)量分析方法和語??法規(guī)則。尤其在相似度計(jì)算,聚類技術(shù)的研宄中已經(jīng)積累了大量的成果。而基??[219]醫(yī)學(xué)一體化語言系統(tǒng).[EB/OL].?[2015-12-12].?www.cintcm.com/yuyan/content/word/UMLS.ppt.??74??
【參考文獻(xiàn)】:
期刊論文
[1]利用實(shí)體與依存句法結(jié)構(gòu)特征的病歷短文本分類方法[J]. 呂愿愿,鄧永莉,劉明亮,崔宇佳,陸起涌. 中國(guó)醫(yī)療器械雜志. 2016(04)
[2]三種數(shù)據(jù)挖掘算法在電子病歷知識(shí)發(fā)現(xiàn)中的比較[J]. 牟冬梅,任珂. 現(xiàn)代圖書情報(bào)技術(shù). 2016(06)
[3]建立基于供給側(cè)改革的協(xié)同育人平臺(tái)運(yùn)行機(jī)制[J]. 詹勇,王文婷. 中國(guó)高等教育. 2016(10)
[4]社交媒體環(huán)境下的檔案信息資源建設(shè)探討[J]. 朱蘭蘭,裴佳勇. 檔案學(xué)研究. 2015(05)
[5]基于微博文本數(shù)據(jù)分析的社會(huì)群體情感可視計(jì)算方法研究[J]. 劉翠娟,劉箴,柴艷杰,方昊,劉良平. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(01)
[6]社交媒體在高校圖書館知識(shí)服務(wù)中的應(yīng)用[J]. 藍(lán)冬梅. 圖書館學(xué)刊. 2015(06)
[7]社交媒體在兒童先天性心臟病解剖學(xué)教學(xué)中的應(yīng)用[J]. 陳盛,文川,李慧繁,蔡娜,沈蕾蕾. 局解手術(shù)學(xué)雜志. 2015(03)
[8]世界主要國(guó)家大數(shù)據(jù)戰(zhàn)略的新發(fā)展及對(duì)我國(guó)的啟示——基于PV-GPG框架的比較研究[J]. 李一男. 圖書與情報(bào). 2015(02)
[9]關(guān)于社交媒體對(duì)赴日旅游影響的幾點(diǎn)思考[J]. 李昭霞,楊波,于桂芹. 新聞研究導(dǎo)刊. 2015(07)
[10]試論社交媒體對(duì)檔案工作的影響[J]. 于華. 山西檔案. 2015(02)
博士論文
[1]虛擬社區(qū)信息運(yùn)動(dòng)互動(dòng)機(jī)理與規(guī)律研究[D]. 貫君.吉林大學(xué) 2015
[2]特定事件情境下中文微博用戶情感挖掘與傳播研究[D]. 紀(jì)雪梅.南開大學(xué) 2014
[3]微博用戶及其信息傳播影響因素研究[D]. 劉行軍.華中師范大學(xué) 2013
[4]基于概率生成模型的社區(qū)發(fā)現(xiàn)和網(wǎng)絡(luò)數(shù)據(jù)分類方法研究[D]. 王楨文.國(guó)防科學(xué)技術(shù)大學(xué) 2013
[5]虛擬社區(qū)信息質(zhì)量建模及感知差異性比較研究[D]. 李晶.武漢大學(xué) 2013
[6]語義萬維網(wǎng)中本體與規(guī)則上的非經(jīng)典推理[D]. 黃莎莎.湖南大學(xué) 2012
[7]非功能需求交互的語義建模和自動(dòng)化推理[D]. 胡海波.重慶大學(xué) 2012
[8]虛擬社區(qū)知識(shí)共享可持續(xù)行為研究[D]. 趙文軍.華中師范大學(xué) 2012
[9]虛擬團(tuán)隊(duì)知識(shí)共享機(jī)理與實(shí)證研究[D]. 王學(xué)東.武漢大學(xué) 2011
[10]在線社會(huì)網(wǎng)絡(luò)信任計(jì)算與挖掘分析中若干模型與算法研究[D]. 張宇.浙江大學(xué) 2009
碩士論文
[1]基于微博的網(wǎng)絡(luò)輿情信息擴(kuò)散及其預(yù)警機(jī)制研究[D]. 杜松源.西南科技大學(xué) 2015
[2]基于數(shù)據(jù)挖掘的金融時(shí)間序列預(yù)測(cè)研究與應(yīng)用[D]. 戴陽陽.江南大學(xué) 2015
[3]面向命名實(shí)體抽取的大規(guī)模中醫(yī)臨床病歷語料庫構(gòu)建方法研究[D]. 馮麗芝.北京交通大學(xué) 2015
[4]復(fù)雜社會(huì)網(wǎng)絡(luò)中輿情傳播模型及影響因素分析[D]. 黃格.湘潭大學(xué) 2015
[5]基于現(xiàn)代臨床文獻(xiàn)的針灸治療不孕癥文獻(xiàn)特征及取穴規(guī)律研究[D]. 夏春玲.廣州中醫(yī)藥大學(xué) 2015
[6]社交網(wǎng)站的個(gè)性化知識(shí)服務(wù)研究[D]. 宋承蕾.黑龍江大學(xué) 2015
[7]微博實(shí)體與百科條目鏈接的多策略研究[D]. 郭云龍.西南大學(xué) 2015
[8]旅游虛擬社區(qū)隱性知識(shí)轉(zhuǎn)移影響因素研究[D]. 孫天舒.黑龍江大學(xué) 2015
[9]半監(jiān)督學(xué)習(xí)及其在社交媒體分析中的應(yīng)用[D]. 杜俊.華北電力大學(xué) 2015
[10]基于豐富語言特征的中文社交媒體事件發(fā)掘[D]. 景悅誠(chéng).上海交通大學(xué) 2015
本文編號(hào):3369216
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/3369216.html
最近更新
教材專著