基于文本挖掘的在線煤礦事故案例分類方法研究
發(fā)布時(shí)間:2020-07-29 21:23
【摘要】:信息技術(shù)的快速發(fā)展,促使煤礦企業(yè)積累了大量煤礦數(shù)據(jù)資源。閱讀煤礦數(shù)據(jù)挖掘相關(guān)文獻(xiàn)可以發(fā)現(xiàn):當(dāng)前煤礦數(shù)據(jù)挖掘?qū)ο笾饕性陔[患數(shù)據(jù)、監(jiān)測(cè)數(shù)據(jù),而對(duì)在線煤礦事故案例的研究較少,造成數(shù)據(jù)資源的浪費(fèi)。在線煤礦事故案例作為對(duì)事故時(shí)間、原因等多個(gè)方面總結(jié)的非結(jié)構(gòu)化數(shù)據(jù),在處理的過程中具有一定的難度。但是,數(shù)據(jù)內(nèi)部包含的信息對(duì)于煤礦安全生產(chǎn)、安全管理具有重要意義。因此,本論文選取在線煤礦事故案例作為研究對(duì)象,構(gòu)建煤礦事故案例自動(dòng)分類模型,挖掘煤礦事故案例中包含的信息。本論文為了研究在線煤礦事故案例自動(dòng)分類方法,對(duì)相關(guān)理論技術(shù)進(jìn)行研究。常見的文本表示模型為基于統(tǒng)計(jì)語言的詞袋模型、Tf-idf模型表示方法。W-ord2-vec作為基于神經(jīng)網(wǎng)絡(luò)語言的文本表示方法,能夠?qū)⒅形奈臋n中的詞語轉(zhuǎn)換成詞語向量。為了構(gòu)建自動(dòng)分類模型,本論文對(duì)Word2vec進(jìn)行改進(jìn),將輸出的詞語向量轉(zhuǎn)換成文檔向量,實(shí)現(xiàn)中文文本數(shù)據(jù)到計(jì)算機(jī)語言的轉(zhuǎn)換。支持向量機(jī)分類器的分類效果受到參數(shù)的影響,為了選用最優(yōu)模型參數(shù)構(gòu)建分類模型,本論文將網(wǎng)格法與支持向量機(jī)結(jié)合構(gòu)建cgSVM分類模型,運(yùn)用cgSVM實(shí)現(xiàn)在線煤礦事故案例自動(dòng)分類。為了研究在線煤礦事故案例自動(dòng)分類方法,將3種文本表示方法與不同分類器進(jìn)行結(jié)合共構(gòu)建word-SVM,word-Mul-NB,word-DTC,Tf-idf-SVM,Tf-idf-MulNB,Tf-idf-DTC,Word2vec-SVM,Word2vec-cgSVM8 種文本自動(dòng)分類模型。比較煤礦監(jiān)測(cè)網(wǎng)以及煤礦安全網(wǎng)網(wǎng)站中與煤礦事故案例相關(guān)的內(nèi)容,爬取煤礦安全網(wǎng)對(duì)應(yīng)的煤礦事故案例作為實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證自動(dòng)分類模型的性能。從比較模型的預(yù)測(cè)值與實(shí)際值以及性能評(píng)價(jià)指標(biāo)值兩個(gè)方面評(píng)價(jià)8種模型的分類效果。得出Word2vec-cgSVM模型的預(yù)測(cè)結(jié)果與實(shí)際值更加接近的結(jié)論,對(duì)應(yīng)的精確率、召回率、fl-score 分別為 0.977、0.976、0.976。通過研究,本論文構(gòu)建了煤礦事故案例自動(dòng)分類模型,經(jīng)過模型性能分析得出構(gòu)建的Word2vec-cgSVM對(duì)在線煤礦事故案例分類的精確率能夠達(dá)到97.7%。將Word2vec-cgSVM自動(dòng)分類模型運(yùn)用到在線煤礦事故案例分類中,能夠節(jié)約分類的人力、時(shí)間,對(duì)提高企業(yè)的分類效率具有實(shí)際意義。對(duì)Word2vec和支持向量機(jī)進(jìn)行改進(jìn),提出了改進(jìn)的Word2vec和cgSVM模型,豐富了文本表示和文本分類模型,對(duì)后續(xù)的中文文本分類研究具有理論意義。圖14 表17 參67
【學(xué)位授予單位】:安徽理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TD79
【圖文】:
處理后應(yīng)用到對(duì)已經(jīng)構(gòu)建的自動(dòng)分類模型的性能驗(yàn)證、分析中。分析模型性能,逡逑選取性能較好的模型運(yùn)用到煤礦事故案例自動(dòng)分類中。具體實(shí)驗(yàn)和本文研宄的過逡逑程如圖1-2的技術(shù)路線圖所示。逡逑-6邋-逡逑
分類模型構(gòu)建以及根據(jù)分類結(jié)果的評(píng)價(jià)指標(biāo)對(duì)己經(jīng)構(gòu)建的模型性能進(jìn)行逡逑評(píng)價(jià)等一系列過程。在了解了文本分類從數(shù)學(xué)角度的定義以及文本分類的運(yùn)用領(lǐng)逡逑域之后,本研宄對(duì)文本數(shù)據(jù)分類的整個(gè)流程進(jìn)行了梳理,具體的流程如圖2-1所逡逑示。觀察圖2-1能夠發(fā)現(xiàn),文本分類由兩個(gè)部分組成。分別為將文本數(shù)據(jù)進(jìn)行一逡逑系列處理之后,通過訓(xùn)練特征,使用特定的算法進(jìn)行模型構(gòu)建以及使用測(cè)試集樣逡逑本數(shù)據(jù)對(duì)模型的性能進(jìn)行評(píng)價(jià)兩個(gè)部分。因此,模型構(gòu)建的成功與否需要根據(jù)性逡逑能分析結(jié)果進(jìn)行評(píng)價(jià)。逡逑r邐1逡逑!邋,邐^邐丨分類算丨!逡逑|邋口訓(xùn)練標(biāo)簽邐1邐^法模型邐!逡逑!邋I邐y邐(S\TH,邐!逡逑i邋邐7邐rr^n邐支持向逡逑丨邐1U邐1邐量機(jī),隨逡逑i邋L訓(xùn)練文檔邐f邋?邐|訓(xùn)練邐機(jī)森林逡逑I邋1邐(II邋fS邋^邋特征邋| ̄1邋等)邋!逡逑1邐邐邐逡逑!邋邐7邐5邋表邐 ̄ ̄ ̄逡逑I邋—運(yùn)^i]邐I逡逑!邋[邋邐邐邋j,邋丨邋i逡逑;L測(cè)試文a邐J邋1邐?涯性能評(píng)估.邐[1sE囩果邋^邋!逡逑圖2-1文本分類模型構(gòu)建流程圖逡逑Fig邋2-1邋Text邋classification邋model邋construction邋flow邋chart逡逑2.2文本數(shù)據(jù)處理逡逑數(shù)據(jù)分類效果的優(yōu)劣主要取決于樣本數(shù)據(jù)的質(zhì)量
圖2-2分類算法和回歸算法模型結(jié)構(gòu)逡逑Fig邋2-2Classification邋algorithm邋and邋regression邋algorithm邋model逡逑觀察圖2-2中繪制的分類、回歸模型能夠發(fā)現(xiàn)兩者存在本質(zhì)的區(qū)別。分類模逡逑型的主要思想為:尋找一條線或者平面區(qū)分樣本中的不同的樣本類別。逡逑Classification模型中實(shí)心圓和實(shí)心三角形分別代表樣本數(shù)據(jù)中對(duì)應(yīng)的兩個(gè)類別。逡逑回歸的主要思想:求取一條線或者二次曲線等對(duì)樣本數(shù)據(jù)進(jìn)行擬合,使得樣本數(shù)逡逑據(jù)盡可能多的分布在求取的線上。Regression模型中表示數(shù)據(jù)集中的樣本數(shù)據(jù)。逡逑為了展示回歸分析和分類問題在數(shù)據(jù)類型、應(yīng)用和對(duì)應(yīng)算法之間的差異,將分類逡逑算法與回歸算法進(jìn)行匯總,詳細(xì)結(jié)果如表2-4。逡逑表2>4回歸與分類算法比較逡逑Table邋2-4Comparison邋of邋regression邋and邋classification邋algorithms逡逑數(shù)據(jù)類型邐應(yīng)用邐對(duì)應(yīng)算法邐—逡逑樣本數(shù)據(jù)中給定的娜立圾郵件以及邏輯回歸、決策樹、逡逑回歸分析邐輸出變量的為離散樸素貝葉斯算法、支逡逑榐的~忓緯窒蛄炕儒義戲擲轡侍忮窩臼葜惺涑霰浞考、税务、产屏Pゅ沃С窒蛄炕儒義希掊瘟課當(dāng)淞垮我舛仍げ獾儒義希玻矗逼鈾乇匆端狗擲嗥麇義媳匆端估礪凼怯⒐Ъ冶匆端褂冢保罰叮襯晏岢齙,秵T匆端雇臣評(píng)礪垡約板義賢臣仆貧系染鞒雋司藪蟮墓畢,从赖Z凵俠唇,贝叶斯赖Z壑傅氖竊諞桓鍪錄義戲⑸那疤嵯攏硪桓鍪錄餐狽⑸目贍芐雜卸啻螅雜Φ氖П澩鍤餃縭藉義希玻乘盡e義廈麇問劍玻沖義鮮劍玻持
本文編號(hào):2774510
【學(xué)位授予單位】:安徽理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TD79
【圖文】:
處理后應(yīng)用到對(duì)已經(jīng)構(gòu)建的自動(dòng)分類模型的性能驗(yàn)證、分析中。分析模型性能,逡逑選取性能較好的模型運(yùn)用到煤礦事故案例自動(dòng)分類中。具體實(shí)驗(yàn)和本文研宄的過逡逑程如圖1-2的技術(shù)路線圖所示。逡逑-6邋-逡逑
分類模型構(gòu)建以及根據(jù)分類結(jié)果的評(píng)價(jià)指標(biāo)對(duì)己經(jīng)構(gòu)建的模型性能進(jìn)行逡逑評(píng)價(jià)等一系列過程。在了解了文本分類從數(shù)學(xué)角度的定義以及文本分類的運(yùn)用領(lǐng)逡逑域之后,本研宄對(duì)文本數(shù)據(jù)分類的整個(gè)流程進(jìn)行了梳理,具體的流程如圖2-1所逡逑示。觀察圖2-1能夠發(fā)現(xiàn),文本分類由兩個(gè)部分組成。分別為將文本數(shù)據(jù)進(jìn)行一逡逑系列處理之后,通過訓(xùn)練特征,使用特定的算法進(jìn)行模型構(gòu)建以及使用測(cè)試集樣逡逑本數(shù)據(jù)對(duì)模型的性能進(jìn)行評(píng)價(jià)兩個(gè)部分。因此,模型構(gòu)建的成功與否需要根據(jù)性逡逑能分析結(jié)果進(jìn)行評(píng)價(jià)。逡逑r邐1逡逑!邋,邐^邐丨分類算丨!逡逑|邋口訓(xùn)練標(biāo)簽邐1邐^法模型邐!逡逑!邋I邐y邐(S\TH,邐!逡逑i邋邐7邐rr^n邐支持向逡逑丨邐1U邐1邐量機(jī),隨逡逑i邋L訓(xùn)練文檔邐f邋?邐|訓(xùn)練邐機(jī)森林逡逑I邋1邐(II邋fS邋^邋特征邋| ̄1邋等)邋!逡逑1邐邐邐逡逑!邋邐7邐5邋表邐 ̄ ̄ ̄逡逑I邋—運(yùn)^i]邐I逡逑!邋[邋邐邐邋j,邋丨邋i逡逑;L測(cè)試文a邐J邋1邐?涯性能評(píng)估.邐[1sE囩果邋^邋!逡逑圖2-1文本分類模型構(gòu)建流程圖逡逑Fig邋2-1邋Text邋classification邋model邋construction邋flow邋chart逡逑2.2文本數(shù)據(jù)處理逡逑數(shù)據(jù)分類效果的優(yōu)劣主要取決于樣本數(shù)據(jù)的質(zhì)量
圖2-2分類算法和回歸算法模型結(jié)構(gòu)逡逑Fig邋2-2Classification邋algorithm邋and邋regression邋algorithm邋model逡逑觀察圖2-2中繪制的分類、回歸模型能夠發(fā)現(xiàn)兩者存在本質(zhì)的區(qū)別。分類模逡逑型的主要思想為:尋找一條線或者平面區(qū)分樣本中的不同的樣本類別。逡逑Classification模型中實(shí)心圓和實(shí)心三角形分別代表樣本數(shù)據(jù)中對(duì)應(yīng)的兩個(gè)類別。逡逑回歸的主要思想:求取一條線或者二次曲線等對(duì)樣本數(shù)據(jù)進(jìn)行擬合,使得樣本數(shù)逡逑據(jù)盡可能多的分布在求取的線上。Regression模型中表示數(shù)據(jù)集中的樣本數(shù)據(jù)。逡逑為了展示回歸分析和分類問題在數(shù)據(jù)類型、應(yīng)用和對(duì)應(yīng)算法之間的差異,將分類逡逑算法與回歸算法進(jìn)行匯總,詳細(xì)結(jié)果如表2-4。逡逑表2>4回歸與分類算法比較逡逑Table邋2-4Comparison邋of邋regression邋and邋classification邋algorithms逡逑數(shù)據(jù)類型邐應(yīng)用邐對(duì)應(yīng)算法邐—逡逑樣本數(shù)據(jù)中給定的娜立圾郵件以及邏輯回歸、決策樹、逡逑回歸分析邐輸出變量的為離散樸素貝葉斯算法、支逡逑榐的~忓緯窒蛄炕儒義戲擲轡侍忮窩臼葜惺涑霰浞考、税务、产屏Pゅ沃С窒蛄炕儒義希掊瘟課當(dāng)淞垮我舛仍げ獾儒義希玻矗逼鈾乇匆端狗擲嗥麇義媳匆端估礪凼怯⒐Ъ冶匆端褂冢保罰叮襯晏岢齙,秵T匆端雇臣評(píng)礪垡約板義賢臣仆貧系染鞒雋司藪蟮墓畢,从赖Z凵俠唇,贝叶斯赖Z壑傅氖竊諞桓鍪錄義戲⑸那疤嵯攏硪桓鍪錄餐狽⑸目贍芐雜卸啻螅雜Φ氖П澩鍤餃縭藉義希玻乘盡e義廈麇問劍玻沖義鮮劍玻持
本文編號(hào):2774510
本文鏈接:http://sikaile.net/kejilunwen/kuangye/2774510.html
最近更新
教材專著