基于主題模型和實體識別的股市熱點概念挖掘
發(fā)布時間:2020-11-16 20:06
隨著互聯(lián)網(wǎng)的發(fā)展,推特和微博等社交平臺的流行,一個突發(fā)事件會快速在網(wǎng)絡上形成熱點話題,如果是和股票相關(guān)的話題,往往會形成股票概念,話題相關(guān)股票又稱概念股,突發(fā)事件會對關(guān)聯(lián)股票股價產(chǎn)生較大的影響。分析事件關(guān)聯(lián)股票往往需要專業(yè)的行業(yè)研究員,普通投資者無法準確地判斷哪些股票可能受到影響。所有如果有一套完整的系統(tǒng)可以及時檢測到話題的產(chǎn)生,記錄其發(fā)展過程,并能夠識別出話題對應的股票概念,進而基于海量的互聯(lián)網(wǎng)資訊,準確地挖掘出事件概念股,那么將會給投資者帶來巨大的幫助。針對上述問題,本文利用主題模型實現(xiàn)了股市熱點話題檢測與追蹤算法。主題模型采用了經(jīng)典的潛在狄利克雷分配算法,并通過引入組合關(guān)鍵詞提取進一步過濾干擾詞;對于聚類話題個數(shù)的選擇,本文通過最小類間相似度準則來選取,該方法可以使各個話題間差異較大,話題可解釋性強。同時本文提出了話題熱度計算方法,可以記錄話題發(fā)展過程。股票概念詞通常是一個和話題極度相關(guān)的詞,概念詞組詞結(jié)構(gòu)沒有明顯規(guī)律,常常是新詞或者特定領域詞,目前的分詞算法無法有效識別。本文通過組合命名實體識別算法和詞粗切分算法來識別股票概念,首先對基于統(tǒng)計方法的命名實體識別方法和基于神經(jīng)網(wǎng)絡的命名實體識別方法進行了研究,提出了引入邊界熵,詞向量的神經(jīng)網(wǎng)絡實體識別方法,在公開語料集上達到了較好的效果,然后本文還提出了一種基于詞粗切分的新詞發(fā)現(xiàn)算法,用于概念名識別。最終,本文設計實現(xiàn)了基于Web的股市熱點話題檢測及概念股票抽取系統(tǒng)。本系統(tǒng)包括話題檢測與話題熱度走勢監(jiān)控,話題對應概念股以及概念走勢監(jiān)測等模塊,可以幫助投資者做決策支持。
【學位單位】:浙江大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:F832.51;TP391.1
【部分圖文】:
位論文網(wǎng)資訊信息質(zhì)量較差,網(wǎng)頁文本中常常存在很多噪聲以文本特征提取是一個重要步驟。此外,話題一般經(jīng)歷多任務是要從新聞流中識別與己知話題相關(guān)的新報道,可追蹤,自動記錄話題發(fā)展過程有助于進一步分析事件與事件的發(fā)展,對股市有重大影響的事件會形成對應的人對于事件的總結(jié),而“概念股”,“龍頭股”則是己經(jīng)影響的股票,龍頭股是很多股民的重點配倉標的。目前,比如“同花順”網(wǎng)站,“概念股”網(wǎng)站,中國財經(jīng)頭概念板塊“滬港通”概念的成分股榜單。??成分股漲跌排行榜??
第3章基于主題模型的股市熱點話題檢測與追蹤??3.?6.?3結(jié)果對比??實驗一結(jié)果:如圖3.2所示。圖3.2展示了不同關(guān)鍵詞提取個數(shù)對LDA模型??效果的影響,圖中三條線分別展示了提取關(guān)鍵詞個數(shù)為10、30、50、80、全部all??(不進行關(guān)鍵詞過濾)情況下LDA聚類結(jié)果,由圖可以看出關(guān)鍵詞提取個數(shù)為??50的情況下為較優(yōu)情況,而提取關(guān)鍵詞個數(shù)為10情況較差,過少的關(guān)鍵詞扭曲??了原始概率分布,損失了較多的信息,不建議采用;而在關(guān)鍵詞提取個數(shù)大于50??時,聚類效果有所下降。所以關(guān)鍵詞提取個數(shù)為50時,聚類效果優(yōu)于其他,建??議選擇提取個數(shù)為50。??關(guān)鍵字提取個數(shù)對聚類影響對比實驗??0.7????0.65??二:..…??????〇-6?????SSSSWSS4?9??[p|??0.55????—Fi??Y??0.5???10?30?50?80?all??關(guān)鍵詞提取個數(shù)??圖3.2關(guān)鍵字提取個數(shù)對聚類影響對比實驗??實驗二結(jié)果:基于數(shù)據(jù)集二,本文采用最小主題間平均相似度作為標準確定??最終聚類話題個數(shù),如圖3.3所示為不同話題個數(shù)對應的平均主題間相似度???以看到當話題為35時
第3章基于主題模型的股市熱點話題檢測與追蹤??3.?6.?3結(jié)果對比??實驗一結(jié)果:如圖3.2所示。圖3.2展示了不同關(guān)鍵詞提取個數(shù)對LDA模型??效果的影響,圖中三條線分別展示了提取關(guān)鍵詞個數(shù)為10、30、50、80、全部all??(不進行關(guān)鍵詞過濾)情況下LDA聚類結(jié)果,由圖可以看出關(guān)鍵詞提取個數(shù)為??50的情況下為較優(yōu)情況,而提取關(guān)鍵詞個數(shù)為10情況較差,過少的關(guān)鍵詞扭曲??了原始概率分布,損失了較多的信息,不建議采用;而在關(guān)鍵詞提取個數(shù)大于50??時,聚類效果有所下降。所以關(guān)鍵詞提取個數(shù)為50時,聚類效果優(yōu)于其他,建??議選擇提取個數(shù)為50。??關(guān)鍵字提取個數(shù)對聚類影響對比實驗??0.7????0.65??二:..…??????〇-6?????SSSSWSS4?9??[p|??0.55????—Fi??Y??0.5???10?30?50?80?all??關(guān)鍵詞提取個數(shù)??圖3.2關(guān)鍵字提取個數(shù)對聚類影響對比實驗??實驗二結(jié)果:基于數(shù)據(jù)集二,本文采用最小主題間平均相似度作為標準確定??最終聚類話題個數(shù),如圖3.3所示為不同話題個數(shù)對應的平均主題間相似度???以看到當話題為35時
【參考文獻】
本文編號:2886602
【學位單位】:浙江大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:F832.51;TP391.1
【部分圖文】:
位論文網(wǎng)資訊信息質(zhì)量較差,網(wǎng)頁文本中常常存在很多噪聲以文本特征提取是一個重要步驟。此外,話題一般經(jīng)歷多任務是要從新聞流中識別與己知話題相關(guān)的新報道,可追蹤,自動記錄話題發(fā)展過程有助于進一步分析事件與事件的發(fā)展,對股市有重大影響的事件會形成對應的人對于事件的總結(jié),而“概念股”,“龍頭股”則是己經(jīng)影響的股票,龍頭股是很多股民的重點配倉標的。目前,比如“同花順”網(wǎng)站,“概念股”網(wǎng)站,中國財經(jīng)頭概念板塊“滬港通”概念的成分股榜單。??成分股漲跌排行榜??
第3章基于主題模型的股市熱點話題檢測與追蹤??3.?6.?3結(jié)果對比??實驗一結(jié)果:如圖3.2所示。圖3.2展示了不同關(guān)鍵詞提取個數(shù)對LDA模型??效果的影響,圖中三條線分別展示了提取關(guān)鍵詞個數(shù)為10、30、50、80、全部all??(不進行關(guān)鍵詞過濾)情況下LDA聚類結(jié)果,由圖可以看出關(guān)鍵詞提取個數(shù)為??50的情況下為較優(yōu)情況,而提取關(guān)鍵詞個數(shù)為10情況較差,過少的關(guān)鍵詞扭曲??了原始概率分布,損失了較多的信息,不建議采用;而在關(guān)鍵詞提取個數(shù)大于50??時,聚類效果有所下降。所以關(guān)鍵詞提取個數(shù)為50時,聚類效果優(yōu)于其他,建??議選擇提取個數(shù)為50。??關(guān)鍵字提取個數(shù)對聚類影響對比實驗??0.7????0.65??二:..…??????〇-6?????SSSSWSS4?9??[p|??0.55????—Fi??Y??0.5???10?30?50?80?all??關(guān)鍵詞提取個數(shù)??圖3.2關(guān)鍵字提取個數(shù)對聚類影響對比實驗??實驗二結(jié)果:基于數(shù)據(jù)集二,本文采用最小主題間平均相似度作為標準確定??最終聚類話題個數(shù),如圖3.3所示為不同話題個數(shù)對應的平均主題間相似度???以看到當話題為35時
第3章基于主題模型的股市熱點話題檢測與追蹤??3.?6.?3結(jié)果對比??實驗一結(jié)果:如圖3.2所示。圖3.2展示了不同關(guān)鍵詞提取個數(shù)對LDA模型??效果的影響,圖中三條線分別展示了提取關(guān)鍵詞個數(shù)為10、30、50、80、全部all??(不進行關(guān)鍵詞過濾)情況下LDA聚類結(jié)果,由圖可以看出關(guān)鍵詞提取個數(shù)為??50的情況下為較優(yōu)情況,而提取關(guān)鍵詞個數(shù)為10情況較差,過少的關(guān)鍵詞扭曲??了原始概率分布,損失了較多的信息,不建議采用;而在關(guān)鍵詞提取個數(shù)大于50??時,聚類效果有所下降。所以關(guān)鍵詞提取個數(shù)為50時,聚類效果優(yōu)于其他,建??議選擇提取個數(shù)為50。??關(guān)鍵字提取個數(shù)對聚類影響對比實驗??0.7????0.65??二:..…??????〇-6?????SSSSWSS4?9??[p|??0.55????—Fi??Y??0.5???10?30?50?80?all??關(guān)鍵詞提取個數(shù)??圖3.2關(guān)鍵字提取個數(shù)對聚類影響對比實驗??實驗二結(jié)果:基于數(shù)據(jù)集二,本文采用最小主題間平均相似度作為標準確定??最終聚類話題個數(shù),如圖3.3所示為不同話題個數(shù)對應的平均主題間相似度???以看到當話題為35時
【參考文獻】
相關(guān)期刊論文 前2條
1 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計算機學報;2011年08期
2 張海軍;史樹敏;朱朝勇;黃河燕;;中文新詞識別技術(shù)綜述[J];計算機科學;2010年03期
本文編號:2886602
本文鏈接:http://sikaile.net/jingjilunwen/jinrongzhengquanlunwen/2886602.html
教材專著