金融學(xué)文本大數(shù)據(jù)挖掘方法與研究進(jìn)展
發(fā)布時(shí)間:2021-04-01 11:45
在金融學(xué)領(lǐng)域的傳統(tǒng)實(shí)證研究中,所用數(shù)據(jù)多局限于財(cái)務(wù)報(bào)表和股票市場(chǎng)數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)。而在大數(shù)據(jù)時(shí)代,計(jì)算機(jī)技術(shù)的進(jìn)步使得數(shù)據(jù)類型不斷豐富,研究者開始將非結(jié)構(gòu)化的文本大數(shù)據(jù)引入到金融學(xué)領(lǐng)域的研究中,其主要包括上市公司披露文本、財(cái)經(jīng)媒體報(bào)道、社交網(wǎng)絡(luò)文本、網(wǎng)絡(luò)搜索指數(shù)以及P2P網(wǎng)絡(luò)借貸文本等,并對(duì)文本的可讀性、語氣語調(diào)、相似性以及語義特征展開研究。本文首先介紹了金融學(xué)領(lǐng)域文本大數(shù)據(jù)挖掘步驟和方法,描述了語料獲取、預(yù)處理過程、文檔表示以及文檔的特征抽取;然后根據(jù)不同的文本信息來源,梳理了金融學(xué)文本大數(shù)據(jù)的研究進(jìn)展;最后對(duì)未來金融學(xué)文本大數(shù)據(jù)的研究方法和研究?jī)?nèi)容進(jìn)行了展望。
【文章來源】:經(jīng)濟(jì)學(xué)動(dòng)態(tài). 2020,(04)北大核心CSSCI
【文章頁數(shù)】:16 頁
【部分圖文】:
文本大數(shù)據(jù)分析流程圖
詞嵌入是將維數(shù)為所有詞的數(shù)量的高維空間嵌入到低維連續(xù)向量空間中的技術(shù)。通過詞嵌入技術(shù),可以將詞語映射成低維連續(xù)向量空間中的向量,通過向量之間的距離和位置來表示文檔中詞語的上下文、語法和語義的相似性以及與其他詞語的關(guān)系。在金融學(xué)文本分析中,Word2Vec技術(shù)是常用的詞嵌入技術(shù),包括CBOW(continuous bag of words)和Skip-Gram神經(jīng)網(wǎng)絡(luò)模型,可以通過訓(xùn)練使神經(jīng)網(wǎng)絡(luò)捕捉到更多詞語之間的上下文信息,從而將每個(gè)詞語映射成更低維度、稠密且包含更多語義信息的向量(Mikolov et al,2013)。在Word2Vec技術(shù)中,詞嵌入向量能得到不同詞之間的類比關(guān)系,最經(jīng)典的例子就是“king-queen=man-woman”,如圖2所示。4.主題模型。
【參考文獻(xiàn)】:
期刊論文
[1]言之有物:網(wǎng)絡(luò)借貸中語言有用嗎?——來自人人貸借款描述的經(jīng)驗(yàn)證據(jù)[J]. 彭紅楓,林川. 金融研究. 2018(11)
[2]社會(huì)關(guān)系與企業(yè)信息披露質(zhì)量——基于中國(guó)上市公司年報(bào)的文本分析[J]. 任宏達(dá),王琨. 南開管理評(píng)論. 2018(05)
[3]年報(bào)風(fēng)險(xiǎn)信息披露與審計(jì)費(fèi)用——基于文本余弦相似度視角[J]. 王雄元,高曦,何捷. 審計(jì)研究. 2018(05)
[4]年報(bào)語調(diào)與內(nèi)部人交易:“表里如一”還是“口是心非”?[J]. 曾慶生,周波,張程,陳信元. 管理世界. 2018(09)
[5]金融科技媒體情緒的刻畫與對(duì)網(wǎng)貸市場(chǎng)的影響[J]. 王靖一,黃益平. 經(jīng)濟(jì)學(xué)(季刊). 2018(04)
[6]基于網(wǎng)絡(luò)大數(shù)據(jù)挖掘的實(shí)證資產(chǎn)定價(jià)研究進(jìn)展[J]. 張學(xué)勇,吳雨玲. 經(jīng)濟(jì)學(xué)動(dòng)態(tài). 2018(06)
[7]投資者關(guān)注和股市表現(xiàn)——基于雪球關(guān)注度的研究[J]. 孫書娜,孫謙. 管理科學(xué)學(xué)報(bào). 2018(06)
[8]借款描述的可讀性能夠提高網(wǎng)絡(luò)借款成功率嗎[J]. 陳霄,葉德珠,鄧潔. 中國(guó)工業(yè)經(jīng)濟(jì). 2018(03)
[9]金融市場(chǎng)文本情緒研究進(jìn)展[J]. 唐國(guó)豪,姜富偉,張定勝. 經(jīng)濟(jì)學(xué)動(dòng)態(tài). 2016(11)
[10]分析師能有效發(fā)揮專業(yè)解讀信息的作用嗎?——基于漢字年報(bào)復(fù)雜性指標(biāo)的研究[J]. 丘心穎,鄭小翠,鄧可斌. 經(jīng)濟(jì)學(xué)(季刊). 2016(04)
本文編號(hào):3113277
【文章來源】:經(jīng)濟(jì)學(xué)動(dòng)態(tài). 2020,(04)北大核心CSSCI
【文章頁數(shù)】:16 頁
【部分圖文】:
文本大數(shù)據(jù)分析流程圖
詞嵌入是將維數(shù)為所有詞的數(shù)量的高維空間嵌入到低維連續(xù)向量空間中的技術(shù)。通過詞嵌入技術(shù),可以將詞語映射成低維連續(xù)向量空間中的向量,通過向量之間的距離和位置來表示文檔中詞語的上下文、語法和語義的相似性以及與其他詞語的關(guān)系。在金融學(xué)文本分析中,Word2Vec技術(shù)是常用的詞嵌入技術(shù),包括CBOW(continuous bag of words)和Skip-Gram神經(jīng)網(wǎng)絡(luò)模型,可以通過訓(xùn)練使神經(jīng)網(wǎng)絡(luò)捕捉到更多詞語之間的上下文信息,從而將每個(gè)詞語映射成更低維度、稠密且包含更多語義信息的向量(Mikolov et al,2013)。在Word2Vec技術(shù)中,詞嵌入向量能得到不同詞之間的類比關(guān)系,最經(jīng)典的例子就是“king-queen=man-woman”,如圖2所示。4.主題模型。
【參考文獻(xiàn)】:
期刊論文
[1]言之有物:網(wǎng)絡(luò)借貸中語言有用嗎?——來自人人貸借款描述的經(jīng)驗(yàn)證據(jù)[J]. 彭紅楓,林川. 金融研究. 2018(11)
[2]社會(huì)關(guān)系與企業(yè)信息披露質(zhì)量——基于中國(guó)上市公司年報(bào)的文本分析[J]. 任宏達(dá),王琨. 南開管理評(píng)論. 2018(05)
[3]年報(bào)風(fēng)險(xiǎn)信息披露與審計(jì)費(fèi)用——基于文本余弦相似度視角[J]. 王雄元,高曦,何捷. 審計(jì)研究. 2018(05)
[4]年報(bào)語調(diào)與內(nèi)部人交易:“表里如一”還是“口是心非”?[J]. 曾慶生,周波,張程,陳信元. 管理世界. 2018(09)
[5]金融科技媒體情緒的刻畫與對(duì)網(wǎng)貸市場(chǎng)的影響[J]. 王靖一,黃益平. 經(jīng)濟(jì)學(xué)(季刊). 2018(04)
[6]基于網(wǎng)絡(luò)大數(shù)據(jù)挖掘的實(shí)證資產(chǎn)定價(jià)研究進(jìn)展[J]. 張學(xué)勇,吳雨玲. 經(jīng)濟(jì)學(xué)動(dòng)態(tài). 2018(06)
[7]投資者關(guān)注和股市表現(xiàn)——基于雪球關(guān)注度的研究[J]. 孫書娜,孫謙. 管理科學(xué)學(xué)報(bào). 2018(06)
[8]借款描述的可讀性能夠提高網(wǎng)絡(luò)借款成功率嗎[J]. 陳霄,葉德珠,鄧潔. 中國(guó)工業(yè)經(jīng)濟(jì). 2018(03)
[9]金融市場(chǎng)文本情緒研究進(jìn)展[J]. 唐國(guó)豪,姜富偉,張定勝. 經(jīng)濟(jì)學(xué)動(dòng)態(tài). 2016(11)
[10]分析師能有效發(fā)揮專業(yè)解讀信息的作用嗎?——基于漢字年報(bào)復(fù)雜性指標(biāo)的研究[J]. 丘心穎,鄭小翠,鄧可斌. 經(jīng)濟(jì)學(xué)(季刊). 2016(04)
本文編號(hào):3113277
本文鏈接:http://sikaile.net/jingjilunwen/huobiyinxinglunwen/3113277.html
最近更新
教材專著