基于企業(yè)價值評估的金融數(shù)據(jù)智能提取方法研究
1導(dǎo)論
1.1研究背景及意義
由于關(guān)鍵字檢索技術(shù)不能滿足一些場合的需求,近些年,一些新的研究也開始著力于提高信息檢索技術(shù)的效率和準(zhǔn)確性。信息提取技術(shù)就是其中一種獲取特定事件或者事件與事件之間關(guān)系的技術(shù),是一個從無結(jié)構(gòu)的自由文本或其他信息資源中抽取出結(jié)構(gòu)化,無二義性信息的過程。信息提取技術(shù)不僅僅能過濾掉對用戶沒有用的信息,而且還能生成用戶感興趣的特定信息。信息提取技術(shù)綜合了人工智能和自然語言處理技術(shù),在信息檢索領(lǐng)域扮演著不可或缺的角色。
對企業(yè)市場價值進(jìn)行評估,例如無形資產(chǎn)的評估,需要這家公司的所有金融的數(shù)據(jù)及所處行業(yè)的金融數(shù)據(jù),包括公司的財務(wù)報表和報表的附注,相關(guān)的產(chǎn)業(yè)財經(jīng)新聞及宏觀微觀經(jīng)濟(jì)數(shù)據(jù)等。這些數(shù)據(jù)大部分都以網(wǎng)頁源收集整理相關(guān)的金融數(shù)據(jù),仔細(xì)整理分析過濾出來自己想要的數(shù)據(jù),而沒有一個地方直接能夠拿到所有想要的數(shù)據(jù),這樣花費(fèi)了大量人力和時間,而且大部分工作都是重復(fù)的勞動。所以,本研究致力于通過一種自動智能的方式從不同的數(shù)據(jù)源提取金融數(shù)據(jù),用戶不僅能在最短時間里拿到自己想要的數(shù)據(jù),同時能夠提髙數(shù)據(jù)準(zhǔn)確性和有效性。在拿到這些數(shù)據(jù)之后,根據(jù)預(yù)先設(shè)立評估的模型,得出企業(yè)價值評估結(jié)果,這樣將大大提髙決策效率,為股票投資,兼并重組,財務(wù)風(fēng)險評估等金融相關(guān)的決策提供支持。
..........................
1.2研究對象及思路
本研究的目標(biāo)是使用現(xiàn)代信息提取技術(shù)分析出一套金融信息智能提取方法,然后結(jié)合金融知識,設(shè)計開發(fā)一個計算機(jī)程序,快速智能從財務(wù)報表,報表的附注已經(jīng)相關(guān)財經(jīng)新聞等提取金融數(shù)據(jù),來進(jìn)行企業(yè)價值評估。其中財務(wù)報表來源于財經(jīng)網(wǎng)站金融界,報表的附注來此CNinfo網(wǎng)站,財經(jīng)新聞主要來自金融界等財經(jīng)網(wǎng)站。一旦獲得這些金融數(shù)據(jù),可應(yīng)用于企業(yè)各種經(jīng)營活動當(dāng)中,節(jié)省人力資本及提高決策效率。
為了能從財務(wù)報表,報表附注以及金融新聞提取數(shù)據(jù)來進(jìn)行企業(yè)價值評估,主要從以下兩方面著手:
1.關(guān)鍵字檢索和提取
首先,給用來從金融數(shù)據(jù)和報表附注提取金融數(shù)據(jù)的關(guān)鍵字自定義中文詞的詞性及做詞性標(biāo)記,然后,設(shè)計一個方法來根據(jù)這些預(yù)定義的詞性標(biāo)記和詞的屬性來從金融新聞和報表附法提取金融數(shù)據(jù)。同時本文還將利用正側(cè)表達(dá)式來快速識別和提取財務(wù)報表中每個項(xiàng)目的金融數(shù)據(jù)。
2.分析和設(shè)計一個企業(yè)價值評估的數(shù)據(jù)庫系統(tǒng)
根據(jù)企業(yè)價值評估模型,分析和設(shè)計一個企業(yè)價值評估的數(shù)據(jù)庫系統(tǒng),這個系統(tǒng)描敘了評估模型和財務(wù)報表項(xiàng)目的之間關(guān)系。換句話說,根據(jù)預(yù)定義在數(shù)據(jù)庫中評估模型,從不同數(shù)據(jù)源中智能提取相關(guān)的金融數(shù)據(jù)。一旦所需的金融數(shù)據(jù)提取完成,就能快速分析與計算出評估結(jié)果。
..........................
2理論基礎(chǔ)
2.1智能信息提取
信息提取可以用于從不同類型的數(shù)據(jù)源來獲取有用的信息,用戶通過這些有用的信息能快速理解這些文檔。在互聯(lián)網(wǎng)上的純文本的網(wǎng)頁,是非結(jié)構(gòu)化的文檔。根據(jù)預(yù)先定義的模板,它能從這些文檔中獲取特定的信息,并且生成一些用戶感興趣的數(shù)據(jù)字段。簡單來講就是,信息提取能夠從大量的不同類型的數(shù)據(jù)提取有用的信息,最終來幫助用戶快速的理解文檔。因此,信息提取在文本的處理中扮演了重要的角色。
信息提取技術(shù)提供用戶感興趣的信息。它的技術(shù)依賴于自然語言的處理,提取形成特定信息或者概念的詞匯。自然語言處理,讓計算機(jī)能理解人類的語言,并且能讓其理解人類的知識庫,最終達(dá)到計算機(jī)和人類的能夠進(jìn)行有效的溝通。它也通常應(yīng)用在信息的檢索領(lǐng)域",例如問答系統(tǒng),分檔的分類,機(jī)器翻譯,寫作助手,語音識別等。在自然語言處理當(dāng)中,智能分詞和詞匯分析是常用方法。
結(jié)構(gòu)化的數(shù)據(jù),或者說表格數(shù)據(jù)是一種簡單標(biāo)準(zhǔn)化的數(shù)據(jù)。表格數(shù)據(jù)由于比較規(guī)范,用戶很快能夠了解,對于計算機(jī)而言,只需要知道真結(jié)構(gòu),就能快速的提取需要的數(shù)據(jù)。
...........................
2.2中文詞性標(biāo)注
詞性的概念源自于語言學(xué),表不某個詞在語言學(xué)上的分類。在傳統(tǒng)上,送些分類是根據(jù)詞在詞形和句法上的不同行為和不同功能劃分的。如果詞能夠出現(xiàn)在相似的環(huán)境中(分布特征),就把它們歸為一類。同一類的詞會有語義一致性的傾向,但語義的一致性并不總是必要的,所以—般來說我們不是用語義一致性作為定義詞性的標(biāo)準(zhǔn)。常見的詞性包括名詞(描寫"人、地點(diǎn)或事物")、形容詞(描寫"性質(zhì)")和動詞(描寫"動作")等。
詞性標(biāo)注主要是用來消除分詞時產(chǎn)生的歧義,利用上下文來消除詞的歧義。在中文的系統(tǒng)里,同一個詞有完全不同的含義,但是往往他們在句子中扮演了不同的角色,或者在不同的句子結(jié)構(gòu)里面有不同的含義。例如下面的句子:S1="他是北京大學(xué)的教授"。S2="他在北京大學(xué)教授計算語言學(xué)"。在句子S1中,"教授"是一個表示職稱的名詞,而句子52中"教授"是一個動詞。對人來說,這樣的詞性歧義現(xiàn)象比較容易排除,但是對于沒有先驗(yàn)知識的機(jī)器來說是比較困難的。這種語言現(xiàn)象稱作詞性兼類。這在漢語中很突出,據(jù)不完全統(tǒng)計,常見的詞性兼類現(xiàn)象有幾十種,這些兼類現(xiàn)象具有下分布特征:1)在漢語詞匯中,兼類詞的數(shù)量不多,約占總詞條的5-11%。2)兼類詞的實(shí)際使用頻率很高,約占總詞次的40-45%。也就是說,越是常用的詞,其詞性兼類現(xiàn)象越嚴(yán)重。3)兼類詞現(xiàn)象分布不均:在孫茂松等的統(tǒng)計中,僅動名兼類就占全部兼類現(xiàn)象的49.8%;在張民門的統(tǒng)計中,動名兼類和形副兼類就占全部113種兼類現(xiàn)象的62.5%。
............................
3基于企業(yè)價值評估的金融數(shù)據(jù)智能提取方法...............11
3.1財務(wù)報表的金融數(shù)據(jù)智能提取................12
3.1.1DOM樹方法............12
4基于企業(yè)價值評估的金融數(shù)據(jù)智能提取方法的程序設(shè)計................22
4.1爬網(wǎng)蛛設(shè)計..................22
4.1.1URL處理模塊..................23
5基于企業(yè)價值評估的金融數(shù)據(jù)智能提取方法的應(yīng)用...............32
5.1智能提取方法在企業(yè)并購重組中的應(yīng)用....................33
5.2智能提取方法在企業(yè)股票投資中的應(yīng)用.................35
5基于企業(yè)價值評估的金融數(shù)據(jù)智能提取方法的應(yīng)用
5.1智能提取方法在企業(yè)并購重組中的應(yīng)用
在國內(nèi)市場上,中國證監(jiān)會已基本形成上市公司收購和資產(chǎn)重組為主要內(nèi)容、側(cè)重于發(fā)揮市場自治功能的較完善的規(guī)則體系。在證監(jiān)會的積極支持和規(guī)范下,近年國內(nèi)上市公司并購重組市場不斷發(fā)展,從規(guī)模上看,每年發(fā)生100多起,且呈逐年上升之勢,據(jù)有關(guān)統(tǒng)計,我國上市公司并購重組活動涉及的資金額已超過通過資本市場直接融資的資金額,凸顯出市場利用并購重組進(jìn)行存量調(diào)整、優(yōu)化資源配置的趨勢。從規(guī)范程度上看,上市公司并購重組行為日趨規(guī)范,市場化程度日益提高。
并購重組的核心是發(fā)現(xiàn)價值被低估的公司,或可通過協(xié)同效應(yīng)等為自身帶來更大價值的公司,因此離不開企業(yè)價值評估。并購重組通常包括重大資產(chǎn)重組、上市公司收購、上市公司定向發(fā)行新股購入資產(chǎn)以及上市公司股份回購四類,企業(yè)價值評估在這四類業(yè)務(wù)中均能發(fā)揮重要的作用。
過去,企業(yè)并購人員需要手工搜集整理被并購企業(yè)過去的經(jīng)營情況,包括過去五到十年的財務(wù)報表及企業(yè)經(jīng)營活動的一些公告和新聞,而且由于并購對象都在兩個或者兩個以上,,需要做橫向的對比。因此,通常對這些并購對象的企業(yè)價值評估都需要兩三周的時間,這樣很有可能被競爭對手奪得先機(jī),而導(dǎo)致并購計劃失敗。
............................
6結(jié)論
6.1全文總結(jié)
隨著互聯(lián)網(wǎng)信息的爆炸式増長,如何快速便捷地獲取和管理這些信息,成為當(dāng)前互聯(lián)網(wǎng)用戶亟待解決的重要問題。尤其是金融領(lǐng)域,現(xiàn)在大部分時候,人們還依賴手工的收集數(shù)據(jù),這樣既浪費(fèi)時間,同時準(zhǔn)確率也不高。信息提取技術(shù)的出現(xiàn)解決了這些問題,也成為當(dāng)前研究的熱點(diǎn)。
本文就數(shù)據(jù)智能提取技術(shù)在企業(yè)價值評估中的應(yīng)用進(jìn)行了深入分析和研究,并結(jié)合企業(yè)價值的評估模型,設(shè)計開發(fā)出一個原型系統(tǒng),從財務(wù)報表、報表附注及相關(guān)金融新聞提智能取數(shù)據(jù)快速并生成評估結(jié)果。在數(shù)據(jù)的智能提取的過程中,對現(xiàn)有的中文分詞和詞性標(biāo)注的結(jié)果進(jìn)行了重新標(biāo)注,大大提取了數(shù)據(jù)提取的精度和效率。根據(jù)評估模型,本文設(shè)計了一個評估的數(shù)據(jù)庫,利用這個數(shù)據(jù)庫,這個系統(tǒng)能自動從三大數(shù)據(jù)源獲取相關(guān)評估模型的金顯數(shù)據(jù)。
從實(shí)證研究和性能分析及在企業(yè)經(jīng)營活動中應(yīng)用來看,可以看到研究模型獲得了不錯的性能。這樣不僅僅能節(jié)省大量的時間,提高決策效率,而且利用這一原型系統(tǒng)能夠?yàn)槠髽I(yè)并購重組,企業(yè)股票投資及企業(yè)財務(wù)風(fēng)險等經(jīng)營管理活動提供準(zhǔn)確的數(shù)據(jù)。因此,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文研究的可行性與實(shí)用性。
參考文獻(xiàn)(略)
本文編號:554561
本文鏈接:http://sikaile.net/wenshubaike/kjzx/554561.html