天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

公司研報中投資要點提取方法的研究

發(fā)布時間:2021-10-07 19:42
  投資要點是人們進(jìn)行投資決策的重要信息來源,一般出現(xiàn)在公司研報首頁。除了投資要點,首頁還包含股票名稱、股票代碼、標(biāo)題、分析師信息以及圖表數(shù)據(jù)等。金融機(jī)構(gòu)發(fā)布的公司研報大多為PDF格式,而PDF文檔中的文本不便于直接處理。另外,基于規(guī)則或基于模型的方法提取公司研報投資要點的準(zhǔn)確率不高;谝陨蠁栴},本文通過分析公司研報的版面布局結(jié)構(gòu),并借鑒VIPS算法,提出了一種公司研報投資要點的提取方法,該方法的主要工作包括兩個部分:(1)基于視覺線索的PDF頁面分塊算法的設(shè)計與實現(xiàn)。通過對PDF文檔的邏輯結(jié)構(gòu)、物理結(jié)構(gòu)以及基本對象的研究,本文借助PDFBox解析PDF文檔,并將相關(guān)信息封裝到本文所設(shè)計的數(shù)據(jù)結(jié)構(gòu)中。然后,通過分析公司研報首頁版面的布局結(jié)構(gòu)以及PDF頁面分塊與網(wǎng)頁分塊的相似性,本文基于同一語義內(nèi)容在PDF頁面中具有相同或相似的視覺表現(xiàn),設(shè)計了基于視覺線索的PDF頁面分塊算法,主要包括分隔條檢測,分隔條打分以及塊的重構(gòu)。在分隔條的打分策略中,本文設(shè)計了23條規(guī)則;而在塊重構(gòu)方面,本文設(shè)計了5個參數(shù)用于調(diào)整PDF文檔的分塊粒度以及深度。(2)基于PDF頁面分塊提取公司研報投資要點。在PDF頁... 

【文章來源】:西北師范大學(xué)甘肅省

【文章頁數(shù)】:88 頁

【學(xué)位級別】:碩士

【圖文】:

公司研報中投資要點提取方法的研究


天風(fēng)證券公司研報首頁

文檔,書簽,線索,頁面


西北師范大學(xué)碩士學(xué)位論文12性。每個頁面中都包含對其內(nèi)容(Contents)、注釋(Annotations)以及縮略圖(Thumbnail)的引用,從各個頁面可以方便地查找到所需的資源。名字樹:該引用建立了字符串與頁面區(qū)域之間的關(guān)聯(lián)關(guān)系,其他對象可以通過該字符串名代表一個頁面區(qū)域,包括顯示區(qū)域的坐標(biāo)位置,顯示區(qū)域的大小比例等信息。線索樹:線索樹通過樹結(jié)構(gòu)來組織文章線索和文章塊(Bead)之間的關(guān)系,通過線索樹可以將物理上不連續(xù)的內(nèi)容在邏輯上將其串聯(lián)。線索塊是頁面中一些預(yù)定義的區(qū)域,這些區(qū)域中主要包含一些用戶感興趣的文本或圖像信息[45]。書簽樹:書簽樹中每個節(jié)點都是一個書簽,每個書簽都與文檔中的一個區(qū)域相關(guān)聯(lián),用戶可以通過書簽快速跳轉(zhuǎn)到指定的區(qū)域,訪問相應(yīng)的內(nèi)容。根節(jié)點(Catalog)頁面樹(Pagetree)名字樹(Nameddestinations)線索樹(Articlethreads)書簽樹(Outlinehierarchy)頁面(Page)頁面(Page)線索樹(Thread)線索樹(Thread)縮略圖(Thumbnail)內(nèi)容(Contents)注釋(Annotations)文章塊(Bead)文章塊(Bead)...書簽名(Outlineentry).........書簽名(Outlineentry)...圖2-3PDF文檔的邏輯結(jié)構(gòu)2.2.3PDF文檔實例解析本文通過簡單的PDF文檔介紹PDF文檔的解析。由于PDF文檔的文件尾中包含了交叉引用表的訪問地址和根對象號等信息,是解析PDF文檔的起點,所以本小節(jié)以文件尾,交叉引用表,文件頭,文件體的順序進(jìn)行介紹,PDF文檔如圖2-4所示。圖2-4簡單PDF文檔

源碼,文檔,信息,對象


第2章相關(guān)理論與技術(shù)介紹15第1~13行:頁面對象6!/Type/Page”表示當(dāng)前對象為頁面對象;“Parent40R”表示當(dāng)前對象的父親對象的對象號為4;“MediaBox[00531666]”表示當(dāng)前頁面顯示的大小,以像素為單位;“/Resources<</Font<</FXF170R>>>>”表示資源對象中的字體對象的對象號為7;“/Contents80R”表示頁面內(nèi)容對象的對象號為8;第14~18行:字體對象7!/Type/Font/”表示當(dāng)前對象為字體對象;“/Subtype/Type1”表示字體類型為Type1;“/BaseFont/Helvetica”表示字體繼承于Helvetica字體;“/Encoding/WinAnsiEncoding”表示字體的編碼為WinAnsiEncoding。圖2-5PDF文檔內(nèi)容對象源碼信息使用UltraEdit工具打開PDF文檔,Contents內(nèi)容對象如圖2-5所示,如果不使用有效的解碼器對其進(jìn)行解碼則無法獲得內(nèi)容對象中的真實信息。參考PDFReference可知內(nèi)容對象中的數(shù)據(jù)需要通過/Filter關(guān)鍵字之后的解碼器解壓才能得到原始內(nèi)容。使用PDFStreamDumper對PDF文檔解碼后可得內(nèi)容對象中的信息如下所示:180obj2<</Length106/Filter/FlateDecode>>3stream4BT5/DeviceRGBcs000scn/DeviceRGBCS000SCN/FXF110Tf10.343600613.400Tm1i1.3740941.1952TD[(Hello)]TJ7ET8endstream9endobj第2行:“/Length106”表示流對象的長度為106;“/Filter/FlateDecode”表示流對象的壓縮方式為FlateDecode;第3行:流對象的開始標(biāo)志;第4~7行:流對象中的內(nèi)容。BT表示文字對象的開始標(biāo)志;ET表示文字對象的結(jié)束標(biāo)志;“/DeviceRGBcs000scn”表示顏色空間,DeviceRGB表示設(shè)備顏色空間,主要使用在顯示器上;cs為填充操作符,設(shè)備顏色空間000分別表示紅、

【參考文獻(xiàn)】:
期刊論文
[1]基于標(biāo)簽和分塊特征的新聞網(wǎng)頁關(guān)鍵信息自動抽取[J]. 王雪梅,陳興蜀,王海舟,王文賢.  山東大學(xué)學(xué)報(理學(xué)版). 2019(03)
[2]面向期刊論文的搜索技術(shù)的研究與設(shè)計[J]. 郭峰,韓云鳳.  信息技術(shù). 2018(08)
[3]一種規(guī)則與SVM結(jié)合的論文抽取方法[J]. 李雪駒,王智廣,魯強(qiáng).  計算機(jī)技術(shù)與發(fā)展. 2017(10)
[4]基于PDFBox抽取學(xué)術(shù)論文信息的實現(xiàn)[J]. 牛永潔,薛蘇琴.  計算機(jī)技術(shù)與發(fā)展. 2014(12)
[5]基于自動機(jī)理論的PDF文本內(nèi)容抽取[J]. 王曉娟,譚建龍,劉燕兵,劉金剛.  計算機(jī)應(yīng)用. 2012(09)
[6]基于SVM的論文元數(shù)據(jù)抽取方法研究[J]. 歐陽輝,祿樂濱.  電子設(shè)計工程. 2010(05)
[7]PDF科技論文語義元數(shù)據(jù)的自動抽取研究[J]. 張秀秀,馬建霞.  現(xiàn)代圖書情報技術(shù). 2009(02)
[8]基于XSLT的PDF信息抽取技術(shù)的研究[J]. 宋艷娟,李金銘,陳振標(biāo).  計算機(jī)與數(shù)字工程. 2008(05)
[9]元數(shù)據(jù)自動抽取研究新進(jìn)展[J]. 曾蘇,馬建霞,張秀秀.  現(xiàn)代圖書情報技術(shù). 2008(04)
[10]支持向量機(jī)在多類分類問題中的推廣[J]. 劉志剛,李德仁,秦前清,史文中.  計算機(jī)工程與應(yīng)用. 2004(07)

碩士論文
[1]基于Stacking技術(shù)的入侵檢測系統(tǒng)的設(shè)計與實現(xiàn)[D]. 莫坤.北京郵電大學(xué) 2019
[2]基于改進(jìn)VIPS算法和改進(jìn)灰狼優(yōu)化算法的主題爬蟲[D]. 蕭婧婕.華東師范大學(xué) 2019
[3]基于網(wǎng)頁分塊的主題爬蟲技術(shù)研究[D]. 周雪.山東師范大學(xué) 2017
[4]基于視覺塊識別的網(wǎng)頁元數(shù)據(jù)提取方法[D]. 孫景春.東南大學(xué) 2017
[5]混合核支持向量機(jī)在地鐵客流預(yù)測中的應(yīng)用研究[D]. 趙麗琴.蘭州交通大學(xué) 2015
[6]基于文檔屬性的PDF數(shù)學(xué)表達(dá)式信息獲取[D]. 于波濤.河北大學(xué) 2015
[7]一種面向PDF文件的表格數(shù)據(jù)抽取方法的研究與實現(xiàn)[D]. 唐皓瑾.北京郵電大學(xué) 2015
[8]基于多級模型的金融異構(gòu)信息獲取與預(yù)測分析[D]. 房佳.哈爾濱工業(yè)大學(xué) 2014
[9]基于SVM的文本分類應(yīng)用研究[D]. 伍岳.電子科技大學(xué) 2014
[10]金融領(lǐng)域信息的自動抽取與分析方法[D]. 馬晶晶.哈爾濱工業(yè)大學(xué) 2013



本文編號:3422654

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3422654.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a2792***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com