面向結(jié)構(gòu)理解的流式文檔語料庫構(gòu)建方法研究
發(fā)布時(shí)間:2021-01-31 18:21
近年來,流式文檔廣泛地應(yīng)用在社交、媒體、辦公以及出版等領(lǐng)域。面對(duì)海量的流式文檔,如何使計(jì)算機(jī)自動(dòng)、準(zhǔn)確地理解文檔成為了各行各業(yè)開展其他應(yīng)用研究的基礎(chǔ)。其中對(duì)流式文檔結(jié)構(gòu)的理解,一方面可為文檔檢查優(yōu)化、文檔自動(dòng)排版、結(jié)構(gòu)化檢索等應(yīng)用奠定基礎(chǔ),另一方面也可輔助篇章層次分析、文章主題抽取等更高層次的語義研究,有較大的應(yīng)用價(jià)值。由于流式文檔格式的復(fù)雜性、排版風(fēng)格的差異性等因素,導(dǎo)致計(jì)算機(jī)自動(dòng)理解其結(jié)構(gòu)較為困難。傳統(tǒng)的基于規(guī)則的文檔結(jié)構(gòu)理解技術(shù)已較為成熟,但使用規(guī)則匹配文檔結(jié)構(gòu)時(shí),存在制定規(guī)則費(fèi)時(shí)費(fèi)力、方法可移植性差的問題;跈C(jī)器學(xué)習(xí)的文檔邏輯結(jié)構(gòu)識(shí)別方法有較好的通用性與擴(kuò)展性,然而流式文檔格式復(fù)雜、標(biāo)注困難、過去積累的成果較少,導(dǎo)致機(jī)器學(xué)習(xí)方法用于流式文檔結(jié)構(gòu)理解面臨著標(biāo)注成本過高、語料庫稀缺的問題。本文針對(duì)上述問題,研究面向結(jié)構(gòu)理解的流式文檔語料庫構(gòu)建理論與方法,包括流式文檔邏輯結(jié)構(gòu)標(biāo)注體系的確立與標(biāo)注方法的研究、流式文檔邏輯結(jié)構(gòu)語料庫的構(gòu)建與評(píng)價(jià)方法等關(guān)鍵問題,研究內(nèi)容和創(chuàng)新成果包括:1、針對(duì)采用機(jī)器學(xué)習(xí)方法識(shí)別流式文檔結(jié)構(gòu)時(shí),語料庫稀少,語料標(biāo)注復(fù)雜的問題,借鑒自然語言語料庫構(gòu)建的成熟...
【文章來源】:北京信息科技大學(xué)北京市
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
文檔邏輯結(jié)構(gòu)標(biāo)注語料庫總體構(gòu)建框架
第3章面向結(jié)構(gòu)理解的流式文檔多層次信息標(biāo)注體系研究14文件。圖3.1Word文檔壓縮包內(nèi)容WordprocessingML是OOXML中用于生成和創(chuàng)建Word文件所使用的置標(biāo)語言。它是OOXML的一部分。表3.1中列出了一些基本的Word文檔部件,包括對(duì)各部件名稱與其描述內(nèi)容說明。表3.1常見部件介紹部件名稱描述內(nèi)容說明app.xml應(yīng)用程序特定的屬性core.xml文檔格式的通用文件屬性。theme1.xml文檔的主題的所有信息,如顏色,字體大小等document.xml文檔中所有可見文字的內(nèi)容和屬性及不可見部分的內(nèi)容和屬性fontTable.xml文檔所使用的字體信息settings.xml文檔總體的設(shè)置信息style.xml文檔整體樣式信息webSettings.xml文檔左右間距等的樣式信息comments.xml文檔中的批注信息footnotes.xml文檔中的腳注部分信息document.xml是Word文檔的主部件,存儲(chǔ)著文檔中所有的文字內(nèi)容和屬性,圖3.2是一個(gè)最簡(jiǎn)單的document.xml文檔結(jié)構(gòu)(圖中省略部分標(biāo)簽)?梢钥吹剑臋n的根元素是w:document,其中包含有多個(gè)塊級(jí)元素w:p,表示文檔中的一個(gè)自然段落;w:p中可包含多個(gè)w:r,表示一段包含字體、字號(hào)等常見格式屬性的連續(xù)文本;w:r還可以包含多個(gè)w:t,表示一段文本范圍。另外,w:p中有w:pPr標(biāo)簽用來描述段落格式屬性,w:r中有w:rPr標(biāo)簽用來描述文本格式屬性,包含描述字號(hào)w:szCs、對(duì)齊方式w:jc、首行縮進(jìn)w:ind等排版格式的標(biāo)簽?梢娢臋n內(nèi)容在底層表現(xiàn)為使用w:p標(biāo)簽描述的段落序列,并與樣式等數(shù)據(jù)相關(guān)聯(lián)。因此OOXML標(biāo)準(zhǔn)作為辦公文檔的一種存儲(chǔ)格式,能夠記錄文檔內(nèi)容并提供豐富的排版樣式,但在文檔語義信息方面的描述能力較弱,也不能記錄層次化的文檔結(jié)構(gòu)語義信息。
第 3 章 面向結(jié)構(gòu)理解的流式文檔多層次信息標(biāo)注體系研究(Semantic Publishing and Referencing Ontologies, SPAR)中的子模塊。SPAR 由英國牛津大學(xué) D.Shotton 和意大利博洛尼亞大學(xué) S.Peroni 共同構(gòu)建,旨在改善出版領(lǐng)域現(xiàn)有詞表存在的內(nèi)容不全、針對(duì)性不強(qiáng)等問題,廣泛應(yīng)用在語義出版領(lǐng)域。DoCO 融合了模式本體(Pattern Ontology, PO)和話語元素本體(Discourse Element Ontology, DEO),能夠從結(jié)構(gòu)和修辭兩個(gè)方面描述文檔組件,但其總體為平行結(jié)構(gòu),缺乏對(duì)本體之間的層級(jí)描述,難以對(duì)文檔內(nèi)容進(jìn)行結(jié)構(gòu)化描述。圖 3.3 描述了組成文檔組件本體的本體類。
【參考文獻(xiàn)】:
期刊論文
[1]面向機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集均衡化方法[J]. 李國和,張騰,吳衛(wèi)江,洪云峰,周曉明. 計(jì)算機(jī)工程與設(shè)計(jì). 2019(03)
[2]不平衡數(shù)據(jù)挖掘方法綜述[J]. 向鴻鑫,楊云. 計(jì)算機(jī)工程與應(yīng)用. 2019(04)
[3]一種基于質(zhì)心空間的不均衡數(shù)據(jù)欠采樣方法[J]. 金旭,王磊,孫國梓,李華康. 計(jì)算機(jī)科學(xué). 2019(02)
[4]面向事件的中文指代語料庫的構(gòu)建[J]. 張亞軍,劉宗田,李強(qiáng),周文. 上海大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[5]面向藏語聲紋識(shí)別的語料庫建設(shè)[J]. 周雁,西繞多吉. 計(jì)算機(jī)工程與科學(xué). 2018(11)
[6]中文嵌套命名實(shí)體識(shí)別語料庫的構(gòu)建[J]. 李雁群,何云琪,錢龍華,周國棟. 中文信息學(xué)報(bào). 2018(08)
[7]基于中文電子病歷的心血管疾病風(fēng)險(xiǎn)因素標(biāo)注體系及語料庫構(gòu)建[J]. 蘇嘉,何彬,吳昊,楊錦鋒,關(guān)毅,姜京池,王煥政,于秋濱. 自動(dòng)化學(xué)報(bào). 2019(02)
[8]基于三支決策的不平衡數(shù)據(jù)過采樣方法[J]. 胡峰,王蕾,周耀. 電子學(xué)報(bào). 2018(01)
[9]基于VBA的Word文檔XML結(jié)構(gòu)化標(biāo)記方法[J]. 侯修洲,黃延紅. 編輯學(xué)報(bào). 2017(05)
[10]一種流式文檔邏輯結(jié)構(gòu)重建方法[J]. 趙雪,侯霞. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(05)
博士論文
[1]語料庫研究[D]. 何婷婷.華中師范大學(xué) 2003
碩士論文
[1]基于B/S架構(gòu)的語料庫管理系統(tǒng)[D]. 于娜娜.哈爾濱理工大學(xué) 2017
[2]面向中文維基百科模糊限制信息檢測(cè)的語料庫建設(shè)與研究[D]. 曾春橋.大連理工大學(xué) 2014
[3]古代漢語史書語料庫建設(shè)的初步研究[D]. 宋文瑞.東北大學(xué) 2011
本文編號(hào):3011365
【文章來源】:北京信息科技大學(xué)北京市
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
文檔邏輯結(jié)構(gòu)標(biāo)注語料庫總體構(gòu)建框架
第3章面向結(jié)構(gòu)理解的流式文檔多層次信息標(biāo)注體系研究14文件。圖3.1Word文檔壓縮包內(nèi)容WordprocessingML是OOXML中用于生成和創(chuàng)建Word文件所使用的置標(biāo)語言。它是OOXML的一部分。表3.1中列出了一些基本的Word文檔部件,包括對(duì)各部件名稱與其描述內(nèi)容說明。表3.1常見部件介紹部件名稱描述內(nèi)容說明app.xml應(yīng)用程序特定的屬性core.xml文檔格式的通用文件屬性。theme1.xml文檔的主題的所有信息,如顏色,字體大小等document.xml文檔中所有可見文字的內(nèi)容和屬性及不可見部分的內(nèi)容和屬性fontTable.xml文檔所使用的字體信息settings.xml文檔總體的設(shè)置信息style.xml文檔整體樣式信息webSettings.xml文檔左右間距等的樣式信息comments.xml文檔中的批注信息footnotes.xml文檔中的腳注部分信息document.xml是Word文檔的主部件,存儲(chǔ)著文檔中所有的文字內(nèi)容和屬性,圖3.2是一個(gè)最簡(jiǎn)單的document.xml文檔結(jié)構(gòu)(圖中省略部分標(biāo)簽)?梢钥吹剑臋n的根元素是w:document,其中包含有多個(gè)塊級(jí)元素w:p,表示文檔中的一個(gè)自然段落;w:p中可包含多個(gè)w:r,表示一段包含字體、字號(hào)等常見格式屬性的連續(xù)文本;w:r還可以包含多個(gè)w:t,表示一段文本范圍。另外,w:p中有w:pPr標(biāo)簽用來描述段落格式屬性,w:r中有w:rPr標(biāo)簽用來描述文本格式屬性,包含描述字號(hào)w:szCs、對(duì)齊方式w:jc、首行縮進(jìn)w:ind等排版格式的標(biāo)簽?梢娢臋n內(nèi)容在底層表現(xiàn)為使用w:p標(biāo)簽描述的段落序列,并與樣式等數(shù)據(jù)相關(guān)聯(lián)。因此OOXML標(biāo)準(zhǔn)作為辦公文檔的一種存儲(chǔ)格式,能夠記錄文檔內(nèi)容并提供豐富的排版樣式,但在文檔語義信息方面的描述能力較弱,也不能記錄層次化的文檔結(jié)構(gòu)語義信息。
第 3 章 面向結(jié)構(gòu)理解的流式文檔多層次信息標(biāo)注體系研究(Semantic Publishing and Referencing Ontologies, SPAR)中的子模塊。SPAR 由英國牛津大學(xué) D.Shotton 和意大利博洛尼亞大學(xué) S.Peroni 共同構(gòu)建,旨在改善出版領(lǐng)域現(xiàn)有詞表存在的內(nèi)容不全、針對(duì)性不強(qiáng)等問題,廣泛應(yīng)用在語義出版領(lǐng)域。DoCO 融合了模式本體(Pattern Ontology, PO)和話語元素本體(Discourse Element Ontology, DEO),能夠從結(jié)構(gòu)和修辭兩個(gè)方面描述文檔組件,但其總體為平行結(jié)構(gòu),缺乏對(duì)本體之間的層級(jí)描述,難以對(duì)文檔內(nèi)容進(jìn)行結(jié)構(gòu)化描述。圖 3.3 描述了組成文檔組件本體的本體類。
【參考文獻(xiàn)】:
期刊論文
[1]面向機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集均衡化方法[J]. 李國和,張騰,吳衛(wèi)江,洪云峰,周曉明. 計(jì)算機(jī)工程與設(shè)計(jì). 2019(03)
[2]不平衡數(shù)據(jù)挖掘方法綜述[J]. 向鴻鑫,楊云. 計(jì)算機(jī)工程與應(yīng)用. 2019(04)
[3]一種基于質(zhì)心空間的不均衡數(shù)據(jù)欠采樣方法[J]. 金旭,王磊,孫國梓,李華康. 計(jì)算機(jī)科學(xué). 2019(02)
[4]面向事件的中文指代語料庫的構(gòu)建[J]. 張亞軍,劉宗田,李強(qiáng),周文. 上海大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[5]面向藏語聲紋識(shí)別的語料庫建設(shè)[J]. 周雁,西繞多吉. 計(jì)算機(jī)工程與科學(xué). 2018(11)
[6]中文嵌套命名實(shí)體識(shí)別語料庫的構(gòu)建[J]. 李雁群,何云琪,錢龍華,周國棟. 中文信息學(xué)報(bào). 2018(08)
[7]基于中文電子病歷的心血管疾病風(fēng)險(xiǎn)因素標(biāo)注體系及語料庫構(gòu)建[J]. 蘇嘉,何彬,吳昊,楊錦鋒,關(guān)毅,姜京池,王煥政,于秋濱. 自動(dòng)化學(xué)報(bào). 2019(02)
[8]基于三支決策的不平衡數(shù)據(jù)過采樣方法[J]. 胡峰,王蕾,周耀. 電子學(xué)報(bào). 2018(01)
[9]基于VBA的Word文檔XML結(jié)構(gòu)化標(biāo)記方法[J]. 侯修洲,黃延紅. 編輯學(xué)報(bào). 2017(05)
[10]一種流式文檔邏輯結(jié)構(gòu)重建方法[J]. 趙雪,侯霞. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(05)
博士論文
[1]語料庫研究[D]. 何婷婷.華中師范大學(xué) 2003
碩士論文
[1]基于B/S架構(gòu)的語料庫管理系統(tǒng)[D]. 于娜娜.哈爾濱理工大學(xué) 2017
[2]面向中文維基百科模糊限制信息檢測(cè)的語料庫建設(shè)與研究[D]. 曾春橋.大連理工大學(xué) 2014
[3]古代漢語史書語料庫建設(shè)的初步研究[D]. 宋文瑞.東北大學(xué) 2011
本文編號(hào):3011365
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3011365.html
最近更新
教材專著