文本標注平臺的設計原理與應用研究
本文關(guān)鍵詞:文本標注平臺的設計原理與應用研究,,由筆耕文化傳播整理發(fā)布。
《上海師范大學》 2014年
文本標注平臺的設計原理與應用研究
楊小梅
【摘要】:中國的語言在大型數(shù)據(jù)庫建設方面主要集中于語音和詞匯,而文本語法研究進展緩慢,導致這種情況主要有三方面的因素。首先,學術(shù)觀念的約束,忽視了文本型的語言資源;其次,研究方法的制約,阻礙了文本標注語法研究的發(fā)展;最后,研究人員的缺少,中國民族語言眾多而研究隊伍成員不多,F(xiàn)如今越來越多的語言學家意識到真實文本語料的重要性,文本標注的語法研究也逐步取得了一些成績,但當前用于語法標注與分析的文本處理方法和加工工具存在復雜繁瑣問題,對于中國語言而言普適性不夠好,尤其是處理有聲調(diào)的語言,因此,通過計算機技術(shù)支持重新設計與開發(fā)一個用于文本處理實現(xiàn)語法標注的研究平臺非常有必要且極其迫切的。 本文主要目標就是想實現(xiàn)一個更適合中國語言文本標注的語法研究平臺,具有實用性和高效性,語言學家可以高效、準確地完成生語料到熟語料的標注處理,建立語言學界一直都期盼的高效能隔行對照化格式的語言資源。本文重點論述了兩個方面,一方面,改善語料資源來源的途徑,豐富文本資源,擴大研究者自建的語料庫;另一方面,改進文本資源加工的方法,完善文本處理,準確高效地完成語法標注。本研究基礎技術(shù)由三個部分組成,輸入技術(shù)、文本處理技術(shù)和輸出技術(shù)。這三個部分的設計原理和解決策略構(gòu)建起來也就是本平臺的整體框架,為研究者提供一個更適合中國語言使用的語法研究平臺,用于語法分析與文本標注。全文共分為八章: 第一章:由語言資源與語法標注現(xiàn)狀分析進而說明本研究的必要性與重要性。 第二章:介紹文本標注平臺的整體框架,以及本文主要技術(shù)方法的設計原理。 第三章:通過本文提供的輸入技術(shù)可以獲取多種文本資源的來源方式,以及提出的語音快速錄入形成文本的新途徑。 第四章:詞典貫穿于整個研究平臺,詞典的重要性和詞典設置,重點介紹了文本與詞典的互動技術(shù),隔行對照化、跳轉(zhuǎn)插詞和詞典編輯的實現(xiàn)方法。 第五章:句法分析,面對多種語言本文提出了改進的匹配算法提高了文本分詞和匹配標注的效率性和準確性,重點闡述了文本分詞的重要性和實現(xiàn)策略。 第六章:形態(tài)分析,面對多種語言本文實現(xiàn)了屈折、粘著、變調(diào)、重疊和多義的語音語法語義現(xiàn)象的文本標注,提供了合理可行的解決方法。 第七章:提供了多種資源成果的輸出方式,包括語料、例句、勘拷燈、詞典、詞表等。可排版的隔行對照化格式,可篩選的檢索結(jié)果輸出,實用性非常強。 第八章:總結(jié)了本文的創(chuàng)新之處,并對下一階段的工作提出展望。 本研究介紹了合理可行的文本資源來源方法,高效實用的語法標注處理方法,多樣可排版的資源成果輸出方法。本文采用詞典策略、文本分詞、隔行對照化、匹配標注、形態(tài)處理、深層和表層形式、詞規(guī)則等技術(shù)方法完成了大量文本資源的語法標注。改善了中國語言資源挖掘與研究的方法,促進了少數(shù)民族語言和漢語方言真實文本資源語法標注的發(fā)展,同時對瀕危性語言和非物質(zhì)文化遺產(chǎn)有著極為重要的保護與保留作用。
【關(guān)鍵詞】:
【學位授予單位】:上海師范大學
【學位級別】:博士
【學位授予年份】:2014
【分類號】:H08
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳玉忠,俞士汶;藏文信息處理技術(shù)的研究現(xiàn)狀與展望[J];中國藏學;2003年04期
2 馬希文;;以計算語言學為背景看語法問題[J];國外語言學;1989年03期
3 韋茂繁;關(guān)于語流音變幾個問題的討論[J];廣西民族學院學報(哲學社會科學版);1987年03期
4 王東;陳笑蓉;;一種改進的高效分詞詞典機制[J];貴州大學學報(自然科學版);2007年04期
5 陳桂林,王永成,韓客松,王剛;一種改進的快速分詞算法[J];計算機研究與發(fā)展;2000年04期
6 侯偉;楊炳儒;宋威;;多關(guān)系關(guān)聯(lián)規(guī)則算法綜述[J];計算機工程與應用;2007年23期
7 陳平;劉曉霞;李亞軍;;基于字典和統(tǒng)計的分詞方法[J];計算機工程與應用;2008年10期
8 吳濤;張毛迪;陳傳波;;一種改進的統(tǒng)計與后串最大匹配的中文分詞算法研究[J];計算機工程與科學;2008年08期
9 葉小平;陳鎧原;湯庸;湯娜;胡蘇;;時態(tài)XML索引技術(shù)[J];計算機學報;2007年07期
10 胡曉鵬,李曉航,李崗;一種基于XML映射規(guī)則的數(shù)據(jù)遷移方法設計和實現(xiàn)[J];計算機應用;2005年08期
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 楊俊芳;漢語方言形容詞重疊研究[D];復旦大學;2008年
2 李斌;用ELAN自建漢語方言多媒體語料庫及其應用研究[D];湖南師范大學;2013年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王德壽;走向成熟和繁榮的現(xiàn)代漢語語法研究——我國(大陸)近20年現(xiàn)代漢語語法研究綜[J];安徽廣播電視大學學報;1999年04期
2 劉向東;;漢語詞類劃分的分歧與和解——來自生成語言學的啟示[J];安徽職業(yè)技術(shù)學院學報;2009年03期
3 孫銀新;;黎錦熙的漢語構(gòu)詞法研究及其貢獻[J];安徽師范大學學報(人文社會科學版);2011年06期
4 王銀霞;;河南方言中“個”的弱化與音系-句法協(xié)同[J];安徽工業(yè)大學學報(社會科學版);2009年06期
5 馬乃田;句法規(guī)律:漢語語法學研究的基礎與核心[J];安慶師范學院學報(社會科學版);2005年01期
6 牛承志;趙曉凡;;醫(yī)院信息系統(tǒng)數(shù)據(jù)遷移設計與實現(xiàn)[J];安陽師范學院學報;2011年02期
7 路崴崴;;“V一下”結(jié)構(gòu)語義分析[J];白城師范學院學報;2010年01期
8 張新華;;與無定名詞主語句相關(guān)的理論問題[J];北京大學學報(哲學社會科學版);2007年06期
9 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術(shù)[J];北京交通大學學報;2009年05期
10 詹人鳳;試說隱性語法關(guān)系[J];北方論叢;1994年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 邢富坤;宋柔;;自動詞性標注中語法因素和詞匯因素對英漢語的不同影響[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
2 江荻;;藏語不規(guī)則動詞的信息標注方法[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
3 萬菁;姬東鴻;任函;馮文賀;;漢語復合名詞短語特征結(jié)構(gòu)的標注研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
4 陳波;姬東鴻;孫程;呂晨;;基于特征結(jié)構(gòu)的漢語主謂謂語句語義標注研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
5 王仁強;;漢英詞典詞類標注與譯義的對稱性研究——兼評《ABC 漢英大詞典》的詞類標注與譯義[A];中國辭書學會雙語詞典專業(yè)委員會第6屆年會暨學術(shù)研討會論文專輯[C];2005年
6 程書秋;;“V不V”及其相關(guān)結(jié)構(gòu)[A];語言學論文選集[C];2001年
7 王振來;;語義功能語法的應用價值研究[A];當代中國遼寧發(fā)展·創(chuàng)新·和諧——遼寧省第二屆哲學社會科學學術(shù)年會獲獎成果文集[C];2009年
8 杜琦;鞏政;;基于字符串相似度的自動評分算法實現(xiàn)[A];2011年全國電子信息技術(shù)與應用學術(shù)會議論文集[C];2011年
9 梁一平;鄧左祥;周小平;;一種多關(guān)系數(shù)據(jù)挖掘中元組ID傳播的設計與實現(xiàn)[A];2009年中國高校通信類院系學術(shù)研討會論文集[C];2009年
10 趙宏;申超;;異構(gòu)視頻服務系統(tǒng)集成與調(diào)度策略研究[A];第13屆中國系統(tǒng)仿真技術(shù)及其應用學術(shù)年會論文集[C];2011年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 徐佳;生態(tài)語言學視域下的中國瀕危語言研究[D];上海外國語大學;2010年
2 楊劍鋒;適合并行的無干預文檔聚類算法研究[D];武漢大學;2010年
3 方清明;現(xiàn)代漢語名名復合形式的認知語義研究[D];暨南大學;2011年
4 王俊;現(xiàn)代漢語離合詞研究[D];華中師范大學;2011年
5 任敏;現(xiàn)代漢語非受事動賓式雙音復合詞研究[D];河北師范大學;2011年
6 翟會鋒;三官寨彝語參考語法[D];中央民族大學;2011年
7 林新宇;漢語和韓國語話題句對比研究[D];中央民族大學;2011年
8 王國旭;新平彝語臘魯話研究[D];中央民族大學;2011年
9 陳全靜;漢語并列式雙音時間副詞的詞匯化及相關(guān)問題研究[D];上海師范大學;2011年
10 龔娜;湘方言程度范疇研究[D];湖南師范大學;2011年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 高鵬;基于數(shù)字電視平臺的制播存一體化研究與設計[D];哈爾濱工程大學;2010年
2 劉晨;XML文檔聚類的研究[D];大連理工大學;2010年
3 吳世漢;面向查詢的XML文本摘要技術(shù)[D];江西財經(jīng)大學;2010年
4 黃勇杰;基于統(tǒng)計NLP技術(shù)的甲骨卜辭的分析研究[D];華東師范大學;2010年
5 郭貞彥;山西文水(裴會村)話語音研究[D];青海師范大學;2010年
6 王思麗;藏文網(wǎng)頁自動發(fā)現(xiàn)與采集技術(shù)研究[D];西北民族大學;2010年
7 蘇俊峰;基于HMM的藏語語料庫詞性自動標注研究[D];西北民族大學;2010年
8 李丹;基于規(guī)則與統(tǒng)計的漢語自動分詞研究[D];長春工業(yè)大學;2010年
9 張歡;現(xiàn)代漢語名詞的復數(shù)表達形式及其標記問題[D];南昌大學;2010年
10 鐘鳴;漢英事件名詞比較[D];南昌大學;2010年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉義青,張艷梅;深澤方言重疊式初探[J];保定師范?茖W校學報;2004年03期
2 任永輝;寶雞方言的語法特點[J];寶雞文理學院學報(社會科學版);2004年01期
3 紀國泰;郫縣方言表示形容詞程度的幾種方式[J];成都師專學報;1995年03期
4 易亞新;常德方言表程度加深的形式和手段[J];湖南文理學院學報(社會科學版);2005年02期
5 劉永綏;重慶方言的實詞重疊及變調(diào)[J];重慶師院學報(哲學社會科學版);1997年02期
6 徐正興,王靜;無錫話中的形容詞[J];常熟理工學院學報;2005年03期
7 張海燕;滄州方言的語法特點[J];滄州師范專科學校學報;2000年01期
8 扎西次仁;《中華大藏經(jīng)·丹珠爾》藏文對勘本字頻統(tǒng)計分析[J];中國藏學;1997年02期
9 張敏;從類型學和認知語法的角度看漢語重疊現(xiàn)象[J];國外語言學;1997年02期
10 雷秀云,楊惠中;基于語料庫的研究方法及MD/MF模型與學術(shù)英語語體研究[J];當代語言學;2001年02期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 陳玉忠;李保利;俞士汶;蘭措吉;;基于格助詞和接續(xù)特征的藏文自動分詞方案[A];第一屆學生計算語言學研討會論文集[C];2002年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 甘于恩;廣東四邑方言語法研究[D];暨南大學;2002年
2 吳云霞;萬榮方言語法研究[D];廈門大學;2002年
3 彭蘭玉;衡陽方言語法研究[D];湖南師范大學;2002年
4 陳前瑞;漢語體貌系統(tǒng)研究[D];華中師范大學;2003年
5 李勁榮;現(xiàn)代漢語狀態(tài)形容詞的認知研究[D];上海師范大學;2004年
6 張?zhí)?寧化客家方言語法研究[D];廈門大學;2004年
7 丁崇明;昆明方言語法研究[D];山東大學;2005年
8 阮桂君;寧波方言語法研究[D];華中師范大學;2006年
9 孫英杰;現(xiàn)代漢語體系統(tǒng)研究[D];北京語言大學;2006年
10 史冠新;臨淄方言語氣詞研究[D];山東大學;2006年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 元傳軍;現(xiàn)代漢語形容詞重疊式研究[D];南京師范大學;2002年
2 劉潔;唐五代重疊的“調(diào)量”研究[D];四川大學;2002年
3 金寶允;現(xiàn)代漢語形容詞研究[D];首都師范大學;2002年
4 趙鵬;基于數(shù)據(jù)壓縮的信息檢索技術(shù)的研究[D];黑龍江大學;2002年
5 顏峰;郯城(重坊)方言研究[D];蘇州大學;2003年
6 劉莉芳;山西晉語形容詞重疊研究[D];華南師范大學;2004年
7 門秀紅;應縣方言語法研究[D];西南師范大學;2005年
8 山婭蘭;沾益方言語法研究[D];云南師范大學;2005年
9 許維維;漢語重疊式狀態(tài)詞范疇系統(tǒng)研究[D];華東師范大學;2006年
10 王小龍;基于語料庫的東臺方言特色詞釋義[D];南京師范大學;2007年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 王曉武;全國縣情資料文獻檢索系統(tǒng)[J];中文信息;1997年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復制文本檢測[A];第29屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學術(shù)年會論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導的遺傳算法在文本分類中的應用[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進展[A];開創(chuàng)新世紀的通信技術(shù)——第七屆全國青年通信學術(shù)會議論文集[C];2001年
10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術(shù)會議論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前2條
1 戴洪玲;[N];中國電腦教育報;2004年
2 山東 黃家貞;[N];電腦報;2001年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 胡明涵;面向領域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學 ;2009年
2 孫曉華;基于聚類的文本機會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學;2010年
3 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學;2007年
4 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學;2010年
5 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復旦大學;2006年
6 李自強;大規(guī)模文本分類的若干問題研究[D];電子科技大學;2013年
7 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學;2007年
8 章舜仲;文本分類中詞共現(xiàn)關(guān)系的研究及其應用[D];南京理工大學;2010年
9 張友華;面向智能服務的Web內(nèi)容計算研究與應用[D];中國科學技術(shù)大學;2006年
10 趙玉茗;文本間語義相關(guān)性計算及其應用研究[D];哈爾濱工業(yè)大學;2009年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 姜英杰;基于本體的短文本分類研究[D];東北師范大學;2010年
2 楊碩;基于VSM文本分類系統(tǒng)的設計與實現(xiàn)[D];大連理工大學;2006年
3 馬淵;短文本情感分析技術(shù)研究[D];重慶大學;2011年
4 張超;文本OLAP關(guān)鍵技術(shù)研究[D];山東大學;2012年
5 王寶龍;面向新聞領域的文本數(shù)據(jù)獲取系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2010年
6 曾洪波;基于類別裁剪和模糊理論的文本分類算法研究[D];暨南大學;2011年
7 徐立新;互聯(lián)網(wǎng)文本視頻過濾技術(shù)研究與應用[D];電子科技大學;2010年
8 梁鵬鵬;概率主題模型及其在關(guān)聯(lián)文本分類中的應用研究[D];鄭州大學;2011年
9 劉超;基于主題挖掘和覆蓋的文本分類研究[D];安徽大學;2011年
10 蔡月紅;基于類短語串和半監(jiān)督學習的短文本分類研究[D];江蘇大學;2010年
本文關(guān)鍵詞:文本標注平臺的設計原理與應用研究,由筆耕文化傳播整理發(fā)布。
本文編號:216677
本文鏈接:http://sikaile.net/shoufeilunwen/rwkxbs/216677.html