天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 論文百科 > 學(xué)術(shù)論文 >

英語學(xué)術(shù)論文摘要語步結(jié)構(gòu)自動(dòng)識(shí)別模型的構(gòu)建

發(fā)布時(shí)間:2017-06-10 02:10

  本文關(guān)鍵詞:英語學(xué)術(shù)論文摘要語步結(jié)構(gòu)自動(dòng)識(shí)別模型的構(gòu)建,由筆耕文化傳播整理發(fā)布。


【摘要】:大數(shù)據(jù)時(shí)代,如何科學(xué)、全面的反映一個(gè)學(xué)科的知識(shí)結(jié)構(gòu)和發(fā)展?fàn)顩r至關(guān)重要,摘要是學(xué)科知識(shí)挖掘的一個(gè)便捷且重要的數(shù)據(jù)來源,但現(xiàn)有的知識(shí)挖掘很難定位摘要中的關(guān)鍵信息語步,更無法實(shí)現(xiàn)語步內(nèi)部的知識(shí)挖掘,這就需要構(gòu)建摘要語步的自動(dòng)識(shí)別模型;谖谋咀詣(dòng)分類的研究成果,自然語言處理領(lǐng)域出現(xiàn)了三類摘要語步自動(dòng)識(shí)別模型,但這三類模型各有利弊。純粹以統(tǒng)計(jì)詞頻構(gòu)建的詞袋模型,雖然能夠窮盡詞項(xiàng)特征,但對(duì)特征不做篩選和歸類,導(dǎo)致特征稀疏;谝(guī)則提取語言學(xué)特征構(gòu)建的模型,雖然避免了特征稀疏的問題,但未能全面系統(tǒng)地提取所有特征。第三類結(jié)合詞袋和語境特征構(gòu)建的模型,雖然識(shí)別效果很好,但只能針對(duì)結(jié)構(gòu)化摘要,對(duì)大量非結(jié)構(gòu)化摘要的識(shí)別效果仍然差強(qiáng)人意。針對(duì)這種情況,本研究旨在以現(xiàn)有的摘要語步結(jié)構(gòu)自動(dòng)識(shí)別模型為出發(fā)點(diǎn),針對(duì)現(xiàn)有模型語言特征提取不足的問題,結(jié)合語言學(xué)理論和方法,提取新的特征,同時(shí)借助語料庫語言學(xué)、自然語言處理、信息檢索技術(shù)以及統(tǒng)計(jì)學(xué)等學(xué)科中的研究方法,試圖構(gòu)建運(yùn)行效果更好的能夠自動(dòng)識(shí)別常見類型英文摘要語步結(jié)構(gòu)的模型。本研究模型的構(gòu)建大體分四個(gè)階段:(1)語料的準(zhǔn)備和預(yù)處理階段。我們下載了Web of Science數(shù)據(jù)庫收錄的《應(yīng)用語言學(xué)》期刊自1993年到2014年出版的所有論文摘要,剔除書評(píng)、會(huì)議論文、編者語,共計(jì)440篇。然后對(duì)文本進(jìn)行清理,以及進(jìn)行自動(dòng)詞性賦碼和句法分析。(2)人工標(biāo)注階段。由三位相關(guān)專業(yè)研究人員對(duì)語料進(jìn)行人工標(biāo)注,標(biāo)注過程前后持續(xù)一年,經(jīng)歷了基于已有研究提出的標(biāo)注方案自上而下地標(biāo)注,以及不帶有任何已有的方案自下而上地標(biāo)注,最后采用了兩種方法相結(jié)合的方式,并確定了以完整的語句為標(biāo)注單位的六語步標(biāo)注方案。經(jīng)檢驗(yàn),兩位標(biāo)注人員獨(dú)立標(biāo)注的一致性較好(Kappa =.785),然后對(duì)獨(dú)立標(biāo)注中二者不一致的地方進(jìn)行多次討論、修改,達(dá)成完全一致。(3)提取特征構(gòu)建模型階段。人工標(biāo)注完語步結(jié)構(gòu)之后,利用一系列研究工具和方法,提取有效的語步預(yù)測(cè)特征,再利用這些特征和數(shù)據(jù)訓(xùn)練學(xué)習(xí)分類器(條件隨機(jī)場(chǎng)),獲得模型。(4)模型的驗(yàn)證階段。利用構(gòu)建的模型預(yù)測(cè)驗(yàn)證集的語步類別,將模型預(yù)測(cè)的驗(yàn)證集的語步類別與人工標(biāo)注類別對(duì)比,得到模型的識(shí)別效果,再與現(xiàn)有的同類模型作對(duì)比,探索本模型的優(yōu)勢(shì)與不足。本研究的主要發(fā)現(xiàn)可以概括為摘要的語步分析、語步結(jié)構(gòu)的有效預(yù)測(cè)特征和模型的識(shí)別效果三方面。第一,本研究突破了傳統(tǒng)語步分析的方法,基于對(duì)大量數(shù)據(jù)的實(shí)際分析印證并完善了已有的語類研究理論。第二二,本研究驗(yàn)證了已有模型提取的4個(gè)特征的有效性,證實(shí)了新加入的3個(gè)特征的有效預(yù)測(cè)力,通過對(duì)比發(fā)現(xiàn)以語料庫的方法提取的新特征比傳統(tǒng)方法提取的特征效果更好。從特征的三個(gè)維度來看,意義特征對(duì)語步的識(shí)別度最高(F=0.609),其次是語境特征(F=0.428),識(shí)別度最低的是形式特征(F=0.317)。第三,本研究構(gòu)建了摘要語步結(jié)構(gòu)的自動(dòng)識(shí)別模型,模型的識(shí)別效果(F=0.7819)是現(xiàn)有自動(dòng)識(shí)別模型中效果最好的,對(duì)信息型摘要的識(shí)別效果比現(xiàn)有識(shí)別效果最好的模型提高了4.5%。為了保證可比性,我們利用同一批語料訓(xùn)練詞袋模型AntMover,結(jié)果本研究的模型比AntMover的識(shí)別效果提高了約23%。摘要語步結(jié)構(gòu)自動(dòng)識(shí)別模型的構(gòu)建,為下一步學(xué)科知識(shí)挖掘中定位摘要的語步以及語步內(nèi)部的關(guān)鍵知識(shí)奠定了基礎(chǔ)。另一方面,語步的自動(dòng)識(shí)別突破了ESP領(lǐng)域長久以來的人工識(shí)別法,為語步分析理論和實(shí)證研究走向更多的學(xué)科和研究領(lǐng)域,發(fā)展成為一個(gè)更全面、多視角、多維度的語步分析領(lǐng)域提供了可能。
【關(guān)鍵詞】:語類分析 語步結(jié)構(gòu) 自動(dòng)識(shí)別 英文摘要
【學(xué)位授予單位】:北京外國語大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:H315
【目錄】:
  • 致謝4-6
  • 摘要6-8
  • Abstract8-18
  • 縮略語表18-19
  • 第一章 緒論19-24
  • 1.1 研究背景19-20
  • 1.2 本選題的意義20-22
  • 1.2.1 理論意義20
  • 1.2.2 方法意義20-21
  • 1.2.3 實(shí)踐意義21-22
  • 1.3 研究概述22
  • 1.4 論文結(jié)構(gòu)22-23
  • 1.5 小結(jié)23-24
  • 第二章 已有的摘要語步結(jié)構(gòu)自動(dòng)識(shí)別模型綜述24-44
  • 2.1 關(guān)鍵概念24-26
  • 2.1.1 摘要24-25
  • 2.1.2 語類25-26
  • 2.1.3 語步26
  • 2.2 文本分類26-33
  • 2.2.1 定義及其發(fā)展26-27
  • 2.2.2 文本分類的一般步驟27-28
  • 2.2.3 文本分類器28-33
  • 2.3 現(xiàn)有的摘要語步自動(dòng)識(shí)別模型33-42
  • 2.3.1 詞袋模型33-34
  • 2.3.2 基于語境特征構(gòu)建的模型34-36
  • 2.3.3 基于語言學(xué)特征構(gòu)建的模型36-40
  • 2.3.4 現(xiàn)有模型的比較40-42
  • 2.4 現(xiàn)有模型對(duì)本研究的啟示42-43
  • 2.5 小結(jié)43-44
  • 第三章 摘要的語類研究綜述44-67
  • 3.1 語類研究綜述44-51
  • 3.1.1 理論探索44-48
  • 3.1.2 實(shí)證研究48-50
  • 3.1.3 已有語類研究的不足50-51
  • 3.2 摘要研究綜述51-64
  • 3.2.1 摘要的語類研究51-53
  • 3.2.2 摘要的語言特征研究53-64
  • 3.3 本研究的概念模型64-66
  • 3.4 小結(jié)66-67
  • 第四章 研究方法67-103
  • 4.1 研究問題67
  • 4.2 研究設(shè)計(jì)和研究流程67-69
  • 4.3 研究工具69-76
  • 4.3.1 語料處理工具69-71
  • 4.3.2 特征提取工具71-72
  • 4.3.3 模型構(gòu)建與驗(yàn)證工具72-76
  • 4.4 語料76-77
  • 4.5 語料的人工標(biāo)注77-87
  • 4.5.1 先導(dǎo)研究79-80
  • 4.5.2 第一次完整標(biāo)注80-83
  • 4.5.3 標(biāo)注員培訓(xùn)83-84
  • 4.5.4 第二次完整標(biāo)注84-86
  • 4.5.5 人工標(biāo)注的信度報(bào)告86-87
  • 4.6 建模前的語料準(zhǔn)備87-89
  • 4.7 特征提取89-100
  • 4.7.1 形式特征提取89-97
  • 4.7.2 意義特征提取97-99
  • 4.7.3 語境特征提取99-100
  • 4.8 模型的構(gòu)建與驗(yàn)證100-102
  • 4.9 小結(jié)102-103
  • 第五章 建模前的語步結(jié)構(gòu)和語言特征描寫103-149
  • 5.1 摘要的語步分析103-114
  • 5.1.1 語步類別的總體分布103-104
  • 5.1.2 實(shí)際結(jié)構(gòu)104-106
  • 5.1.3 原型結(jié)構(gòu)106-107
  • 5.1.4 衍生原則107-111
  • 5.1.5 類型與語類的關(guān)系111-114
  • 5.2 摘要的語步預(yù)測(cè)特征114-148
  • 5.2.1 形式特征114-119
  • 5.2.2 意義特征119-144
  • 5.2.3 語境特征144-148
  • 5.3 小結(jié)148-149
  • 第六章 摘要語步自動(dòng)識(shí)別模型的構(gòu)建與優(yōu)化149-164
  • 6.1 基于概率的初步模型149-155
  • 6.1.1 模型識(shí)別度的判斷指標(biāo)149-150
  • 6.1.2 初步模型的識(shí)別度150-152
  • 6.1.3 構(gòu)建初步模型的特征152-155
  • 6.2 基于統(tǒng)計(jì)和規(guī)則的優(yōu)化模型155-157
  • 6.3 優(yōu)化模型的識(shí)別效果157-160
  • 6.4 管道模型160-162
  • 6.5 模型的應(yīng)用162-163
  • 6.6 小結(jié)163-164
  • 第七章 結(jié)論164-168
  • 7.1 研究發(fā)現(xiàn)164-167
  • 7.1.1 基于大量數(shù)據(jù)分析印證和完善了已有的語類理論164-165
  • 7.1.2 摘要語步的有效預(yù)測(cè)特征165-166
  • 7.1.3 摘要的語步結(jié)構(gòu)自動(dòng)識(shí)別模型166-167
  • 7.2 本研究的局限與未來研究方向167-168
  • 參考文獻(xiàn)168-180
  • 附錄180-203

  本文關(guān)鍵詞:英語學(xué)術(shù)論文摘要語步結(jié)構(gòu)自動(dòng)識(shí)別模型的構(gòu)建,由筆耕文化傳播整理發(fā)布。

,

本文編號(hào):437195

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/lwzy/437195.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d3489***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com