天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

大學(xué)英語四級(jí)作文自動(dòng)生成技術(shù)研究

發(fā)布時(shí)間:2017-04-23 23:10

  本文關(guān)鍵詞:大學(xué)英語四級(jí)作文自動(dòng)生成技術(shù)研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著自然語言處理技術(shù)的發(fā)展,應(yīng)用自然語言處理技術(shù)的成熟產(chǎn)品如Siri已經(jīng)開始進(jìn)入人們的日常生活中,激起了人們對(duì)自然語言處理技術(shù)的熱情。本課題旨在探究在如何利用現(xiàn)有的自然語言處理技術(shù)在自動(dòng)生成大學(xué)英語四級(jí)作文。圍繞著這個(gè)任務(wù),本文的研究主要涉及到以下幾個(gè)方面: (1)作文素材庫的構(gòu)建。本文利用互聯(lián)網(wǎng)資源構(gòu)建了以四級(jí)作文為資源的素材庫,其中主要是利用以英語教學(xué)為目的的門戶網(wǎng)站以及搜索引擎獲取作文資源,并利用Lucene搭建了一個(gè)檢索平臺(tái)。 (2)利用可獲取的候選文檔,生成相應(yīng)的四級(jí)作文。本文采取了從候選文檔中抽取句子,并對(duì)句子進(jìn)行排序的策略來生成作文;谠摬呗,本文給出了三種不同技術(shù)下的作文生成研究:基于詞頻統(tǒng)計(jì)的作文生成、基于質(zhì)心聚類的作文生成以及基于主題模型的作文生成。對(duì)于任意給定的題目以及候選文檔,我們都可以通過上述三種技術(shù)來生成相應(yīng)的四級(jí)英語作文。利用評(píng)分工具的打分可以看出,三種技術(shù)生成的作文質(zhì)量都會(huì)有高有低,但通過對(duì)比實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),基于主題模型生成的作文在整體效果上要好于其余兩種。對(duì)比兩種候選文檔的方式,,結(jié)果表明,使用范文作為候選文檔生成的作文質(zhì)量要遠(yuǎn)遠(yuǎn)好于基于互聯(lián)網(wǎng)獲取的文檔作為候選文檔生成的作文質(zhì)量。 (3)英語四級(jí)作文的自動(dòng)評(píng)分。通過綜合作文的內(nèi)容特征、語言知識(shí)特征以及篇章的連貫性特征,采用回歸模型,本文給出了針對(duì)四級(jí)作文自動(dòng)評(píng)價(jià)方法。在評(píng)價(jià)作文內(nèi)容特征時(shí),我們考慮了其N-gram共現(xiàn)、Skip-gram共現(xiàn)、LCS共現(xiàn);在評(píng)價(jià)語言知識(shí)特征時(shí),我們考慮了單詞拼寫以及語法錯(cuò)誤;在評(píng)價(jià)篇章連貫性時(shí),我們考慮了包括詞重疊、LSA以及連接詞三個(gè)方面的指標(biāo)。最后,訓(xùn)練出的回歸模型,獲得了相關(guān)系數(shù)為0.83的結(jié)果。
【關(guān)鍵詞】:作文生成 句子抽取 自動(dòng)評(píng)分 自然語言處理技術(shù)
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要4-5
  • Abstract5-10
  • 第1章 緒論10-17
  • 1.1 課題研究背景及意義10-11
  • 1.2 國內(nèi)外研究現(xiàn)狀及分析11-13
  • 1.2.1 國外相關(guān)研究現(xiàn)狀11-12
  • 1.2.2 國內(nèi)相關(guān)研究現(xiàn)狀12
  • 1.2.3 國內(nèi)外研究現(xiàn)狀分析12-13
  • 1.3 相關(guān)研究概述13-16
  • 1.3.1 句子抽取技術(shù)相關(guān)研究13-14
  • 1.3.2 作文自動(dòng)評(píng)價(jià)相關(guān)研究14-16
  • 1.4 本文的主要研究內(nèi)容16-17
  • 第2章 基于互聯(lián)網(wǎng)的作文素材庫構(gòu)建17-24
  • 2.1 引言17
  • 2.2 相關(guān)技術(shù)介紹17-20
  • 2.2.1 網(wǎng)頁集合獲取17-19
  • 2.2.2 網(wǎng)頁正文抽取19
  • 2.2.3 Lucene 簡介19-20
  • 2.3 基于目標(biāo)網(wǎng)站的作文素材獲取20-21
  • 2.3.1 工具介紹20
  • 2.3.2 文本過濾20-21
  • 2.3.3 實(shí)驗(yàn)結(jié)果及分析21
  • 2.4 基于搜索引擎的作文素材獲取21-22
  • 2.4.1 檢索網(wǎng)頁獲取21-22
  • 2.4.2 實(shí)驗(yàn)結(jié)果及分析22
  • 2.5 基于 Lucene 的檢索平臺(tái)搭建22-23
  • 2.6 本章小結(jié)23-24
  • 第3章 基于句子抽取策略的作文自動(dòng)生成24-41
  • 3.1 引言24
  • 3.2 基于詞頻信息的作文生成24-27
  • 3.2.1 句子抽取方法介紹24-25
  • 3.2.2 句子排序方法介紹25
  • 3.2.3 實(shí)驗(yàn)結(jié)果及分析25-27
  • 3.3 基于聚類質(zhì)心的作文生成27-31
  • 3.3.1 相關(guān)概念介紹27-28
  • 3.3.2 作文自動(dòng)生成28-29
  • 3.3.3 實(shí)驗(yàn)結(jié)果及分析29-31
  • 3.4 基于主題模型的作文生成31-36
  • 3.4.1 相關(guān)技術(shù)介紹31-33
  • 3.4.2 作文自動(dòng)生成33-34
  • 3.4.3 實(shí)驗(yàn)結(jié)果及分析34-36
  • 3.5 方法比較及分析36-40
  • 3.5.1 實(shí)驗(yàn)結(jié)果對(duì)比36-38
  • 3.5.2 基于范文的作文自動(dòng)生成38-40
  • 3.6 本章小結(jié)40-41
  • 第4章 四級(jí)作文的自動(dòng)評(píng)價(jià)41-56
  • 4.1 引言41
  • 4.2 內(nèi)容覆蓋度特征41-47
  • 4.2.1 N-gram 覆蓋41-42
  • 4.2.2 Skip-gram 覆蓋42-44
  • 4.2.3 最長公共子序列(LCS)覆蓋44-45
  • 4.2.4 特征分析45-47
  • 4.3 語法知識(shí)特征47-48
  • 4.3.1 特征介紹47
  • 4.3.2 特征分析47-48
  • 4.4 篇章連貫性特征48-52
  • 4.4.1 篇章連貫性及相關(guān)技術(shù)48-49
  • 4.4.2 Coh-Metrix 工具49
  • 4.4.3 特征分析49-52
  • 4.5 回歸建模52-55
  • 4.5.1 SVM 回歸52-53
  • 4.5.2 邏輯斯蒂回歸(Logistic Regression)53-54
  • 4.5.3 數(shù)據(jù)集54
  • 4.5.4 實(shí)驗(yàn)結(jié)果及分析54-55
  • 4.6 本章小結(jié)55-56
  • 結(jié)論56-58
  • 參考文獻(xiàn)58-62
  • 攻讀碩士學(xué)位期間發(fā)表的論文62-64
  • 致謝64

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前2條

1 羅娜;;數(shù)據(jù)挖掘中的新方法——支持向量機(jī)[J];軟件導(dǎo)刊;2008年10期

2 梁茂成;;學(xué)習(xí)者書面語語篇連貫性的研究[J];現(xiàn)代外語;2006年03期


  本文關(guān)鍵詞:大學(xué)英語四級(jí)作文自動(dòng)生成技術(shù)研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):323166

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/323166.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2e551***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com