天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于索引行聚類的英語動詞型式自動識別與提取研究

發(fā)布時間:2023-04-17 00:21
  型式化語言在自然語言中廣泛存在。概括和提取語言型式對語言研究、辭書編纂、語言教學等具有重要意義。傳統(tǒng)研究中的型式提取主要采用手工分析方法,耗時費力,無法應(yīng)對大規(guī)模語料。已有的為數(shù)不多的型式自動識別研究效果欠佳,適用范圍有限。本研究采用相似度分析方法,嘗試在索引行自動聚類的基礎(chǔ)上實現(xiàn)英語動詞型式的自動識別與提取。本研究重點回答以下兩個研究問題:1)影響索引行聚類的因素有哪些?如何確定索引行聚類中的分組數(shù)量?2)型式自動識別與提取模型的準確率及召回率如何?影響因素有哪些? 研究中基于型式語法(Hunston&Francis2000)和英語動詞型式列表(Francis et al1996),歸納出型式的必要元素,構(gòu)建特征集,依此進行索引行自動聚類。研究包括五個環(huán)節(jié):1、從賦碼語料庫中析出相關(guān)動詞的索引行;2、歸納英語動詞型式列表中的型式元素,建立特征集;3、將索引行中的語言信息轉(zhuǎn)換為型式元素;4、對索引行進行相似度計算,實現(xiàn)自動聚類;5、提取每組索引行的公共特征項,最終生成相關(guān)動詞型式列表。 本研究模型調(diào)試及驗證語料均取自BNC的筆語部分(共約9000萬詞次)。模型調(diào)試階段從動詞型式...

【文章頁數(shù)】:249 頁

【學位級別】:博士

【文章目錄】:
致謝
摘要
Abstract
第一章 引言
    1.1 研究背景
    1.2 本研究的理論及實踐意義
        1.2.1 論意義
        1.2.2 實踐意義
    1.3 本研究概述
        1.3.1 研究目的
        1.3.2 研究問題及研究對象
        1.3.3 研究步驟
            1.3.3.1 語料及預(yù)處理
            1.3.3.2 特征集的建立及其轉(zhuǎn)換
            1.3.3.3 權(quán)重計算
            1.3.3.4 索引行聚類
            1.3.3.5 型式提取
    1.4 論文結(jié)構(gòu)
    1.5 小結(jié)
第二章 型式與型式語法
    2.1 型式
        2.1.1 型式研究的緣起與發(fā)展
        2.1.2 型式的定義
        2.1.3 型式實例
        2.1.4 型式元素及其編碼
        2.1.5 本研究中判別型式的六個標準
    2.2 型式語法
        2.2.1 短語學思想與習語原則
        2.2.2 詞匯與語法關(guān)系及各自地位
            2.2.2.1 詞匯語法不可分
            2.2.2.2 詞匯為中心的研究
        2.2.3 型式與意義的關(guān)系
    2.3 型式語法的優(yōu)缺點
        2.3.1 型式語法與傳統(tǒng)語法差異
        2.3.2 型式語法的優(yōu)點
        2.3.3 型式語法的不足
    2.4 以型式語法為理論基礎(chǔ)的相關(guān)研究
    2.5 小結(jié)
第三章 型式識別方法與相關(guān)應(yīng)用研究
    3.1 型式識別標準
    3.2 型式總結(jié)的必要性
    3.3 型式的識別
        3.3.1 型式的人工識別
        3.3.2 型式人工識別輔助工具的開發(fā)
        3.3.3 型式的自動識別
            3.3.3.1 型式自動識別的理據(jù)
            3.3.3.2 型式的自動識別研究
    3.4 現(xiàn)有的語言型式網(wǎng)絡(luò)平臺數(shù)據(jù)庫
        3.4.1 基于機器處理的網(wǎng)絡(luò)數(shù)據(jù)庫
        3.4.2 基于人工處理的網(wǎng)絡(luò)數(shù)據(jù)庫
    3.5 小結(jié)
第四章 聚類分析
    4.1 文本表示
    4.2 特征選擇及其權(quán)重
        4.2.1 特征選擇
        4.2.2 權(quán)重計算
    4.3 相似度計算
        4.3.1 相似度計算的源起及理據(jù)
        4.3.2 相似度計算方法
        4.3.3 相似度分析在語言研究中的應(yīng)用
    4.4 聚類算法
        4.4.1 劃分聚類
        4.4.2 層次聚類
    4.5 聚類質(zhì)量評價指標
    4.6 聚類在本研究的應(yīng)用理據(jù)
    4.7 小結(jié)
第五章 文本預(yù)處理與特征集的建立及轉(zhuǎn)換
    5.1 研究概述
    5.2 語料選取
    5.3 研究工具
        5.3.1 語料預(yù)處理工具
        5.3.2 自主開發(fā)的模塊及腳本
    5.4 語料預(yù)處理流程
    5.5 動詞型式中的必要元素及其轉(zhuǎn)換方法
        5.5.1 型式列表中元素的總體特征
        5.5.2 具體詞形的處理方法
            5.5.2.1 右側(cè)搭配詞處理方法
            5.5.2.2 左側(cè)搭配詞處理方法
            5.5.2.3 兩側(cè)搭配詞處理方法
        5.5.3 相鄰單詞組合的處理方法
        5.5.4 詞類標簽及語義類標簽的轉(zhuǎn)換方法
            5.5.4.1 詞類標簽的轉(zhuǎn)換方法
            5.5.4.2 語義類標簽轉(zhuǎn)換方法
        5.5.5 轉(zhuǎn)換順序及步驟
    5.6 小結(jié)
第六章 索引行聚類及型式自動提取方法
    6.1 特征表示方法、特征權(quán)重與位置權(quán)重的計算
        6.1.1 特征及特征權(quán)重
            6.1.1.1 功能詞處理方法
            6.1.1.2 特征標記方法
            6.1.1.3 型式邊界的界定
            6.1.1.4 索引行跨距的設(shè)定
            6.1.1.5 特征權(quán)重計算方法
        6.1.2 位置權(quán)重
        6.1.3 特征-索引行矩陣的生成
    6.2 聚類算法
        6.2.1 相似度計算
        6.2.2 K均值算法
            6.2.2.1 K均值聚類
            6.2.2.2 K值的選擇標準
    6.3 型式自動提取
    6.4 小結(jié)
第七章 型式自動提取模型測試
    7.1 模型調(diào)試數(shù)據(jù)集及模型驗證集的構(gòu)建
        7.1.1 調(diào)試階段語料集合的構(gòu)成
        7.1.2 驗證集的創(chuàng)建過程
            7.1.2.1 驗證集中詞項的選擇
            7.1.2.2 驗證集中索引行的抽取及處理方法
    7.2 配置文件的處理及參數(shù)設(shè)置與調(diào)整
        7.2.1 配置文件處理順序
        7.2.2 參數(shù)設(shè)置與調(diào)整
            7.2.2.1 特征權(quán)重計算方法調(diào)試過程與解決方法
            7.2.2.2 位置權(quán)重計算方法調(diào)試過程及解決方法
            7.2.2.3 每個特征的總體權(quán)重計算方法
            7.2.2.4 跨距設(shè)定調(diào)試過程
    7.3 測試數(shù)據(jù)的評價指標
        7.3.1 聚類內(nèi)部效度評估指標在本研究中的應(yīng)用
        7.3.2 聚類外部效度評估指標在本研究中的應(yīng)用
    7.4 數(shù)據(jù)結(jié)果報告
        7.4.1 索引行中型式及型式元素分布特征
            7.4.1.1 型式元素總體分布特征
            7.4.1.2 與動詞高頻共現(xiàn)的特征及其頻數(shù)
            7.4.1.3 不同動詞型式列表中特征的異同
        7.4.2 K值確定下基于現(xiàn)有人工標簽的型式自動識別效度分析
            7.4.2.1 驗證集中型式自動識別外部效度評估結(jié)果總體描述
            7.4.2.2 實驗動詞的型式自動識別準確率及召回率
            7.4.2.3 K值確定下型式自動識別后的再思考
        7.4.3 K值不確定下基于現(xiàn)有人工標簽的型式自動識別效度分析
            7.4.3.1 K值不確定下型式自動識別的外部效度測量結(jié)果總體描述
            7.4.3.2 K值不確定下型式自動識別的準確率及召回率
            7.4.3.3 K值未知情況下模型驗證的再思考
    7.5 分析和討論
        7.5.1 數(shù)據(jù)背后的語言學思考
            7.5.1.1 印證了分布假設(shè)
            7.5.1.2 印證了詞匯語法不可分
            7.5.1.3 型式元素間的橫組合關(guān)系
            7.5.1.4 常規(guī)型式與非常規(guī)型式
        7.5.2 影響部分型式自動識別錯誤的原因
            7.5.2.1 型式元素間的插入成分
            7.5.2.2 無引導詞THAT標志的從句識別
            7.5.2.3 賦碼錯誤
            7.5.2.4 名詞短語的識別問題
        7.5.3 關(guān)于聚類外部效度測量結(jié)果的再思考
        7.5.4 與前人研究結(jié)果的對比
    7.6 小結(jié)
第八章 英語動詞型式自動提取模型的應(yīng)用設(shè)想
    8.1 應(yīng)用范圍
        8.1.1 型式自動識別與提取在語言教學領(lǐng)域的應(yīng)用
            8.1.1.1 型式自動識別與提取在教學大綱制定中的應(yīng)用
            8.1.1.2 型式自動識別與提取在語言課堂教學中的應(yīng)用
            8.1.1.3 型式的自動識別與提取可以服務(wù)于學習者自主學習
        8.1.2 型式自動識別與提取在語言研究中的應(yīng)用
            8.1.2.1 型式自動提取在詞典編纂中的應(yīng)用
            8.1.2.2 型式自動提取模型對非常規(guī)用法的識別
            8.1.2.3 型式自動識別在語言學研究中的應(yīng)用
        8.1.3 型式自動識別與提取在其他領(lǐng)域的應(yīng)用可能
    8.2 應(yīng)用時需要注意的問題
        8.2.1 語料及語料的賦碼
        8.2.2 聚類時參數(shù)的設(shè)置
    8.3 小結(jié)
第九章 研究發(fā)現(xiàn)及價值
    9.1 研究發(fā)現(xiàn)
        9.1.1 索引行聚類的影響因素及分組數(shù)量的選擇
            9.1.1.1 索引行聚類的影響因素
            9.1.1.2 索引行聚類時簇數(shù)量的選擇
        9.1.2 型式自動識別的準確率及其影響因素
            9.1.2.1 型式自動識別準確率的提高
            9.1.2.2 影響部分型式自動識別錯誤的因素
        9.1.3 不同動詞索引行中型式元素的分布存在差異
    9.2 研究價值及創(chuàng)新之處
        9.2.1 理論方面
            9.2.1.1 對型式語法的反哺
            9.2.1.2 對其他語言學理論的貢獻
        9.2.2 方法論方面
        9.2.3 實踐方面
    9.3 本研究的不足之處
    9.4 未來研究方向
    9.5 小結(jié)
參考文獻
附錄



本文編號:3792181

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/rwkxbs/3792181.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7f082***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com