天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于寫作風格裂縫發(fā)現的作者識別技術研究

發(fā)布時間:2024-12-31 23:06
  為了剽竊他人的知識成果并且躲避學術不端檢測,抄襲者們往往不會整段抄襲,抄襲內容也會經過處理。本文是基于這個背景下,從寫作風格的角度出發(fā),進行文章原創(chuàng)性的判定工作。寫作風格是作者長期寫作留下的習慣,不會在短期發(fā)生改變,對作者寫作風格的研究,可以挖掘作者的寫作習慣從而判定文章的原創(chuàng)性。本文了解和總結了國內外相關領域的現狀和方法,設計了一套屬于自己的原創(chuàng)性檢測方法。文章可能不是由一個人完成的,所以本文首次提出了“風格裂縫”這一概念,風格裂縫表示風格發(fā)生轉變的位置,根據風格裂縫進行文本分段。風格裂縫的識別是通過風格特征提取來實現的,分別從詞、句、情感多方面的考慮風格特征,本文設計了7個特征用于風格裂縫識別。根據風格特征提取的結果結合聚類算法找出風格裂縫的位置,根據風格裂縫進行文本分割。在風格裂縫識別的基礎上對每個部分進行作者識別,本文構建了詞語級別作者識別框架(ARTW)用于作者識別,該框架以GloVe詞向量為底層的詞向量支持,將Bi-GRU嵌入到孿生神經網絡中用于文本的特征表示。使用Bi-GRU高階特征抽取,使用孿生神經網絡進行相似度計算。在訓練過程對虛詞加入attention機制,使網絡更快...

【文章頁數】:70 頁

【學位級別】:碩士

【文章目錄】:
摘要
abstract
第1章 緒論
    1.1 課題背景及意義
    1.2 國內外研究現狀
        1.2.1 風格特征提取
        1.2.2 文本分割技術
        1.2.3 作者識別
        1.2.4 存在問題
    1.3 論文研究內容
    1.4 論文組織結構
第2章 相關理論及技術
    2.1 相關理論
    2.2 文本相似度計算
        2.2.1 向量空間模型
        2.2.2 漢明距離
        2.2.3 皮爾遜相關系數
    2.3 語言模型
        2.3.1 TF-IDF算法
        2.3.2 GloVe模型
    2.4 機器學習算法
        2.4.1 K-means算法
        2.4.2 Attention機制
        2.4.3 GRU神經網絡
        2.4.4 孿生神經網絡
    2.5 本章小結
第3章 基于風格特征融合的風格裂縫識別
    3.1 引言
    3.2 風格特征提取
        3.2.1 單維風格特征
        3.2.2 多維風格特征
    3.3 風格裂縫的識別
        3.3.1 滑動窗口
        3.3.2 參數權重法
        3.3.3 基于風格特征的風格聚類
    3.4 實驗結果與分析
        3.4.1 單特征風格裂縫識別結果
        3.4.2 參數權重法
        3.4.3 風格裂縫識別
    3.5 本章小結
第4章 基于風格裂縫的作者識別技術
    4.1 詞語級別作者識別框架ARTW
    4.2 高階特征提取
        4.2.1 語料庫預處理
        4.2.2 單詞向量化
        4.2.3 多層神經網絡訓練
    4.3 決策網絡
        4.3.1 相似度結果輸出
        4.3.2 聯合損失函數
    4.4 實驗結果和分析
    4.5 本章小結
結論
參考文獻
攻讀碩士學位期間發(fā)表的論文和取得的科研成果
致謝



本文編號:4021673

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/4021673.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶9be28***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com