基于機器學習的自然語言處理和傳輸技術(shù)的研究
發(fā)布時間:2022-01-07 13:02
隨著信息技術(shù)的高速發(fā)展,各種服務和應用軟件不斷涌現(xiàn),人們?nèi)找嫫毡榈厥褂糜嬎銠C來完成日常生活中的任務。然而,缺乏計算機科學方面的專業(yè)知識,使得非專業(yè)人士難以與系統(tǒng)交互并獲得有用的信息。因此,自然語言處理作為一種可以使計算機分析與理解人類語言的方法吸引了來自世界各地研究人員的興趣。本文以機器學習為核心,在自然語言的處理和傳輸兩個領(lǐng)域開展研究。在自然語言處理中,首先探索了一種通用的生成詞向量的技術(shù),即集成詞嵌入,通過集成已有詞嵌入向量集和語義知識庫來生成一種更高質(zhì)量的詞嵌入向量集。進而,探索了兩種特定的自然語言處理任務:在線學習中的語法問題檢索技術(shù)和個性化推薦技術(shù),分別提出基于模糊樹匹配的檢索方法和基于內(nèi)容的推薦方法。其中,集成詞嵌入均作為輔助技術(shù)可以進一步改善檢索和推薦結(jié)果。在自然語言傳輸中,探索了基于深度學習的物理層傳輸技術(shù)。具體研究內(nèi)容包括4個方面:首先,研究了集成不同詞嵌入向量集和語義知識庫的方法。現(xiàn)有的方法大多根據(jù)大型語料庫中的詞分布信息學習得到詞嵌入向量集。這種方法雖然可以得到語料庫中包含的語義信息,但忽略了包含在語義知識庫中有價值的信息,例如ConceptNet。而且,不同詞嵌...
【文章來源】:東南大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:142 頁
【學位級別】:博士
【部分圖文】:
維度對詞相似結(jié)果的影響
維度對詞類比結(jié)果的影響
生或具有同等學歷的考生參加的選拔性考試。在這些實驗數(shù)據(jù)集中,我們隨機提取產(chǎn)生400 個語法 MCQ 作為查詢 MCQ,剩余的 4180 個 MCQ 將作為數(shù)據(jù)庫中的待檢索的問題。圖3.7給出了實驗數(shù)據(jù)集中語法 MCQ 題干的長度分布,其中語法 MCQ 題干的平均長度是 16.36 個字。每一對語法 MCQ 的相似度由 10 位英語為母語的專業(yè)人士人工標注,相似度分為5 個等級(“極差”,“一般”,“良好”,“優(yōu)秀”,“完美”)。這里“極差”表示兩個語法MCQ 完全不相關(guān),“完美”表示兩個語法 MCQ 相關(guān)度最高。在實驗中,我們認為相關(guān)度為“極差”的兩個語法 MCQ 不相關(guān),其它的相關(guān)度為相關(guān)。對于每個查詢 MCQ,數(shù)據(jù)庫中平均有 12.9% 的語法 MCQ 和它相關(guān)。我們使用 200 個查詢 MCQ 進行訓練
本文編號:3574594
【文章來源】:東南大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:142 頁
【學位級別】:博士
【部分圖文】:
維度對詞相似結(jié)果的影響
維度對詞類比結(jié)果的影響
生或具有同等學歷的考生參加的選拔性考試。在這些實驗數(shù)據(jù)集中,我們隨機提取產(chǎn)生400 個語法 MCQ 作為查詢 MCQ,剩余的 4180 個 MCQ 將作為數(shù)據(jù)庫中的待檢索的問題。圖3.7給出了實驗數(shù)據(jù)集中語法 MCQ 題干的長度分布,其中語法 MCQ 題干的平均長度是 16.36 個字。每一對語法 MCQ 的相似度由 10 位英語為母語的專業(yè)人士人工標注,相似度分為5 個等級(“極差”,“一般”,“良好”,“優(yōu)秀”,“完美”)。這里“極差”表示兩個語法MCQ 完全不相關(guān),“完美”表示兩個語法 MCQ 相關(guān)度最高。在實驗中,我們認為相關(guān)度為“極差”的兩個語法 MCQ 不相關(guān),其它的相關(guān)度為相關(guān)。對于每個查詢 MCQ,數(shù)據(jù)庫中平均有 12.9% 的語法 MCQ 和它相關(guān)。我們使用 200 個查詢 MCQ 進行訓練
本文編號:3574594
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3574594.html
最近更新
教材專著