問答系統(tǒng)的用戶出行領(lǐng)域意圖識別
發(fā)布時間:2021-07-22 17:33
近年來,隨著深度學(xué)習(xí)技術(shù)的持續(xù)發(fā)展,問答系統(tǒng)、聊天機器人等智能產(chǎn)品也相繼出現(xiàn),問答系統(tǒng)因可以快速、準(zhǔn)確的反饋給用戶問題答案的集合而成為自然語言處理(NLP)領(lǐng)域研究的一大熱點。問答系統(tǒng)分為多種類型,不同類型的問答系統(tǒng)對數(shù)據(jù)的處理方式各有不同。但根據(jù)數(shù)據(jù)的流動方式,問答系統(tǒng)大致可以分為三個部分,即語義理解,信息檢索和答案生成。本文將問答系統(tǒng)的語義理解部分放在特定的出行領(lǐng)域,對用戶出行領(lǐng)域的意圖進(jìn)行識別。針對于目前意圖識別處理過程復(fù)雜并且耗時長的問題,本文引入淺層神經(jīng)網(wǎng)絡(luò)FastText模型對用戶短文本出行領(lǐng)域進(jìn)行研究,FastText淺層神經(jīng)網(wǎng)絡(luò)的主要創(chuàng)新點之一是引入了N-gram特征來解決詞順序丟失的難題,由于輸入詞序經(jīng)過Ngram處理以后會產(chǎn)生大量無意義冗余的詞,本文把經(jīng)過N-gram處理后的詞序列與詞袋模型產(chǎn)生的詞進(jìn)行對比篩選,篩選后的詞序列利用TF-IDF進(jìn)行權(quán)重選擇,生成保留詞典。此外,針對短文本內(nèi)容較少、特征稀疏等問題,本文引入LDA主題模型進(jìn)行主題特征詞選擇,對保留詞典進(jìn)行特征擴充,從而提高意圖識別的準(zhǔn)確率。另外,由于計算機并不能直接理解語言文字,為了讓計算機可以處理文本文...
【文章來源】:武漢郵電科學(xué)研究院湖北省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
意圖識別框圖
武漢郵電科學(xué)研究院碩士學(xué)位論文11P(μ|b)∝∏1=1(2-2)其中向量b=(1,2,…,)為超參數(shù),是Dirichlet分布的先驗知識。2.3.2LDA模型LDA[31]潛在狄利克雷模型,是一種非監(jiān)督機器學(xué)習(xí)技術(shù),可以用來識別大規(guī)模文檔庫中潛藏的主題信息。LDA采用詞袋模型,所謂詞袋模型,是將一篇文檔,我們僅考慮一個詞匯是否出現(xiàn),而不考慮其出現(xiàn)的順序。在2003年,在PLSA模型的基礎(chǔ)上,Blei[32]等人對LDA模型進(jìn)行了理論補充和完備,具體來說,它是基于PLSA模型,再加上貝葉斯框架和加入Dirichlet先驗分布效應(yīng),解決了PLSA模型存在的不足之處,即計算復(fù)雜度高,耗時長,占用內(nèi)存空間大等問題。LDA屬于機器學(xué)習(xí)模型中的非監(jiān)督學(xué)習(xí)模型,在模型學(xué)習(xí)之前需要先給出主題的具體數(shù)量,再讓模型去學(xué)習(xí)并挖掘文本潛在的隱藏主題信息。LDA模型主要是一個三層結(jié)構(gòu),即詞條、主題和文檔。LDA模型基于先驗知識理論基礎(chǔ),隨機生成每篇文檔的topic-word分布,文檔-主題分布。然后對topic-word分布中的詞進(jìn)行多次抽取,每次抽取一個詞,到提取完所有的單詞。在提取所有文檔中的所有單詞之間,還將對每個文檔執(zhí)行單詞提齲LDA模型如圖2-2所示。圖2-2LDA主題模型圖聯(lián)合分布見式(2-3)所示。p(→,→|→,→)=∏(→|→,→)(→|→)=1(2-3)其中,→表示文檔m的主題分布,→表示主題分布→的先驗分布,,表示文檔從→中取樣生成文檔m的第n個詞的主題,,→表示詞分布,→表示詞分布的先驗分布,,表示最終生成的m篇文章的第n個詞語,N表示文檔m中的詞條總數(shù),共有m篇文檔[33]。
武漢郵電科學(xué)研究院碩士學(xué)位論文22其中vci+j、vri+j與vsi+j分別表示字、部首與偏旁的“輸入”向量,X為vci+j、vri+j和vsi+j的數(shù)量。對于語料庫D,部首+偏旁+漢字的中文詞向量模型的整體對數(shù)似然函數(shù)如公式3-5所示。L(D)=∑()(3-5)3.4實驗與實驗結(jié)果分析為了驗證本文在CBOW模型的基礎(chǔ)上所改進(jìn)的中文詞向量訓(xùn)練模型GCWE的效果與可行性,本節(jié)將選勸今日頭條”的新聞網(wǎng)的標(biāo)題數(shù)據(jù)作為實驗的數(shù)據(jù)源,經(jīng)過對原始數(shù)據(jù)進(jìn)行清洗以及繁簡轉(zhuǎn)換以后部分?jǐn)?shù)據(jù)如圖3-2所示。圖3-2今日頭條部分?jǐn)?shù)據(jù)通過實驗驗證GCWE中文詞向量模型,同時選用Word2vec詞向量訓(xùn)練模型、CWE模型[45]、JWE模型[46],作為本節(jié)所用方法的對比實驗。詞向量有很多種評價方法,本實驗主要使用詞相似度來評價不同模型訓(xùn)練出的詞向量。訓(xùn)練語料統(tǒng)一使用jieba[47]進(jìn)行分詞,將分詞后的語料送入詞向量模型進(jìn)行詞向量訓(xùn)練,詞向量訓(xùn)練模型的參數(shù)設(shè)置如表3-2所示。表3-2詞向量訓(xùn)練模型參數(shù)參數(shù)英文名參數(shù)中文名參數(shù)設(shè)置值mincount語料中低頻詞的出現(xiàn)詞頻5Size詞向量維度200Sample高頻詞匯的隨機降采樣的配置閾值1e-4lr學(xué)習(xí)速率0.025
【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量特征擴展的中文短文本分類研究[J]. 雷朔,劉旭敏,徐維祥. 計算機應(yīng)用與軟件. 2018(08)
[2]基于Word2vec的句子語義相似度計算研究[J]. 李曉,解輝,李立杰. 計算機科學(xué). 2017(09)
[3]微博文本的句向量表示及相似度計算方法研究[J]. 段旭磊,張仰森,孫祎卓. 計算機工程. 2017(05)
[4]中文微博情感詞提取:N-Gram為特征的分類方法[J]. 劉德喜,聶建云,張晶,劉曉華,萬常選,廖國瓊. 中文信息學(xué)報. 2016(04)
[5]基于圖排序的社會媒體用戶的消費意圖檢測[J]. 劉挺,付博,陳毅恒. 中國科學(xué):信息科學(xué). 2015(12)
[6]基于主題關(guān)聯(lián)挖掘的跨類型數(shù)字資源分類方法[J]. 張瑩,高慧穎,巴志超. 情報理論與實踐. 2015(11)
[7]面向社會媒體的消費意圖識別:任務(wù)、挑戰(zhàn)與機遇[J]. 付博,劉挺. 智能計算機與應(yīng)用. 2015(04)
[8]利用《知網(wǎng)》和領(lǐng)域關(guān)鍵詞集擴展方法的短文本分類研究[J]. 李湘東,曹環(huán),丁叢,黃莉. 現(xiàn)代圖書情報技術(shù). 2015(02)
[9]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶. 計算機學(xué)報. 2015(02)
[10]基于搜索引擎的詞匯語義相似度計算方法[J]. 陳海燕. 計算機科學(xué). 2015(01)
碩士論文
[1]基于改進(jìn)TF-IDF算法的信息抽取系統(tǒng)設(shè)計與實現(xiàn)[D]. 程龍.北京郵電大學(xué) 2019
[2]基于fastText的問答系統(tǒng)用戶意圖識別與關(guān)鍵詞抽取研究[D]. 代令令.廣西大學(xué) 2018
[3]基于改進(jìn)FastText的中文短文本分類方法研究[D]. 屈渤浩.遼寧大學(xué) 2018
[4]基于深度學(xué)習(xí)的短文本分類研究[D]. 胡可奇.電子科技大學(xué) 2018
[5]聊天機器人中用戶出行消費意圖識別方法研究[D]. 錢岳.哈爾濱工業(yè)大學(xué) 2017
[6]基于概念的短文本分類[D]. 蔡志威.華南理工大學(xué) 2016
[7]基于維基百科的短文本特征擴展及分類算法研究[D]. 秦靚靚.天津理工大學(xué) 2016
[8]漢字簡化問題研究[D]. 蘇文正.蘭州大學(xué) 2007
本文編號:3297587
【文章來源】:武漢郵電科學(xué)研究院湖北省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
意圖識別框圖
武漢郵電科學(xué)研究院碩士學(xué)位論文11P(μ|b)∝∏1=1(2-2)其中向量b=(1,2,…,)為超參數(shù),是Dirichlet分布的先驗知識。2.3.2LDA模型LDA[31]潛在狄利克雷模型,是一種非監(jiān)督機器學(xué)習(xí)技術(shù),可以用來識別大規(guī)模文檔庫中潛藏的主題信息。LDA采用詞袋模型,所謂詞袋模型,是將一篇文檔,我們僅考慮一個詞匯是否出現(xiàn),而不考慮其出現(xiàn)的順序。在2003年,在PLSA模型的基礎(chǔ)上,Blei[32]等人對LDA模型進(jìn)行了理論補充和完備,具體來說,它是基于PLSA模型,再加上貝葉斯框架和加入Dirichlet先驗分布效應(yīng),解決了PLSA模型存在的不足之處,即計算復(fù)雜度高,耗時長,占用內(nèi)存空間大等問題。LDA屬于機器學(xué)習(xí)模型中的非監(jiān)督學(xué)習(xí)模型,在模型學(xué)習(xí)之前需要先給出主題的具體數(shù)量,再讓模型去學(xué)習(xí)并挖掘文本潛在的隱藏主題信息。LDA模型主要是一個三層結(jié)構(gòu),即詞條、主題和文檔。LDA模型基于先驗知識理論基礎(chǔ),隨機生成每篇文檔的topic-word分布,文檔-主題分布。然后對topic-word分布中的詞進(jìn)行多次抽取,每次抽取一個詞,到提取完所有的單詞。在提取所有文檔中的所有單詞之間,還將對每個文檔執(zhí)行單詞提齲LDA模型如圖2-2所示。圖2-2LDA主題模型圖聯(lián)合分布見式(2-3)所示。p(→,→|→,→)=∏(→|→,→)(→|→)=1(2-3)其中,→表示文檔m的主題分布,→表示主題分布→的先驗分布,,表示文檔從→中取樣生成文檔m的第n個詞的主題,,→表示詞分布,→表示詞分布的先驗分布,,表示最終生成的m篇文章的第n個詞語,N表示文檔m中的詞條總數(shù),共有m篇文檔[33]。
武漢郵電科學(xué)研究院碩士學(xué)位論文22其中vci+j、vri+j與vsi+j分別表示字、部首與偏旁的“輸入”向量,X為vci+j、vri+j和vsi+j的數(shù)量。對于語料庫D,部首+偏旁+漢字的中文詞向量模型的整體對數(shù)似然函數(shù)如公式3-5所示。L(D)=∑()(3-5)3.4實驗與實驗結(jié)果分析為了驗證本文在CBOW模型的基礎(chǔ)上所改進(jìn)的中文詞向量訓(xùn)練模型GCWE的效果與可行性,本節(jié)將選勸今日頭條”的新聞網(wǎng)的標(biāo)題數(shù)據(jù)作為實驗的數(shù)據(jù)源,經(jīng)過對原始數(shù)據(jù)進(jìn)行清洗以及繁簡轉(zhuǎn)換以后部分?jǐn)?shù)據(jù)如圖3-2所示。圖3-2今日頭條部分?jǐn)?shù)據(jù)通過實驗驗證GCWE中文詞向量模型,同時選用Word2vec詞向量訓(xùn)練模型、CWE模型[45]、JWE模型[46],作為本節(jié)所用方法的對比實驗。詞向量有很多種評價方法,本實驗主要使用詞相似度來評價不同模型訓(xùn)練出的詞向量。訓(xùn)練語料統(tǒng)一使用jieba[47]進(jìn)行分詞,將分詞后的語料送入詞向量模型進(jìn)行詞向量訓(xùn)練,詞向量訓(xùn)練模型的參數(shù)設(shè)置如表3-2所示。表3-2詞向量訓(xùn)練模型參數(shù)參數(shù)英文名參數(shù)中文名參數(shù)設(shè)置值mincount語料中低頻詞的出現(xiàn)詞頻5Size詞向量維度200Sample高頻詞匯的隨機降采樣的配置閾值1e-4lr學(xué)習(xí)速率0.025
【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量特征擴展的中文短文本分類研究[J]. 雷朔,劉旭敏,徐維祥. 計算機應(yīng)用與軟件. 2018(08)
[2]基于Word2vec的句子語義相似度計算研究[J]. 李曉,解輝,李立杰. 計算機科學(xué). 2017(09)
[3]微博文本的句向量表示及相似度計算方法研究[J]. 段旭磊,張仰森,孫祎卓. 計算機工程. 2017(05)
[4]中文微博情感詞提取:N-Gram為特征的分類方法[J]. 劉德喜,聶建云,張晶,劉曉華,萬常選,廖國瓊. 中文信息學(xué)報. 2016(04)
[5]基于圖排序的社會媒體用戶的消費意圖檢測[J]. 劉挺,付博,陳毅恒. 中國科學(xué):信息科學(xué). 2015(12)
[6]基于主題關(guān)聯(lián)挖掘的跨類型數(shù)字資源分類方法[J]. 張瑩,高慧穎,巴志超. 情報理論與實踐. 2015(11)
[7]面向社會媒體的消費意圖識別:任務(wù)、挑戰(zhàn)與機遇[J]. 付博,劉挺. 智能計算機與應(yīng)用. 2015(04)
[8]利用《知網(wǎng)》和領(lǐng)域關(guān)鍵詞集擴展方法的短文本分類研究[J]. 李湘東,曹環(huán),丁叢,黃莉. 現(xiàn)代圖書情報技術(shù). 2015(02)
[9]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶. 計算機學(xué)報. 2015(02)
[10]基于搜索引擎的詞匯語義相似度計算方法[J]. 陳海燕. 計算機科學(xué). 2015(01)
碩士論文
[1]基于改進(jìn)TF-IDF算法的信息抽取系統(tǒng)設(shè)計與實現(xiàn)[D]. 程龍.北京郵電大學(xué) 2019
[2]基于fastText的問答系統(tǒng)用戶意圖識別與關(guān)鍵詞抽取研究[D]. 代令令.廣西大學(xué) 2018
[3]基于改進(jìn)FastText的中文短文本分類方法研究[D]. 屈渤浩.遼寧大學(xué) 2018
[4]基于深度學(xué)習(xí)的短文本分類研究[D]. 胡可奇.電子科技大學(xué) 2018
[5]聊天機器人中用戶出行消費意圖識別方法研究[D]. 錢岳.哈爾濱工業(yè)大學(xué) 2017
[6]基于概念的短文本分類[D]. 蔡志威.華南理工大學(xué) 2016
[7]基于維基百科的短文本特征擴展及分類算法研究[D]. 秦靚靚.天津理工大學(xué) 2016
[8]漢字簡化問題研究[D]. 蘇文正.蘭州大學(xué) 2007
本文編號:3297587
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3297587.html
最近更新
教材專著