智能問答系統(tǒng)中答案抽取技術(shù)的研究
發(fā)布時(shí)間:2021-11-26 15:27
隨著互聯(lián)網(wǎng)技術(shù)的日益發(fā)展,在線問答社區(qū)正逐漸成為一種廣受用戶喜愛的信息分享與獲取平臺。用戶可以在其中以提問或者是查詢相似問題的形式從其他用戶的答案中獲取滿足自己需求的信息。然而,用戶提供的答案的質(zhì)量良莠不齊,要從眾多答案中抽取質(zhì)量高、過濾語義重復(fù)、生成語序正確的答案子句已成為問答社區(qū)研究中一個(gè)極具挑戰(zhàn)性的難題。結(jié)合某安全工程研究院搭建智能問答系統(tǒng)中,亟需自動(dòng)構(gòu)建化工領(lǐng)域問答對的研究需求,本文以化工領(lǐng)域規(guī)模最大、最具權(quán)威性的海川化工論壇數(shù)據(jù)為研究對象,主要從以下三方面開展智能問答系統(tǒng)中答案抽取技術(shù)的研究:(1)參與社區(qū)問答的用戶特征可在答案質(zhì)量預(yù)測中表征豐富的輔助數(shù)據(jù),本文構(gòu)建了海川化工論壇用戶問答異質(zhì)信息網(wǎng)絡(luò),設(shè)計(jì)了兩種元路徑,利用Node2vec算法提取社區(qū)用戶向量表示。消融實(shí)驗(yàn)證明,本文構(gòu)建的社區(qū)論壇異質(zhì)信息網(wǎng)絡(luò)對于海川化工社區(qū)劃分的有效性。(2)從論壇問題的眾多回答中篩選出少量高質(zhì)量答案,作為答案抽取的數(shù)據(jù)集,可提升答案抽取算法的準(zhǔn)確性。但是海川化工論壇中存在大量沒有積分評價(jià)的答案,無法直接根據(jù)積分判斷答案質(zhì)量,因此本文構(gòu)建了一種針對化工領(lǐng)域的論壇答案質(zhì)量預(yù)測算法。首先結(jié)合化工領(lǐng)...
【文章來源】:青島科技大學(xué)山東省
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
隨機(jī)游走流程
青島科技大學(xué)研究生學(xué)位論文17圖2-4海川化工論壇頁面Fig.2-4Haichuanchemicalforumpage本文從海川化工論壇中爬取了約一萬條用戶信息,以及2008-2018年間約五十萬條問答信息。為了保證每個(gè)用戶在異質(zhì)信息網(wǎng)絡(luò)中有充足的邊信息,本文從爬取的用戶中刪除單個(gè)問題回答人數(shù)小于10人的問答信息,再刪除沒有回答過問題的用戶。經(jīng)過預(yù)處理,本文最終保留了4167個(gè)用戶信息,5500個(gè)問題文本和11萬條答案文本。表2-2列出了本文從海川化工論壇中爬取的初始數(shù)據(jù)樣例。
青島科技大學(xué)研究生學(xué)位論文25其中,),(iQcTF是詞語c在中出現(xiàn)的次數(shù)。IDF(c)的計(jì)算公式如下:1)(1log)(csscIDF(3-5)本文中將一個(gè)問答和其答案集作為一個(gè)文檔,因此公式3-5中的s代表文檔總數(shù),s(c)代表含有詞語c的文檔總數(shù)。用TF-IDF算法計(jì)算問答文本中每個(gè)詞語c的TF-IDF值,從而得到詞語c在問題和答案文本中的權(quán)重大小),(iQcK,最后利用公式3-6計(jì)算每個(gè)問題的文本向量和每個(gè)答案的文本向量。mQcKvecsenmic1i),(_(3-6)其中,sen_vec表示問題或答案的文本向量,m表示文本中詞語的個(gè)數(shù),c表示每個(gè)詞的詞向量,),(iQcK表示每個(gè)詞的權(quán)值。3.1.3用戶靜態(tài)特征提取用戶在注冊和使用海川化工論壇的過程中,論壇記錄了用戶的個(gè)人信息和使用數(shù)據(jù),如用戶id、郵箱狀態(tài)、空間訪問量、好友數(shù)、回帖數(shù)、發(fā)言獎(jiǎng)勵(lì)狀態(tài)、視頻認(rèn)證、性別、相冊數(shù)等,如圖3-3所示:圖3-3用戶個(gè)人資料Fig.3-3Userprofile通過整理本文爬取的4167位用戶的個(gè)人信息,本文同樣計(jì)算了用戶各特征與回復(fù)答案質(zhì)量之間的P值,最終選擇性別、郵箱狀態(tài)、回帖數(shù)、朋友數(shù)作為用戶靜態(tài)特征。iQ
【參考文獻(xiàn)】:
期刊論文
[1]近十年協(xié)同過濾研究熱點(diǎn)和前沿分析[J]. 項(xiàng)陽,徐浩楠,趙顯基. 產(chǎn)業(yè)創(chuàng)新研究. 2020(06)
[2]基于隱語義模型的協(xié)同過濾構(gòu)建圖書推薦系統(tǒng)[J]. 楊杰中. 科學(xué)咨詢(科技·管理). 2020(03)
[3]基于深度學(xué)習(xí)的推薦系統(tǒng)應(yīng)用綜述[J]. 呂剛,張偉. 軟件工程. 2020(02)
[4]社會化問答社區(qū)用戶知識貢獻(xiàn)行為影響因素研究綜述[J]. 廖建宇. 產(chǎn)業(yè)與科技論壇. 2020(03)
[5]一種智能問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 劉芳. 信息技術(shù)與信息化. 2019(12)
[6]特征選擇算法研究綜述[J]. 梁伍七,王榮華,劉克禮,李斌. 安徽廣播電視大學(xué)學(xué)報(bào). 2019(04)
[7]面向多片段答案的抽取式閱讀理解模型[J]. 蘇立新,郭嘉豐,范意興,蘭艷艷,徐君,程學(xué)旗. 計(jì)算機(jī)學(xué)報(bào). 2020(05)
[8]高效圖推薦算法應(yīng)用研究[J]. 劉清,王帆,馮亮,夏天鶴,熊志奇,施濤. 軟件導(dǎo)刊. 2019(08)
[9]融合深度學(xué)習(xí)和因子分解機(jī)的興趣點(diǎn)簽到預(yù)測研究[J]. 蘇暢,彭劭聞,謝顯中,劉寧寧. 計(jì)算機(jī)科學(xué). 2019(05)
[10]因子分解機(jī)模型研究綜述[J]. 趙衎衎,張良富,張靜,李翠平,陳紅. 軟件學(xué)報(bào). 2019(03)
碩士論文
[1]基于異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)的推薦算法研究與實(shí)現(xiàn)[D]. 胡斌斌.北京郵電大學(xué) 2019
[2]面向非結(jié)構(gòu)化文本的問答系統(tǒng)中答案抽取技術(shù)研究[D]. 麻俊滿.哈爾濱工業(yè)大學(xué) 2019
[3]基于深度學(xué)習(xí)的候選答案句選擇研究[D]. 張學(xué)武.廣東工業(yè)大學(xué) 2019
[4]基于中文社區(qū)的智能問答系統(tǒng)的設(shè)計(jì)與研究[D]. 曹艷蓉.南京郵電大學(xué) 2018
[5]基于Word2vec的中文Web智能問答系統(tǒng)的研究與設(shè)計(jì)[D]. 徐成章.電子科技大學(xué) 2018
[6]基于語義推理和表示的機(jī)器閱讀理解研究[D]. 李晨瑞.華東師范大學(xué) 2018
[7]在線問答社區(qū)意見型問題的答案摘要研究[D]. 程亞男.大連理工大學(xué) 2018
[8]基于深度學(xué)習(xí)的智能問答系統(tǒng)的研究與實(shí)現(xiàn)[D]. 卓越.沈陽師范大學(xué) 2018
[9]基于深度學(xué)習(xí)的答案融合方法研究[D]. 欒克鑫.哈爾濱工業(yè)大學(xué) 2017
本文編號:3520430
【文章來源】:青島科技大學(xué)山東省
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
隨機(jī)游走流程
青島科技大學(xué)研究生學(xué)位論文17圖2-4海川化工論壇頁面Fig.2-4Haichuanchemicalforumpage本文從海川化工論壇中爬取了約一萬條用戶信息,以及2008-2018年間約五十萬條問答信息。為了保證每個(gè)用戶在異質(zhì)信息網(wǎng)絡(luò)中有充足的邊信息,本文從爬取的用戶中刪除單個(gè)問題回答人數(shù)小于10人的問答信息,再刪除沒有回答過問題的用戶。經(jīng)過預(yù)處理,本文最終保留了4167個(gè)用戶信息,5500個(gè)問題文本和11萬條答案文本。表2-2列出了本文從海川化工論壇中爬取的初始數(shù)據(jù)樣例。
青島科技大學(xué)研究生學(xué)位論文25其中,),(iQcTF是詞語c在中出現(xiàn)的次數(shù)。IDF(c)的計(jì)算公式如下:1)(1log)(csscIDF(3-5)本文中將一個(gè)問答和其答案集作為一個(gè)文檔,因此公式3-5中的s代表文檔總數(shù),s(c)代表含有詞語c的文檔總數(shù)。用TF-IDF算法計(jì)算問答文本中每個(gè)詞語c的TF-IDF值,從而得到詞語c在問題和答案文本中的權(quán)重大小),(iQcK,最后利用公式3-6計(jì)算每個(gè)問題的文本向量和每個(gè)答案的文本向量。mQcKvecsenmic1i),(_(3-6)其中,sen_vec表示問題或答案的文本向量,m表示文本中詞語的個(gè)數(shù),c表示每個(gè)詞的詞向量,),(iQcK表示每個(gè)詞的權(quán)值。3.1.3用戶靜態(tài)特征提取用戶在注冊和使用海川化工論壇的過程中,論壇記錄了用戶的個(gè)人信息和使用數(shù)據(jù),如用戶id、郵箱狀態(tài)、空間訪問量、好友數(shù)、回帖數(shù)、發(fā)言獎(jiǎng)勵(lì)狀態(tài)、視頻認(rèn)證、性別、相冊數(shù)等,如圖3-3所示:圖3-3用戶個(gè)人資料Fig.3-3Userprofile通過整理本文爬取的4167位用戶的個(gè)人信息,本文同樣計(jì)算了用戶各特征與回復(fù)答案質(zhì)量之間的P值,最終選擇性別、郵箱狀態(tài)、回帖數(shù)、朋友數(shù)作為用戶靜態(tài)特征。iQ
【參考文獻(xiàn)】:
期刊論文
[1]近十年協(xié)同過濾研究熱點(diǎn)和前沿分析[J]. 項(xiàng)陽,徐浩楠,趙顯基. 產(chǎn)業(yè)創(chuàng)新研究. 2020(06)
[2]基于隱語義模型的協(xié)同過濾構(gòu)建圖書推薦系統(tǒng)[J]. 楊杰中. 科學(xué)咨詢(科技·管理). 2020(03)
[3]基于深度學(xué)習(xí)的推薦系統(tǒng)應(yīng)用綜述[J]. 呂剛,張偉. 軟件工程. 2020(02)
[4]社會化問答社區(qū)用戶知識貢獻(xiàn)行為影響因素研究綜述[J]. 廖建宇. 產(chǎn)業(yè)與科技論壇. 2020(03)
[5]一種智能問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 劉芳. 信息技術(shù)與信息化. 2019(12)
[6]特征選擇算法研究綜述[J]. 梁伍七,王榮華,劉克禮,李斌. 安徽廣播電視大學(xué)學(xué)報(bào). 2019(04)
[7]面向多片段答案的抽取式閱讀理解模型[J]. 蘇立新,郭嘉豐,范意興,蘭艷艷,徐君,程學(xué)旗. 計(jì)算機(jī)學(xué)報(bào). 2020(05)
[8]高效圖推薦算法應(yīng)用研究[J]. 劉清,王帆,馮亮,夏天鶴,熊志奇,施濤. 軟件導(dǎo)刊. 2019(08)
[9]融合深度學(xué)習(xí)和因子分解機(jī)的興趣點(diǎn)簽到預(yù)測研究[J]. 蘇暢,彭劭聞,謝顯中,劉寧寧. 計(jì)算機(jī)科學(xué). 2019(05)
[10]因子分解機(jī)模型研究綜述[J]. 趙衎衎,張良富,張靜,李翠平,陳紅. 軟件學(xué)報(bào). 2019(03)
碩士論文
[1]基于異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)的推薦算法研究與實(shí)現(xiàn)[D]. 胡斌斌.北京郵電大學(xué) 2019
[2]面向非結(jié)構(gòu)化文本的問答系統(tǒng)中答案抽取技術(shù)研究[D]. 麻俊滿.哈爾濱工業(yè)大學(xué) 2019
[3]基于深度學(xué)習(xí)的候選答案句選擇研究[D]. 張學(xué)武.廣東工業(yè)大學(xué) 2019
[4]基于中文社區(qū)的智能問答系統(tǒng)的設(shè)計(jì)與研究[D]. 曹艷蓉.南京郵電大學(xué) 2018
[5]基于Word2vec的中文Web智能問答系統(tǒng)的研究與設(shè)計(jì)[D]. 徐成章.電子科技大學(xué) 2018
[6]基于語義推理和表示的機(jī)器閱讀理解研究[D]. 李晨瑞.華東師范大學(xué) 2018
[7]在線問答社區(qū)意見型問題的答案摘要研究[D]. 程亞男.大連理工大學(xué) 2018
[8]基于深度學(xué)習(xí)的智能問答系統(tǒng)的研究與實(shí)現(xiàn)[D]. 卓越.沈陽師范大學(xué) 2018
[9]基于深度學(xué)習(xí)的答案融合方法研究[D]. 欒克鑫.哈爾濱工業(yè)大學(xué) 2017
本文編號:3520430
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3520430.html
最近更新
教材專著