天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于機(jī)器學(xué)習(xí)的問卷可信度審核系統(tǒng)

發(fā)布時(shí)間:2020-08-03 08:07
【摘要】:入戶問卷調(diào)查是國民普查的主要方式,每年國家財(cái)政花費(fèi)巨額經(jīng)費(fèi)用于這些活動(dòng),期望獲得準(zhǔn)確調(diào)查數(shù)據(jù),以把握真實(shí)情況和做出合理決策,為國民經(jīng)濟(jì)生活服務(wù)。但是,由于調(diào)查過程中的各種原因,導(dǎo)致調(diào)查問卷中存在大量不合格問卷(如問卷造假),影響了調(diào)查數(shù)據(jù)的準(zhǔn)確性,進(jìn)而影響了決策的科學(xué)性。識(shí)別不合格問卷,目前的做法是靠人工逐個(gè)審核問卷,存在效率低、成本高,主觀性大等問題。隨著調(diào)查活動(dòng)的頻率和范圍的逐年增長,不合格問卷的識(shí)別需求與日俱增,亟需一種自動(dòng)化甄別調(diào)查問卷系統(tǒng),以解放人力、提高審核效率、降低成本,提升審核的客觀性。目前,關(guān)于自動(dòng)問卷審核的相關(guān)研究還不多見,基于簡單規(guī)則可以審核問卷,但是需要人工定義規(guī)則,靈活性較差。近年來,機(jī)器學(xué)習(xí)在圖像處理、語音處理等領(lǐng)域廣泛應(yīng)用并取得了突破性進(jìn)展,為自動(dòng)化審核問卷提供了可借鑒的技術(shù)和經(jīng)驗(yàn)。因此,本研究有重要的實(shí)際意義,并拓展機(jī)器學(xué)習(xí)的應(yīng)用空間。為此,本文設(shè)計(jì)并實(shí)現(xiàn)了基于機(jī)器學(xué)習(xí)的問卷審核系統(tǒng),以自動(dòng)化審核調(diào)查問卷。系統(tǒng)設(shè)計(jì)的關(guān)鍵問題是,特征工程問題,即如何從高維特征中挑選出對(duì)可信度識(shí)別貢獻(xiàn)最大的特征,以及模型選擇問題,即選擇怎樣的機(jī)器學(xué)習(xí)模型以(從準(zhǔn)確率和召回率角度)更好的識(shí)別出不合格問卷。本文從音頻、圖像等多維度挖掘問卷復(fù)雜特征,從中提取最有價(jià)值的特征,并對(duì)比選擇在數(shù)據(jù)集上表現(xiàn)最優(yōu)的機(jī)器學(xué)習(xí)模型來訓(xùn)練和審核調(diào)查問卷。7萬份真實(shí)問卷的訓(xùn)練/審核表明,本文提出的自動(dòng)審核系統(tǒng),AUC為0.88,F1值為0.71,滿足審核需求,而且在審核效率、審核的特征維度和評(píng)分的精細(xì)程度上,遠(yuǎn)遠(yuǎn)高于人工審核,且審核過程公正客觀。具體來說,本文貢獻(xiàn)如下:(1)設(shè)計(jì)了一套基于機(jī)器學(xué)習(xí)的問卷審核系統(tǒng),實(shí)現(xiàn)對(duì)問卷的自動(dòng)審核。該系統(tǒng)包括有音頻、圖像等各個(gè)分析模塊,挖掘提取問卷的高維特征,送入機(jī)器學(xué)習(xí)模型,得到問卷可信度得分。(2)設(shè)計(jì)了海量特征信息挖掘方法并完成了特征篩選,以實(shí)現(xiàn)特征降維和提高模型的識(shí)別性能。針對(duì)調(diào)查問卷的信息,該系統(tǒng)從多維度評(píng)估問卷,挖掘出上千維特征,并對(duì)高維特征進(jìn)行了相關(guān)性分析和特征工程,篩選出最有價(jià)值的特征。(3)比較/評(píng)估了不同機(jī)器學(xué)習(xí)模型,以選擇在測試數(shù)據(jù)集上表現(xiàn)最優(yōu)的模型,進(jìn)一步提高問卷審核系統(tǒng)的性能。本文比較了幾種經(jīng)典的機(jī)器學(xué)習(xí)模型,找到在現(xiàn)有數(shù)據(jù)集上表現(xiàn)最優(yōu)的模型。
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP18
【圖文】:

模塊圖,多維度,機(jī)器學(xué)習(xí),功能結(jié)構(gòu)圖


3.2.2整體設(shè)計(jì)逡逑根據(jù)自動(dòng)審核問卷可信度系統(tǒng)的實(shí)現(xiàn)流程,本文可懫用分而治之的設(shè)計(jì)思路逡逑將該系統(tǒng)劃分為四個(gè)模塊,其總體結(jié)構(gòu)如圖3-2所示。邐逡逑音頻分析模塊邋邐?提取有效音頻時(shí)間、靜默時(shí)間、語速等逡逑_邐邐邋邐1邐返逡逑回逡逑問邐圖像分析模塊邋邐?提取圖像人數(shù)、圖像質(zhì)量信息邐各逡逑卷邐丨邐丨邐邐I邐模逡逑壓—?邐邋?塊逡逑縮邐k逡逑包*

流程圖,音頻,題目,日志


不足、調(diào)查員語速過快等方面,因此本模塊的重點(diǎn)在于提取靜默時(shí)間以及按照題逡逑目劃分音頻,提取單個(gè)題目的特征。針對(duì)上述問題,本文設(shè)計(jì)提出了提取音頻信逡逑息的流程如圖3-3:逡逑邐^邋r邐逡逑輸入一份問卷逡逑Y逡逑邐%煎義戲治鋈罩疚募義襄危殄五義隙砸羝等ゾ材、按辶x咸餑殼釁義稀澹蟈五義希五義系玫揭羝堤卣骶卣簀義襄危蒎澹坼五義掀攔酪羝堤卣鰨五義銑沙跽锝峁義襄危蒎澹坼五義希駑褰崾懼五義賢跡常騁羝的?榱鞒掏煎義希疲椋紓酰潁邋澹常沖澹疲酰睿悖簦椋錚睿幔戾澹櫻簦潁酰悖簦酰潁邋澹模椋幔紓潁幔礤澹錚駑澹粒酰洌椋镥澹停錚洌酰歟邋義希病垮義

本文編號(hào):2779346

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2779346.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b4a89***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com