基于云服務的AI玩偶的研究及在教育教學中的應用
發(fā)布時間:2021-11-22 12:30
在人工智能時代,以"會說話的湯姆貓"應用為代表的虛擬化、智能化的玩偶軟件愈加得到人們的青睞。從教育的角度,它們能提供兒童陪伴、輔助學習等功能。但是,對于教育領域的研究人員而言,受限于AI技術的復雜性、智能終端的硬件和網(wǎng)絡條件,構(gòu)建功能豐富、用戶體驗良好的AI玩偶應用較為困難。針對該問題,提出了快速構(gòu)建一個Android平臺AI玩偶應用軟件的解決方案,并集成了多個第三方提供的云服務實現(xiàn)了人臉合成3D玩偶、語音轉(zhuǎn)換、語音評測及社交分享等功能。通過性能測試和與相關研究做比較,該AI玩偶應用框架適用于主流的Android終端,具有良好的響應速度和用戶體驗,能成為輔助教育教學的工具。
【文章來源】:計算機工程與科學. 2018,40(S1)北大核心CSCD
【文章頁數(shù)】:9 頁
【部分圖文】:
圖2AI玩偶軟件的體系架構(gòu)圖Figure2ArchitectureoftheproposedAIavatar
Figure3Flowchartofhumanfacesynthesis圖3AI玩偶的人臉合成機制圖動態(tài)數(shù)組中;當最后一張臉計算結(jié)束,用冒泡法選擇出最大的相似度人臉信息;然后,將與相似度對應的人臉信息按內(nèi)部自定義協(xié)議打包,發(fā)送到玩偶庫,其將輸出與用戶相似的玩偶形象。最后將人臉合成結(jié)果返回到用戶界面。由于人臉庫與特征點庫是靜態(tài)綁定的,當人臉合成算法獲取到人臉信息時,即可獲得與之對應的唯一特征點信息。人臉合成機制主要分為三個階段:訓練階段、識別階段和選擇階段。該機制融合了主成分分析PCA(PrincipalComponentAnalysis)算法的思想[27]。訓練階段要對人臉進行擬選,先將人臉進行分類(可按臉型、嘴型等),然后在當前已有的分組中再揀選出具有該組共有特征的臉。在人臉中,除一個組像之外,還有其他的特征組像。每個組像都依此流程進行選擇,然后將相應的部件存儲下來,形成人臉庫。人臉庫確定之后,對各個臉的特征點數(shù)據(jù)進行測試。為了提高相似度的準確性,將各個特征點按比例處理后進行分類,然后將各個人臉的特征點以Json格式存儲在本地的SQLite數(shù)據(jù)庫中,形成特征點庫。將特征點庫與人臉庫進行靜態(tài)綁定后,即完成訓練階段。在識別階段,調(diào)用了科大訊飛的人臉識別和特征點返回云端服務。首先,獲取用戶的圖像信息,照片來源可以通過調(diào)用移動端攝像頭拍照或者打開本地照片選取。然后,調(diào)用人臉識別云端服務,由云服務進行計算和分析,輸出人臉上具體的特征點的位
對2D人臉照片的要求,可以識別以正前方為原點,在左右偏差(-45°,+45°)的范圍的人臉。關鍵在于其獲取到人臉數(shù)據(jù)之后,并非直接計算,而是比例化數(shù)據(jù)和鏡像處理數(shù)據(jù);若人臉有一定的角度偏移,可根據(jù)其偏移的角度和數(shù)據(jù)的比例信息還原出原臉信息。4.2語音轉(zhuǎn)換機制語音轉(zhuǎn)換算法實現(xiàn)了由語音觸發(fā)動作、動畫與語音同步播放,其實現(xiàn)機制如圖4所示。Figure4FlowchartofspeechconversionoftheAIavatar圖4AI玩偶的語音轉(zhuǎn)換流圖結(jié)合科大訊飛的語音合成和語音識別等技術實現(xiàn)語音—文本—語音的語音轉(zhuǎn)換系統(tǒng)。語音監(jiān)聽獲取到語音信息,將其轉(zhuǎn)化為文本信息;語音監(jiān)聽也支持文本輸入。具體而言,將獲取到的文本信息輸入到關鍵字提取算法;該算法調(diào)用字符庫中的信息,將字符庫的信息與接收到的信息進行字符匹配,提取出關鍵字信息,并打包發(fā)送到動畫庫;動畫庫與字符庫之間是動態(tài)綁定,輸出與字符對應的動畫;信息處理組件接收到關鍵字的信息,會同時控制文本信息與動畫的同步播放。動畫庫是系統(tǒng)預存儲的由多張圖片實現(xiàn)的幀動畫。所有的圖片存儲了之后,使用XML文件進行組織,形成連續(xù)的動畫。而動畫庫與字符庫之間是動態(tài)綁定的。動態(tài)綁定相比于靜態(tài)綁定,不僅在語法上對輸入信息進行處理,在語義上也能進行識別。4.3視頻錄制合成和分享視頻錄制合成與分享是基于Mob移動服務開發(fā)的,Mob服務平臺提供視頻錄制和合成接口,也支持多平臺、多形式的分享。具體方法是:首
【參考文獻】:
期刊論文
[1]人工智能賦能教育與學習[J]. 賈積有. 遠程教育雜志. 2018(01)
[2]構(gòu)筑“人工智能+教育”的生態(tài)系統(tǒng)[J]. 吳永和,劉博文,馬曉玲. 遠程教育雜志. 2017(05)
[3]改進的模塊PCA人臉識別新算法[J]. 趙鑫,汪維家,曾雅云,熊才偉,任彥嘉. 計算機工程與應用. 2015(02)
[4]基于聲學統(tǒng)計建模的語音合成技術研究[J]. 胡郁,凌震華,王仁華,戴禮榮. 中文信息學報. 2011(06)
[5]一種SaaS模式下的服務社區(qū)模型及其在全國科技信息服務網(wǎng)中的應用[J]. 王卓昊,趙卓峰,房俊,王希誠. 計算機學報. 2010(11)
[6]改進的主動形狀模型方法在人臉特征點定位中的應用[J]. 戈新良,楊杰,張?zhí)镪?杜春華. 上海交通大學學報. 2007(08)
[7]一種改進的KMP高效模式匹配算法[J]. 魯宏偉,魏凱,孔華鋒. 華中科技大學學報(自然科學版). 2006(10)
[8]一種改進的BM模式匹配算法[J]. 楊薇薇,廖翔. 計算機應用. 2006(02)
[9]計算機人臉合成系統(tǒng)的設計與實現(xiàn)[J]. 李武軍,任中方,陳兆乾. 計算機應用研究. 2004(07)
[10]人臉檢測研究綜述[J]. 梁路宏,艾海舟,徐光祐,張鈸. 計算機學報. 2002(05)
碩士論文
[1]Android平臺上基于云服務的隨身翻譯工具的設計與實現(xiàn)[D]. 盛玉林.復旦大學 2013
本文編號:3511694
【文章來源】:計算機工程與科學. 2018,40(S1)北大核心CSCD
【文章頁數(shù)】:9 頁
【部分圖文】:
圖2AI玩偶軟件的體系架構(gòu)圖Figure2ArchitectureoftheproposedAIavatar
Figure3Flowchartofhumanfacesynthesis圖3AI玩偶的人臉合成機制圖動態(tài)數(shù)組中;當最后一張臉計算結(jié)束,用冒泡法選擇出最大的相似度人臉信息;然后,將與相似度對應的人臉信息按內(nèi)部自定義協(xié)議打包,發(fā)送到玩偶庫,其將輸出與用戶相似的玩偶形象。最后將人臉合成結(jié)果返回到用戶界面。由于人臉庫與特征點庫是靜態(tài)綁定的,當人臉合成算法獲取到人臉信息時,即可獲得與之對應的唯一特征點信息。人臉合成機制主要分為三個階段:訓練階段、識別階段和選擇階段。該機制融合了主成分分析PCA(PrincipalComponentAnalysis)算法的思想[27]。訓練階段要對人臉進行擬選,先將人臉進行分類(可按臉型、嘴型等),然后在當前已有的分組中再揀選出具有該組共有特征的臉。在人臉中,除一個組像之外,還有其他的特征組像。每個組像都依此流程進行選擇,然后將相應的部件存儲下來,形成人臉庫。人臉庫確定之后,對各個臉的特征點數(shù)據(jù)進行測試。為了提高相似度的準確性,將各個特征點按比例處理后進行分類,然后將各個人臉的特征點以Json格式存儲在本地的SQLite數(shù)據(jù)庫中,形成特征點庫。將特征點庫與人臉庫進行靜態(tài)綁定后,即完成訓練階段。在識別階段,調(diào)用了科大訊飛的人臉識別和特征點返回云端服務。首先,獲取用戶的圖像信息,照片來源可以通過調(diào)用移動端攝像頭拍照或者打開本地照片選取。然后,調(diào)用人臉識別云端服務,由云服務進行計算和分析,輸出人臉上具體的特征點的位
對2D人臉照片的要求,可以識別以正前方為原點,在左右偏差(-45°,+45°)的范圍的人臉。關鍵在于其獲取到人臉數(shù)據(jù)之后,并非直接計算,而是比例化數(shù)據(jù)和鏡像處理數(shù)據(jù);若人臉有一定的角度偏移,可根據(jù)其偏移的角度和數(shù)據(jù)的比例信息還原出原臉信息。4.2語音轉(zhuǎn)換機制語音轉(zhuǎn)換算法實現(xiàn)了由語音觸發(fā)動作、動畫與語音同步播放,其實現(xiàn)機制如圖4所示。Figure4FlowchartofspeechconversionoftheAIavatar圖4AI玩偶的語音轉(zhuǎn)換流圖結(jié)合科大訊飛的語音合成和語音識別等技術實現(xiàn)語音—文本—語音的語音轉(zhuǎn)換系統(tǒng)。語音監(jiān)聽獲取到語音信息,將其轉(zhuǎn)化為文本信息;語音監(jiān)聽也支持文本輸入。具體而言,將獲取到的文本信息輸入到關鍵字提取算法;該算法調(diào)用字符庫中的信息,將字符庫的信息與接收到的信息進行字符匹配,提取出關鍵字信息,并打包發(fā)送到動畫庫;動畫庫與字符庫之間是動態(tài)綁定,輸出與字符對應的動畫;信息處理組件接收到關鍵字的信息,會同時控制文本信息與動畫的同步播放。動畫庫是系統(tǒng)預存儲的由多張圖片實現(xiàn)的幀動畫。所有的圖片存儲了之后,使用XML文件進行組織,形成連續(xù)的動畫。而動畫庫與字符庫之間是動態(tài)綁定的。動態(tài)綁定相比于靜態(tài)綁定,不僅在語法上對輸入信息進行處理,在語義上也能進行識別。4.3視頻錄制合成和分享視頻錄制合成與分享是基于Mob移動服務開發(fā)的,Mob服務平臺提供視頻錄制和合成接口,也支持多平臺、多形式的分享。具體方法是:首
【參考文獻】:
期刊論文
[1]人工智能賦能教育與學習[J]. 賈積有. 遠程教育雜志. 2018(01)
[2]構(gòu)筑“人工智能+教育”的生態(tài)系統(tǒng)[J]. 吳永和,劉博文,馬曉玲. 遠程教育雜志. 2017(05)
[3]改進的模塊PCA人臉識別新算法[J]. 趙鑫,汪維家,曾雅云,熊才偉,任彥嘉. 計算機工程與應用. 2015(02)
[4]基于聲學統(tǒng)計建模的語音合成技術研究[J]. 胡郁,凌震華,王仁華,戴禮榮. 中文信息學報. 2011(06)
[5]一種SaaS模式下的服務社區(qū)模型及其在全國科技信息服務網(wǎng)中的應用[J]. 王卓昊,趙卓峰,房俊,王希誠. 計算機學報. 2010(11)
[6]改進的主動形狀模型方法在人臉特征點定位中的應用[J]. 戈新良,楊杰,張?zhí)镪?杜春華. 上海交通大學學報. 2007(08)
[7]一種改進的KMP高效模式匹配算法[J]. 魯宏偉,魏凱,孔華鋒. 華中科技大學學報(自然科學版). 2006(10)
[8]一種改進的BM模式匹配算法[J]. 楊薇薇,廖翔. 計算機應用. 2006(02)
[9]計算機人臉合成系統(tǒng)的設計與實現(xiàn)[J]. 李武軍,任中方,陳兆乾. 計算機應用研究. 2004(07)
[10]人臉檢測研究綜述[J]. 梁路宏,艾海舟,徐光祐,張鈸. 計算機學報. 2002(05)
碩士論文
[1]Android平臺上基于云服務的隨身翻譯工具的設計與實現(xiàn)[D]. 盛玉林.復旦大學 2013
本文編號:3511694
本文鏈接:http://sikaile.net/kejilunwen/rengongzhinen/3511694.html