支持語音識別功能的Andriod記事本軟件設(shè)計與實現(xiàn)
第 1 章 緒論
1.1 研究背景與意義
隨著移動終端和互聯(lián)網(wǎng)技術(shù)的不斷更新和進步,帶動了一批相關(guān)產(chǎn)業(yè)的發(fā)展。語音識別技術(shù)作為智能技術(shù)的重要組成部分,為人工智能的發(fā)展做出了重要的貢獻[1-2]。二十年前,PC 剛剛在國內(nèi)嶄露頭角,人們用 PC 進行辦公,玩游戲等有限的事情,當時手機還不普及,用戶群體非常小眾化,十年前,PC 的功能變得多樣化起來,而手機也漸漸開始普及,但功能主要局限在電話與短信等幾個基本的功能上,接下來短短幾年的時間的發(fā)展,隨著以智能手機和平板為代表的智能移動終端的出現(xiàn)[3-4],信息化的格局出現(xiàn)了天翻地覆的變化,智能移動終端體積小,攜帶方便,功能卻不輸 PC 端,這些優(yōu)勢使得智能移動終端在信息化建設(shè)中的地位越來越重要,用戶群體正在從傳統(tǒng)的 PC 端逐步地向智能移動端轉(zhuǎn)移,很多以前必須要通過 PC 來做的事情,現(xiàn)在可以通過移動端輕松的完成,在這樣一個大環(huán)境下,越來越多的資源投入到了移動終端領(lǐng)域,大量優(yōu)秀的移動應(yīng)用呈現(xiàn)井噴式的涌現(xiàn),人們的使用習慣也隨著科技的發(fā)展而改變,用手機瀏覽新聞、購物、看視頻、理財、玩游戲等等,人們生活的方方面面都跟移動應(yīng)用有著千絲萬縷的關(guān)系,人們對手機應(yīng)用依賴也越來越強[5-6]。 語音識別就是將人的語音通過一定的技術(shù),轉(zhuǎn)化為文字,并在特定的設(shè)備上顯示的一種新技術(shù),該技術(shù)的應(yīng)用極為廣泛[7-8]。語音識別技術(shù)被應(yīng)用到智能手機領(lǐng)域,通過將語音識別為文字,或者通過語音識別技術(shù)實現(xiàn)智能撥號,直接說出手機號或者直接說出名字,智能手機實現(xiàn)自動撥號,這樣不僅可以解放人類的雙手,還能夠節(jié)省不少寶貴的時間[8]。而且隨著語音識別技術(shù)的不斷發(fā)展進步,語音識別已經(jīng)成為一種趨勢和潮流,成為了眾多手機應(yīng)用軟件所重點研究的對象[9-10]。 隨著通信設(shè)備網(wǎng)絡(luò)和計算機科學的不斷發(fā)展,智能手機不再僅僅是通信網(wǎng)絡(luò)的終端,還將成為互聯(lián)網(wǎng)的通信終端,手機用戶對移動設(shè)備的性能有了智能化和人性化的要求。目前具備語音識別功能已成為中高端主流的智能手機所必須具備的一個標志性功能。在很多特殊的環(huán)境中,比如駕車時人們會希望通過聲音就能操作手機,從而讓生活更便利、更安全、更現(xiàn)代化[11]。
.......
1.2 國內(nèi)外研究概況
對語音識別技術(shù)的研究最早是在 1955 年,當時是一個叫做約翰遜的教授開發(fā)創(chuàng)造出來的,不過這個比較簡單,只是實現(xiàn)了十個字母的語音識別,,可識別的數(shù)據(jù)量非常有限。但是這在語音識別技術(shù)領(lǐng)域它卻是一個重的里程碑式的突破。后來在大約十年后,計算機技術(shù)的出現(xiàn),這是一個歷史性的進步,該技術(shù)非常重視線性規(guī)劃和動態(tài)分析兩項技術(shù),其中線性規(guī)劃技術(shù)為解決信號識別率低的問題,提供了一個很好的方法[12]。 大約過了十年以后,隨著人們對語音識別技術(shù)的進一步認識,以及科學技術(shù)的不斷進步和完善,人們研究語音識別技術(shù)的工具越來越先進,越來越科學。LP 技術(shù)(教練技術(shù))的應(yīng)用就是一個很好的證明,科學家利用 LP 技術(shù)實現(xiàn)了對個別詞語的高效識別的功能[13-14]。 又是近十年的發(fā)展 ,科學技術(shù)又有了進步,新的技術(shù)水平和新的工藝不斷得到廣泛的使用,特別是人工神經(jīng)網(wǎng)絡(luò)技術(shù)的推廣,對語音識別識別概率的顯著拉升起到了很好的推動作用。隨著 HMM(隱馬爾可夫模型)模型的廣泛應(yīng)用,能夠首次實現(xiàn)超過一千個字符的又好又快的識別效率,該模型的應(yīng)用,被認為是語音識別技術(shù)發(fā)展史上的一個非常重要的里程碑事件[15-16]。 進入到 20 世紀末期,大型科技公司投入了大量資金對語音識別技術(shù)進行研究,通過一系列的實驗方法,取得了一定的進步,但是在應(yīng)用上還是存在很多弊端,還需要進一步的深入研究[17-18]。
......
第 2 章 語音記事本需求分析
本章主要研究該系統(tǒng)的需求分析,其中主要包括:功能需求、非功能需求和約束三大部分,并對系統(tǒng)流程進行了梳理和簡介,對完善系統(tǒng)需求分析起到了很好的導向作用。需求其實就是軟件最基本最迫切最必須完成的任務(wù),它包含功能、非功能以及約束[26-27]。
2.1 功能需求分析
在終端用戶需求的收集方面,主要采取用戶訪談和觀察用戶使用習慣的方法,通過分析用戶的不同使用場景和操作習慣,結(jié)合一定的專家意見生成了用戶需求。針對用戶需求先通過系統(tǒng)用例圖梳理需求如圖 2-1 所示。 用戶管理模塊用來提供與用戶個人相關(guān)的信息和服務(wù),包含注冊、登錄、個人信息等功能。登錄,用戶輸入正確的用戶個人注冊信息,才可登錄,否則,登錄失敗。個人信息,界面顯示與用戶相關(guān)的信息,包括昵稱,用戶頭像,登錄次數(shù)等。用戶可以通過錄音、拍照、文字打開新建記錄界面;點擊錄音開始新建記錄:錄音的前 20 秒轉(zhuǎn)換成文本作為標題;錄音可以暫停,取消暫停后繼續(xù)錄音;每個記錄只能有一個錄音;可以編輯錄音文件;拍照/圖片開始記錄:每個記錄只能有一個照片;文字輸入開始新建記錄:輸入記錄內(nèi)容;每條記錄最多可以輸入 200 字;點擊“保存”,將錄音、照片和文本都保存,提示需要輸入智能手機賬號和密碼能夠保存網(wǎng)絡(luò),如果選擇不保存網(wǎng)絡(luò),僅保存本地;如果設(shè)置了智能手機賬號和密碼,保存本地和網(wǎng)絡(luò)。錄音長度最多 2 分鐘;照片最大 2M,總計最大容量:60M。
...........
2.2 性能需求分析
所謂的非功能需求其實是針對功能需求而言的,無法再功能需求中體現(xiàn)的用戶需求?梢园ㄊ欠癖WC數(shù)據(jù)不丟失、系統(tǒng)多長時間崩潰一次、能夠同時給多少用戶提供服務(wù)等等。本課題中提到的非功能需求主要分為業(yè)務(wù)模型、數(shù)據(jù)量計算、總體性能規(guī)格、總體可靠性規(guī)格等方面內(nèi)容。 根據(jù)前期調(diào)研的用戶群及使用習慣,采用每條數(shù)據(jù)量計算和估算用戶操作數(shù)量及使用頻度的方式,初步確定所需存儲空間。具體用戶量算如表 2-1 所示。 以隨時記語音圖片數(shù)據(jù)為例,按照 10 萬用戶,每個數(shù)據(jù) 680K 計算,13G/天,約合46.5T/年的存儲空間。而記事本文本數(shù)據(jù)如果按照 20 萬用戶,每個數(shù)據(jù) 60Byte 計算,11.5M/天,約合 4.05G/年的存儲空間,因此總的存儲空間就是 46T 左右,語音識別記事本列表查詢響應(yīng)時間應(yīng)小于 2.5 秒。服務(wù)器關(guān)鍵性能指標如表 2-2 所示。
第 3 章 語音記事本系統(tǒng)設(shè)計 .......... 9
3.1 系統(tǒng)總體設(shè)計 ........... 9
3.1.1 軟件層次架構(gòu) ....... 9
3.1.2 系統(tǒng)功能結(jié)構(gòu) ...... 10
3.2 系統(tǒng)各功能模塊設(shè)計 .... 11
3.2.1 用戶管理模塊設(shè)計 ......... 11
3.2.2 語音錄入模塊設(shè)計 ......... 14
3.2.3 語音轉(zhuǎn)文字模塊設(shè)計 ....... 16
3.2.4 文件上傳與同步模塊設(shè)計 ........... 18
3.3 數(shù)據(jù)庫設(shè)計 .... 20
3.4 本章小結(jié) ...... 24
第 4 章 語音記事本系統(tǒng)實現(xiàn) .......... 25
4.1 系統(tǒng)運行環(huán)境與開發(fā)工具 ...... 22
4.2 系統(tǒng)各功能模塊實現(xiàn) ........... 26
4.3 數(shù)據(jù)庫實現(xiàn) .... 36
4.5 本章小結(jié) ...... 38
第 5 章 語音記事本系統(tǒng)測試 ......... 39
5.1 測試方法 ...... 39
5.2 測試過程 ...... 40
5.3 測試結(jié)果 ...... 43
5.4 本章小結(jié) ...... 43
第 5 章 語音記事本系統(tǒng)測試
5.1 測試方法
本應(yīng)用使用 Eclipse 開發(fā),安裝 Android SDK Manager 下載相應(yīng)的工具包后,可以使用模擬器來對應(yīng)用進行測試,不過考慮到模擬器的運行速度較慢,最終還是選擇采用真機來進行測試,這里選用了聯(lián)想的一款手機,型號 A850+,主屏尺寸 5.5 英寸,分辨率 960*540,Android 版本 4.2.2。生成 APK 文件后,在 cmd 中執(zhí)行命令 adb install APK路徑,即可將 APK 安裝到手機中,點開應(yīng)用即可開始測試,為了保障測試的流暢性,使用 WIFI 的環(huán)境。 本系統(tǒng)在已成功連接互聯(lián)網(wǎng)的安卓智能手機平臺上進行測試,系統(tǒng)的測試環(huán)境如表5-1 所示。 軟件測試是軟件工程中非常重要的組成部分,它決定了最終軟件的質(zhì)量。也就是說通過測試能夠發(fā)現(xiàn)軟件在設(shè)計和實現(xiàn)中的問題,比如:查找漏洞、發(fā)現(xiàn)安全隱患、查找不一致等等;蛘呖梢哉f測試其實就是對軟件需求的有效性真實性和達標性的對比,得出的結(jié)論就是軟件是否滿足了需求。當然,軟件測試也不能隨意開展,它必須有自己一套完整的做事方法和紀律。從質(zhì)量管理或者說風險管理的角度來說,軟件測試首先要遵從的就是盡可能早的接入測試,也就是隨工測試,一邊開發(fā)一邊測試,這樣不至于把問題越積攢越大,減少項目后期的修改成本和失敗風險;另外還需要利用替換測試人員的方法來減少錯誤,眾所周知,自己做的工作自己去查找問題,能夠發(fā)現(xiàn)問題的概率將會大大降低,很多明顯的錯誤必須依靠第三方來測試才能發(fā)現(xiàn)。
...........
總結(jié)
語音識別技術(shù)作為智能技術(shù)的重要組成部分,為人工智能的發(fā)展做出了重要的貢獻。在當前信息技術(shù)研究界,其中的熱點也有語音識別這項技術(shù),該技術(shù)的實現(xiàn)提高了電子產(chǎn)品的可操作性,逐漸成為了人機交互的重要方式,成為了具有革命性和時代性的重要新興產(chǎn)業(yè),也成為了國內(nèi)和國外科學界和產(chǎn)業(yè)界所關(guān)注的焦點。特別是現(xiàn)在智能手機發(fā)展迅猛,如果將語音識別與智能手機相結(jié)合,就能真正從用戶的使用角度解決諸多應(yīng)用場景問題,例如語音記錄日志,語音打電話、發(fā)短信等等。 本文設(shè)計出一款安卓智能手機上的語音識別記事本軟件;竞w一些基礎(chǔ)功能,力圖達到簡單易用、功能全面、界面清晰的目的,包括語音識別、命令適配、終端語音控功能、語音實時輸入文本等模塊。 主要工作如下:
1. 研究安卓手機應(yīng)用軟件設(shè)計所涉及的相關(guān)技術(shù)和方法,重點研究該軟件設(shè)計涉及的語音識別技術(shù)、開發(fā)工具、數(shù)據(jù)庫技術(shù)等關(guān)鍵技術(shù),這些工作是支持語音識別功能的Andriod 記事本軟件設(shè)計與實現(xiàn)的基礎(chǔ)。
2. 對軟件進行需求分析,其中主要包括:功能需求、非功能需求和約束三大部分,并對系統(tǒng)流程進行了梳理和簡介,對完善系統(tǒng)需求分析起到了很好的導向作用。需求其實就是軟件最基本最迫切最必須完成的任務(wù),它包含功能、非功能以及約束。
3. 確定了支持語音識別功能記事本軟件在安卓智能手機端的設(shè)計方案,主要從系統(tǒng)所要實現(xiàn)的系軟件層次架構(gòu)、功能方面設(shè)計、以及語音識別的數(shù)據(jù)庫三個方面進行了設(shè)計。
.........
參考文獻(略)
本文編號:150054
本文鏈接:http://sikaile.net/wenshubaike/caipu/150054.html