天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Android的智能信息采集功能研究與實現

發(fā)布時間:2024-02-19 08:57
  隨著現代社會的發(fā)展和互聯網技術的日漸成熟,我們的生活中充斥著越來越多的信息,它們由手機、電腦等智能設備所承載,以文字、圖像等形式存在。在眾多圖像信息中,包含著一些比較重要的文字信息需要被提取,從而進一步被人們存儲和使用。光學字符識別技術(OCR,Optical Character Recognition),對圖像中文本區(qū)域進行提取,將文本與背景形成的亮、暗轉化成黑、白的二維數字圖像,通過對其特征提取和模板匹配,將文本圖像自動輸入成文本文檔的過程。在通過光學字符識別之后的文本正確率不能保證100%,此時需要對提取后的文本進行語義級別的后處理操作。本文針對智能信息采集功能的文本后處理技術進行了深入的研究,針對現有的N-gram語言模型,結合文字與其前后相鄰字組成詞語的特點,提出一種雙向N-gram模型,并根據OCR輸出的特點,提出一種基于滑動窗口的自適應文本后處理方法,設計并實現了基于Android平臺設計了智能信息采集功能系統(tǒng)。本文主要完成了以下幾個部分的內容:(1)智能信息采集系統(tǒng)中運用到的關鍵技術,包括用于文本圖像的文字信息提取的OCR技術,著重研究了文字信息提取后的文本后處理技術,...

【文章頁數】:62 頁

【學位級別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究背景與選題意義
    1.2 相關技術國內外發(fā)展研究現狀
        1.2.1 OCR技術
        1.2.2 文本后處理
    1.3 論文主要研究內容及組織結構
第二章 智能信息采集系統(tǒng)的關鍵技術研究
    2.1 OCR技術
        2.1.1 OCR引擎
        2.1.2 Tesseract-OCR引擎架構分析
        2.1.3 OCR識別常見錯誤分類
    2.2 文本后處理技術
        2.2.1 基于句法分析文本后處理技術
        2.2.2 基于語言模型的文本后處理技術
    2.3 語言模型概述
        2.3.1 基于規(guī)則的語言模型
        2.3.2 N-gram模型
    2.4 本章小結
第三章 基于雙向N-gram模型和滑動窗口的文本后處理算法
    3.1 巡檢系統(tǒng)中文本特點分析
    3.2 前后雙向N-gram模型
    3.3 算法的設計方案
        3.3.1 算法的詳細過程
        3.3.2 閾值v1的確定
        3.3.3 數據稀疏問題
    3.4 對比實驗與分析
        3.4.1 算法的計算次數對比分析
        3.4.2 算法的檢錯率對比分析
        3.4.3 算法的糾錯率對比分析
    3.5 本章小結
第四章 智能信息采集系統(tǒng)方案設計與實現
    4.1 需求分析與架構設計
    4.2 Android平臺介紹及開發(fā)特點
    4.3 系統(tǒng)功能模塊實現
        4.3.1 圖像采集模塊
        4.3.2 預處理模塊
        4.3.3 信息提取模塊
        4.3.4 文本后處理模塊
    4.4 系統(tǒng)測試結果與分析
        4.4.1 系統(tǒng)測試環(huán)境
        4.4.2 系統(tǒng)模塊測試
    4.5 本章小結
第五章 總結與展望
    5.1 文章總結
    5.2 工作展望
參考文獻
致謝
攻讀碩士學位期間取得成果



本文編號:3902437

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3902437.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶cf7cf***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com