Nhận dạng tiếng Việt trên hệ điều hành android

Bài báo này giới thiệu một phương pháp nhận dạng tiếng Việt từ ảnh chụp trên điện thoại di động sử dụng hệ điều hành Android. Phương pháp này sử dụng thư viện Tesseract của Google, xây dựng bộ dữ liệu hoàn chỉnh hơn so với gói dữ liệu sẵn có của Tesseract, cùng với thuật toán xử lí lỗi trên đoạn văn bản sau khi nhận dạng. Kết quả nhận dạng cho kết quả tương đối cao với độ chính xác 93%. | KỈ YẾU HỘI NGHỊ SINH VIÊN NGHIÊN CỨU KHOA HỌC NĂM HỌC 2013-2014 NHẬN DẠNG TIẾNG VIỆT TRÊN HỆ ĐIỀU HÀNH ANDROID Phạm Thúy Nga Lớp K60B Khoa Công nghệ Thông tin GVHD ThS. Nguyễn Minh Quang Tóm tắt Công nghệ nhận dạng kí tự quang học Optical Character Recognition - OCR là một công nghệ được ứng dụng rộng rãi trong các phần mềm desktop và mobile nhằm trích xuất văn bản từ ảnh scan hoặc ảnh chụp qua camera. Tại Việt Nam đã có nhiều hướng nghiên cứu ứng dụng OCR trong các bài toán nhận dạng chữ in tiếng Việt từ file ảnh có sẵn trên máy tính file PDF hoặc ảnh scan. Tuy nhiên hiện nay hầu như chưa có nghiên cứu nào tập trung vào việc nhận dạng tiếng Việt trên nền tảng di động. Trong bài báo này chúng tôi giới thiệu một phương pháp nhận dạng tiếng Việt từ ảnh chụp trên điện thoại di động sử dụng hệ điều hành Android. Phương pháp này sử dụng thư viện Tesseract của Google xây dựng bộ dữ liệu hoàn chỉnh hơn so với gói dữ liệu sẵn có của Tesseract cùng với thuật toán xử lí lỗi trên đoạn văn bản sau khi nhận dạng. Kết quả nhận dạng cho kết quả tương đối cao với độ chính xác 93 . Từ khóa Nhận dạng kí tự quang học nhận dạng tiếng Việt OCR Tesseract. I. MỞ ĐẦU Nhận dạng kí tự quang học là một công nghệ hữu ích để chuyển các ảnh chụp văn bản ảnh quét tập tin PDF sang dạng số phục vụ cho việc số hóa tài liệu lƣu trữ xử lí văn bản tìm kiếm và nhiều ứng dụng khác 2 . Trƣớc đây OCR đƣợc phát triển dành riêng cho máy in máy quét để nhận dạng văn bản phổ biến nhất là tự động chuyển văn bản scan thành tài liệu lƣu trên máy tính. Cùng với sự phát triển của các thiết bị cầm tay nhiều nghiên cứu bắt đầu hƣớng đến việc áp dụng OCR trên hệ điều hành di động do lợi thế to lớn của những thiết bị di động nhƣ sự nhỏ gọn tiện lợi có thể mang đi mọi lúc mọi nơi và đƣợc trang bị nhiều chức năng không kém các máy tính thông thƣờng. Đối với tiếng Việt việc nghiên cứu OCR trên di động có thể mang lại nhiều lợi ích to lớn cả về nghiên cứu lẫn ứng dụng. Nhận dạng tiếng Việt thành công có thể phục vụ cho .

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
15    15    4    24-11-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.