Báo cáo tài liệu vi phạm
Giới thiệu
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
THỊ TRƯỜNG NGÀNH HÀNG
NÔNG NGHIỆP, THỰC PHẨM
Gạo
Rau hoa quả
Nông sản khác
Sữa và sản phẩm
Thịt và sản phẩm
Dầu thực vật
Thủy sản
Thức ăn chăn nuôi, vật tư nông nghiệp
CÔNG NGHIỆP
Dệt may
Dược phẩm, Thiết bị y tế
Máy móc, thiết bị, phụ tùng
Nhựa - Hóa chất
Phân bón
Sản phẩm gỗ, Hàng thủ công mỹ nghệ
Sắt, thép
Ô tô và linh kiện
Xăng dầu
DỊCH VỤ
Logistics
Tài chính-Ngân hàng
NGHIÊN CỨU THỊ TRƯỜNG
Hoa Kỳ
Nhật Bản
Trung Quốc
Hàn Quốc
Châu Âu
ASEAN
BẢN TIN
Bản tin Thị trường hàng ngày
Bản tin Thị trường và dự báo tháng
Bản tin Thị trường giá cả vật tư
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
NGÀNH HÀNG
NÔNG NGHIỆP, THỰC PHẨM
Gạo
Rau hoa quả
Nông sản khác
Sữa và sản phẩm
Thịt và sản phẩm
Dầu thực vật
Thủy sản
Thức ăn chăn nuôi, vật tư nông nghiệp
CÔNG NGHIỆP
Dệt may
Dược phẩm, Thiết bị y tế
Máy móc, thiết bị, phụ tùng
Nhựa - Hóa chất
Phân bón
Sản phẩm gỗ, Hàng thủ công mỹ nghệ
Sắt, thép
Ô tô và linh kiện
Xăng dầu
DỊCH VỤ
Logistics
Tài chính-Ngân hàng
NGHIÊN CỨU THỊ TRƯỜNG
Hoa Kỳ
Nhật Bản
Trung Quốc
Hàn Quốc
Châu Âu
ASEAN
BẢN TIN
Bản tin Thị trường hàng ngày
Bản tin Thị trường và dự báo tháng
Bản tin Thị trường giá cả vật tư
Thông tin
Tài liệu Xanh là gì
Điều khoản sử dụng
Chính sách bảo mật
0
Trang chủ
Công Nghệ Thông Tin
Kỹ thuật lập trình
Rút trích văn bản từ tập tin hình ảnh với Tesseract
Đang chuẩn bị liên kết để tải về tài liệu:
Rút trích văn bản từ tập tin hình ảnh với Tesseract
Minh Tuyết
100
7
pdf
Không đóng trình duyệt đến khi xuất hiện nút TẢI XUỐNG
Tải xuống
Rút trích văn bản từ tập tin hình ảnh đang là một trong những bài toán quan trọng trong xử lý ảnh hiện nay. Trong bài báo này, chúng tôi bước đầu tìm hiểu các phương pháp trích lọc văn từ hình ảnh của một số công trình liên quan đồng thời cũng tìm hiểu, hiệu chỉnh công cụ mã nguồn mở Tesseract để thực hiện trích lọc văn bản tiếng Anh từ tập tin hình ảnh. Kết quả thử nghiệm bước đầu cho thấy công cụ này rút trích khá tốt các văn bản từ tập tin hình ảnh chứa văn bản được đánh máy. | RÚT TRÍCH VĂN BẢN TỪ TẬP TIN HÌNH ẢNH VỚI TESSERACT TRẦN THANH HÙNG ANH, LÊ THỊ MỸ QUY, TRẦN THANH PHƯỚC, DƯƠNG THỊ MỘNG THÙY 1,2 Lớp 02DHTHN- Khoa Công nghệ thông tin 3,4 Khoa Công nghệ thông tin – Trường ĐH Công nghiệp thực phẩm Tp HCM TÓM TẮT Rút trích văn bản từ tập tin hình ảnh đang là một trong những bài toán quan trọng trong xử l ảnh hiện nay. Trong bài báo này, chúng tôi bước đầu tìm hiểu các phương pháp trích lọc văn ý bản từ hình ảnh của một số công trình liên quan đồng thời cũng tìm hiểu, hiệu chỉnh công cụ mã nguồn mở Tesseract để thực hiện trích lọc văn bản tiếng Anh từ tập tin hình ảnh. Kết quả thử nghiệm bước đầu cho thấy công cụ này rút trích khá tốt các văn bản từ tập tin hình ảnh chứa văn bản được đánh máy. Từ khóa: Rút trích văn bản, tập tin hình ảnh, Tesseract. EXTRACTING TEXT FROM IMAGE FILES USING TESSERACT ABSTRACT Extracting text from the image file is one of the important problems in image processing. In this paper, we initially study the methods of text extracting from images from a number of related works. Besides, we also learn and adjust the Tesseract, an open source tool, to perform extracting English texts from the image file. Initial test results show that this tool quite extracted the text from the image file containing the typed text. Key words: Extracting text, image files, tesseract. 1. Giới thiệu Hiện nay, nhu cầu về việc rút trích từ ngữ từ hình ảnh đang ngày càng phát triển, bên cạnh sự gia tăng về nhu cầu là sự phát triển của công nghệ nhận dạng ký tự quang học (Optical Character Recognition) hay còn được gọi tắt là OCR. Đây là một công nghệ giúp chuyển đổi hình ảnh của chữ viết tay hoặc đánh máy thành các ký tự đã được mã hóa trong máy tính. Giả sử chúng ta cần chỉnh sửa một số tài liệu giấy như: Các bài viết trên tạp chí, tờ rơi, hoặc một tập tin PDF hình ảnh. Rõ ràng, chúng ta không thể sử dụng một máy quét để chuyển các tài liệu này thành tập tin văn bản để có thể chỉnh sửa (ví dụ như trình soạn thảo Microsoft Word). Tất
TÀI LIỆU LIÊN QUAN
Rút trích từ khóa từ văn bản pháp luật Tiếng Việt bằng thuật toán TextRank
Tóm tắt luận văn Thạc sĩ: Nghiên cứu các phương pháp trích rút văn bản từ trang web và ứng dụng
Luận văn thạc sĩ: Trích rút tri thức từ văn bản tiếng việt trong chế biến, bảo quản rau quả và ứng dụng
Sử dụng Bert cho tóm tắt trích rút văn bản
Rút trích văn bản từ tập tin hình ảnh tesseract
Rút trích văn bản từ tập tin hình ảnh với Tesseract
Nghiên cứu giải pháp xây dựng hệ thống tổng hợp và hỗ trợ tư vấn việc làm
Trích rút quan hệ giữa các thực thể từ văn bản tiếng Việt sử dụng phương pháp lan truyền nhãn
Một phương pháp kết hợp các mô hình học sâu và kỹ thuật học tăng cường hiệu quả cho tóm tắt văn bản hướng trích rút
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Ứng dụng khai phá dữ liệu để trích rút thông tin theo chủ đề từ các mạng xã hội
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.