Phát hiện đối tượng có thể chia thành hai nhóm là: Phát hiện một đối tượng cụ thể và phát hiện chủng loại đối tượng. Hầu hết các phương pháp điều dựa trên họ R-CNN (Regions with Convolutional Neural Network Family) như R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN, gồm một chuỗi tiến trình nhiều lớp xen kẽ nhau rất phức tạp và chi phí cao. | TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Trà Văn Đồng và các tgk SO SÁNH THUẬT TOÁN SSD VÀ YOLO TRONG PHÁT HIỆN ĐỐI TƯỢNG COMPARE SSD ALGORITHM AND YOLO IN OBJECT DETECTION TRÀ VĂN ĐỒNG NGUYỄN THU NGUYỆT MINH và HUỲNH CHÍ NHÂN TÓM TẮT Phát hiện đối tượng có thể chia thành hai nhóm là 1 Phát hiện một đối tượng cụ thể và 2 Phát hiện chủng loại đối tượng. Hầu hết các phương pháp đều dựa trên họ R-CNN Regions with Convolutional Neural Network Family như R-CNN Fast R-CNN 4 Faster R-CNN 2 Mask R-CNN gồm một chuỗi tiến trình nhiều lớp xen kẽ nhau rất phức tạp và chi phí cao. Năm 2016 Joseph Redmon và đồng sự đề xuất phương pháp phát hiện đối tượng YOLO You Only Look Once 1 và Wei Liu và đồng sự đề xuất phương pháp phát hiện đối tượng SSD Single Shot Detector 3 dựa trên cách tiếp cận khác. Từ khóa phát hiện đối tượng deep learning mạng neuron tích chập CNN YOLO SSD. ABSTRACT Object detection can be divided into two groups 1 detecting a specific object and 2 detecting categories of the object. Most of methods based on R-CNN family Regions with Convolutional Neural Network Family such as R-CNN Fast R-CNN Faster R-CNN Mask R- CNN it comprises of a sequence of processing of alternated layers which is very complex and expensive. In 2016 Joseph Redmon et al. proposed a method of object detection named YOLO You Only Look Once and Wei Liu et al. proposed a method of object detection named SDD Single Shot Detector based on a different approach. Key words object detection deep learning convolutional neural network YOLO SSD. 1. ĐẶT VẤN ĐỀ những phương pháp học khá hữu hiệu các đặc Thuật toán SSD và YOLO đều thuộc trưng được rút trích trực tiếp từ dữ liệu. nhóm single shot detectors. Cả hai đều sử dụng Khi chúng ta muốn phát hiện ra object convolution layer để rút trích đặc trưng và một trong một bức ảnh sau đó đánh nhãn cho convolution filter để đưa quyết định và đều object đó các phương pháp cũ quá chậm để dùng feature map có độ phân giải thấp low phục vụ trong real-time hoặc đòi hỏi .