Phân lớp hiệu quả tập dữ liệu lớn với giải thuật giảm gradient ngẫu nhiên

Bài viết trình bày giải thuật giảm gradient ngẫu nhiên sử dụng trong máy học véctơ hỗ trợ cho phân lớp nhanh tập dữ liệu lớn. Máy học véctơ hỗ trợ sử dụng hàm hinge loss trong phân lớp nhằm đạt được tính chất thưa trong lời giải. Tuy nhiên, do hàm hinge loss không khả vi là nguyên nhân làm chậm hội tụ đến lời giải khi áp dụng giải thuật giảm gradient ngẫu nhiên. Nghiên cứu thay thế hàm hinge loss được sử dụng trong vấn đề tối ưu của giải thuật máy học véctơ hỗ trợ bằng các hàm xấp xỉ, khả vi nhằm cải tiến tốc độ hội tụ của giải thuật giảm gradient ngẫu nhiên. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI PHÂN LỚP HIỆU QUẢ TẬP DỮ LIỆU LỚN VỚI GIẢI THUẬT GIẢM GRADIENT NGẪU NHIÊN Đỗ Thanh Nghị Phạm Thế Phi Khoa CNTT-TT Trường Đại học Cần Thơ Khu 2 Đường 3 2 Xuân Khánh Ninh Kiều TP. Cần Thơ dtnghi ptphi @ TÓM TẮT Trong bài viết này chúng tôi trình bày giải thuật giảm gradient ngẫu nhiên sử dụng trong máy học véctơ hỗ trợ cho phân lớp nhanh tập dữ liệu lớn. Máy học véctơ hỗ trợ sử dụng hàm hinge loss trong phân lớp nhằm đạt được tính chất thưa trong lời giải. Tuy nhiên do hàm hinge loss không khả vi là nguyên nhân làm chậm hội tụ đến lời giải khi áp dụng giải thuật giảm gradient ngẫu nhiên. Chúng tôi nghiên cứu thay thế hàm hinge loss được sử dụng trong vấn đề tối ưu của giải thuật máy học véctơ hỗ trợ bằng các hàm xấp xỉ khả vi nhằm cải tiến tốc độ hội tụ của giải thuật giảm gradient ngẫu nhiên. Kết quả thực nghiệm trên 2 tập dữ liệu văn bản lớn RCV1 twitter cho thấy hiệu quả của đề xuất sử dụng hàm xấp xỉ so với hàm hinge loss. Từ khóa Máy học véctơ hỗ trợ SVM giảm gradient ngẫu nhiên SGD phân lớp dữ liệu lớn. I. GIỚI THIỆU Máy học véctơ hỗ trợ Support Vector Machines - SVM Vapnik 1995 là lớp mô hình máy học hiệu quả để giải quyết các vấn đề phân lớp hồi quy phát hiện phần tử cá biệt. Máy học SVM đã được áp dụng thành công trong rất nhiều ứng dụng như nhận dạng mặt người phân loại văn bản phân loại bệnh ung thư tham khảo tại Guyon 1999 . Giải thuật máy học SVM có thể sử dụng các hàm hạt nhân kernel function cung cấp các mô hình có độ chính xác rất cao cho các vấn đề phân lớp và hồi quy phi tuyến trong thực tế. Mặc dù có được những ưu điểm kể trên giải thuật huấn luyện một mô hình SVM rất mất thời gian và tiêu tốn nhiều không gian bộ nhớ do phải giải bài toán quy hoạch toàn phương quadratic programming . Độ phức tạp tối thiểu của giải thuật huấn luyện mô hình SVM là bậc 2 so với số lượng phần tử dữ liệu

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.