Giải thuật tSVM cho phân lớp phi tuyến tập dữ liệu lớn

Bài viết trình bày giải thuật tSVM cho phân lớp phi tuyến tập dữ liệu lớn. Giải thuật tSVM sử dụng máy học cây quyết định để phân hoạch nhanh tập dữ liệu lớn thành k phân vùng được gọi là nút lá. Chỉ những nút lá có nhãn (lớp) của các phần tử thuần nhất (giống nhau) được giải thuật tSVM gán nhãn tương ứng như giải thuật cây quyết định dùng để phân lớp. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI GIẢI THUẬT tSVM CHO PHÂN LỚP PHI TUYẾN TẬP DỮ LIỆU LỚN Đỗ Thanh Nghị Phạm Nguyên Khang Trần Nguyễn Minh Thư Nguyễn Hữu Hòa Khoa CNTT-TT Trường Đại học Cần Thơ Khu 2 Đường 3 2 Xuân Khánh Ninh Kiều TP. Cần Thơ dtnghi@ TÓM TẮT Trong bài viết này chúng tôi trình bày giải thuật tSVM cho phân lớp phi tuyến tập dữ liệu lớn. Giải thuật tSVM sử dụng máy học cây quyết định để phân hoạch nhanh tập dữ liệu lớn thành k phân vùng được gọi là nút lá. Chỉ những nút lá có nhãn lớp của các phần tử thuần nhất giống nhau được giải thuật tSVM gán nhãn tương ứng như giải thuật cây quyết định dùng để phân lớp. Với mỗi nút lá có nhãn các phần tử không thuần nhất giải thuật tSVM huấn luyện một mô hình SVM phi tuyến dùng để phân lớp dữ liệu cục bộ của nút lá. Việc huấn luyện các mô hình SVM trên từng nút lá có nhãn không thuần nhất hoàn toàn độc lập với nhau vì thế có thể được thực hiện song song trên các máy tính multi-core. Kết quả thực nghiệm trên các tập dữ liệu của UCI và 3 tập dữ liệu nhận dạng ký tự viết tay và tập dữ liệu phân lớp ảnh cho thấy giải thuật tSVM cho kết quả phân lớp nhanh chính xác khi so sánh với giải thuật SVM chuẩn như LibSVM. Từ khóa Máy học véc-tơ hỗ trợ SVM mô hình máy học cục bộ phân lớp phi tuyến tập dữ liệu lớn. I. GIỚI THIỆU Giải thuật cây quyết định Breiman et al. 1984 Quinlan 1993 và máy học véc-tơ hỗ trợ Support Vector Machines - SVM Vapnik 1995 được cộng đồng khám phá tri thức và khai thác dữ liệu bình chọn là hai trong top 10 giải thuật khai thác dữ liệu phổ biến và hiệu quả Wu amp Kumar 2009 . Ưu điểm của mô hình cây quyết định là giải thuật huấn luyện đơn giản nhanh xử lý được cả dữ liệu rời rạc và liên tục luật quyết định rút trích từ mô hình cây quyết định dễ hiểu với chuyên gia về dữ liệu. Trong khi đó giải thuật máy học véc-tơ hỗ trợ sử dụng các hàm hạt nhân kernel function cung cấp

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.