Phân lớp phi tuyến dữ liệu lớn với giải thuật song song cho mô hình máy học véctơ hỗ trợ cục bộ

Bài viết Phân lớp phi tuyến dữ liệu lớn với giải thuật song song cho mô hình máy học véctơ hỗ trợ cục bộ đề xuất một mô hình máy học véc-tơ hỗ trợ cục bộ mới dựa trên máy học véc-tơ hỗ trợ (SVM) và giải thuật gom cụm dữ liệu (clustering), gọi là kSVM, dùng để phân lớp phi tuyến dữ liệu lớn. kSVM sử dụng giải thuật k-means để phân hoạch dữ liệu thành k cụm (cluster). | Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: PHÂN LỚP PHI TUYẾN DỮ LIỆU LỚN VỚI GIẢI THUẬT SONG SONG CHO MÔ HÌNH MÁY HỌC VÉCTƠ HỖ TRỢ CỤC BỘ Đỗ Thanh Nghị1, Phạm Nguyên Khang1 1 Khoa Công nghệ Thông tin và Truyền thông, Trường Đại học Cần Thơ dtnghi@, pnkhang@ TÓM TẮT - Trong bài báo này, chúng tôi đề xuất một mô hình máy học véc-tơ hỗ trợ cục bộ mới dựa trên máy học véc-tơ hỗ trợ (SVM) và giải thuật gom cụm dữ liệu (clustering), gọi là kSVM, dùng để phân lớp phi tuyến dữ liệu lớn. kSVM sử dụng giải thuật k-means để phân hoạch dữ liệu thành k cụm (cluster). Sau đó, với mỗi cụm kSVM huấn luyện một mô hình SVM phi tuyến dùng để phân lớp dữ liệu của cụm. Việc huấn luyện các mô hình SVM trên từng cụm hoàn toàn độc lập với nhau, vì thế có thể được thực hiện song song trên các máy tính multi-core. Giải thuật song song để huấn luyện kSVM nhanh hơn rất nhiều so với các giải thuật SVM chuẩn như LibSVM, SVMLight trong bài toán phân lớp phi tuyến dữ liệu lớn. Kết quả thực nghiệm trên các tập dữ liệu của UCI và 3 tập dữ liệu nhận dạng ký tự viết tay cho thấy đề xuất của chúng tôi hiệu quả hơn mô hình SVM chuẩn. Từ khóa - Máy học véctơ hỗ trợ, máy học véc-tơ hỗ trợ cục bộ, phân lớp phi tuyến dữ liệu lớn. I. GIỚI THIỆU Trong những năm gần đây, mô hình máy học véctơ hỗ trợ (SVM) [1] và các phương pháp dựa trêm hàm nhân (kernel-based methods) đã cho thấy được tính hợp lý của nó trong các bài toán phân toán, hồi quy và phát hiện phần tử mới. Các ứng dụng thành công của SVM đã được công bố trong nhiều lĩnh vực khác nhau như nhận dạng mặt người, phân lớp văn bản và tin-sinh học [2]. Các phương pháp này đã trở thành các công phân tích dữ liệu phổ biến. Mặc dù sở hữu nhiều ưu điểm, SVM vẫn thích hợp khi xử lý dữ liệu lớn. Lời giải của bài toán SVM là kết quả bài toán quy hoạch toàn phương (QP), vì thế độ phức tạp tính toán của các giải thuật SVM ít

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.