Về cải tiến phương pháp Fuzzy Random Forest, ứng dụng cho phân lớp dữ liệu không chắc chắn

Trong bài viết đề xuất một phương pháp mở rộng FRF đƣợc gọi là IFRF bằng cách cắt tỉa cây quyết định mờ trước khi bổ sung vào tập cây trong rừng; chiến lược cắt tỉa cây dựa trên giải thuật di truyền. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI VỀ CẢI TIẾN PHƯƠNG PHÁP FUZZY RANDOM FOREST ỨNG DỤNG CHO PHÂN LỚP DỮ LIỆU KHÔNG CHẮC CHẮN Nguyễn Anh Thơ1 Nguyễn Long Giang1 Cao Chính Nghĩa2 1 Viện Công nghệ thông tin Viện Hàn lâm Khoa học và Công nghệ Việt Nam 2 Khoa Toán Tin học Học viện Cảnh sát nhân dân natho@ nlgiang@ ccnghia@ TÓM TẮT Các thuật toán khai phá dữ liệu và máy học truyền thống thực hiện phân lớp với dữ liệu đã được xử lý để loại bỏ dữ liệu nhiễu dữ liệu thiếu chính xác và dữ liệu không đầy đủ dữ liệu không chắc chắn. Chúng tôi phát hiện ra rằng độ chính xác phân lớp có thể được cải thiện với dữ liệu không chắc chắn khi sử dụng sức mạnh ngẫu nhiện của phương pháp Fuzzy Random Forest FRF để tăng sự đa dạng của cây và sự linh hoạt của tập mờ. Chúng tôi mở rộng phương pháp FRF để xử lý với bộ với các giá trị thiếu dữ liệu không chắc với kỹ thuật cắt tỉa cây trước khi bổ sung vào trong rừng mà rất có thể cải thiện được độ chính xác phân lớp và kích thước bộ nhớ lưu trữ các cây của FRF. Từ khóa Cây quyết định mờ rừng ngẫu nhiên mờ phân lớp mờ phân hoạch mờ. I. GIỚI THIỆU Phân lớp luôn luôn là vấn đề thách thức đối với dự liệu hiện nay tăng cả về số lƣợng độ phức tạp và tính đa dạng của dữ liệu. Đã có rất nhiều kỹ thuật và thuật toán giải quyết vấn đề phân lớp 1 3 6 18 . Tuy nhiên đa số các bài toán phân lớp này đƣợc áp dụng trên dữ liệu đầy đủ và đƣợc đo đạc chính xác. Nhƣng trên thực tế các dữ liệu thu thập đƣợc hầu nhƣ không hoàn hảo dữ liệu méo mó dữ liệu không đầy đủ . việc xử lý các dạng dữ liệu này rất khó khăn và tốn kém. Hơn nữa các thông tin này thƣờng đƣợc điều chỉnh bởi các chuyên gia. Do đó tính xác thực của dữ liệu trở nên mơ hồ. Vậy nên cần thiết xử lý trực tiếp các dạng thông tin này. Trong bài báo này chúng tôi sử dụng kỹ thuật phân lớp mờ 5 6 18 để đối phó với dữ liệu không chắc chắn dữ liệu thiếu giá .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.