Xử lý dữ liệu thiếu trong khai phá dữ liệu

Giải quyết vấn đề của dữ liệu thiếu là vấn đề quan trọng trong khai phá dữ liệu và khám phá tri thức. Việc thay thế các giá trị thiếu bởi một giá trị cụ thể mà không ảnh hưởng tới chất lượng của dữ liệu. Bài báo đưa ra bốn mô hình tiêu biểu để giải quyết vấn đề thiếu dữ liệu và cuối cùng là thảo luận về kết quả, so sánh và đưa ra kết luận. | Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60 XỬ LÝ DỮ LIỆU THIẾU TRONG KHAI PHÁ DỮ LIỆU Phùng Thị Thu Hiền1*, Phùng Trung Nghĩa2 ,Đoàn Xuân Ngọc3 1 Trường ĐH Kỹ thuật Công nghiệp – ĐH TThái Nguyên Japan Advanced Institute of Science and Technology, 3Cục Thuế tỉnh Thái Nguyên 2 TÓM TẮT Thông tin đóng một vai trò rất quan trọng trong cuộc sống. Sự phát triển của nhiều lĩnh vực nghiên cứu phụ thuộc vào khả năng phát hiện tri thức trong các cơ sở dữ liệu lớn. Các nhà khoa học trong nhiều lĩnh vực nghiên cứu khác nhau đã phát triển các phƣơng thức để phân tích dữ liệu từ đó thu đƣợc thông tin có ích. Các phƣơng thức này phụ thuộc vào dữ liệu và yêu cầu của ngƣời sử dụng. Thật không may, các phƣơng thức truyền thống thƣờng không tƣơng ứng với dữ liệu thực do sự mất mát dữ liệu hoặc dữ liệu sai. Các giá trị thiếu gây ra: - Giảm chất lƣợng của các luật phân lớp sinh bởi hệ thống khai phá dữ liệu. - Ảnh hƣởng tới chất lƣợng của các luật thu đƣợc từ hệ thống khai phá dữ liệu. - Gây khó khăn cho việc rút ra thông tin có ích từ tập dữ liệu. Giải quyết vấn đề của dữ liệu thiếu là vấn đề quan trọng trong khai phá dữ liệu và khám phá tri thức. Việc thay thế các giá trị thiếu bởi một giá trị cụ thể mà không ảnh hƣởng tới chất lƣợng của dữ liệu. Bài báo đƣa ra bốn mô hình tiêu biểu để giải quyết vấn đề thiếu dữ liệu và cuối cùng là thảo luận về kết quả, so sánh và đƣa ra kết luận. Từ khóa: Khai phá dữ liệu (Data mining), Dữ liệu thiếu (missing data). ĐẶT VẤN ĐỀ Sự gia tăng của kích thƣớc dữ liệu và số lƣợng cơ sở dữ liệu hiện nay vƣợt qua khả năng của con ngƣời để phân tích dữ liệu, do vậy vấn đề quan trọng là cần rút ra tri thức từ các cơ sở dữ liệu. Cơ sở dữ liệu Y học chứa lƣợng thông tin lớn về bệnh nhân và điều kiện Y tế của họ. Những mối quan hệ và những mô hình bên trong dữ liệu này đã có thể cung cấp tri thức y học mới. Phân tích dữ liệu y tế thƣờng liên quan đến cách xử lý của tri thức không đầy đủ, với việc quản lý các phần thông tin trái

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.