Cải tiến phương pháp rừng ngẫu nhiên có điều hướng để áp dụng cho dữ liệu SNP

Bài viết Cải tiến phương pháp rừng ngẫu nhiên có điều hướng để áp dụng cho dữ liệu SNP đề xuất phương pháp đánh trọng số đặc trưng mới thay cho cách đánh trọng số của GRRF. Mời các bạn tham khảo bài viết để hiểu rõ hơn về vấn đề này. | Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: CẢI TIẾN PHƯƠNG PHÁP RỪNG NGẪU NHIÊN CÓ ĐIỀU HƯỚNG ĐỂ ÁP DỤNG CHO DỮ LIỆU SNP Hoàng Thị Hà 1, Nguyễn Thanh Tùng2 1 Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam 2 Khoa Công nghệ thông tin, Trường Đại học Thủy lợi htha@, tungnt@ TÓM TẮT - Rừng ngẫu nhiên có hiệu quả với dữ liệu có số chiều vừa phải, khi số chiều lớn hơn thì vẫn hạn chế. Deng và Runger đã đề xuất phương pháp rừng ngẫu nhiên có điều hướng (GRRF, Pattern Recognition-2013) ưu tiên để chọn đặc trưng, tuy nhiên vẫn kém hiệu quả với các tập dữ liệu có số chiều rất lớn mà số mẫu ít, chẳng hạn dữ liệu đa hình đơn nucleotide SNP (Single Nucleotide Polymorphism) trên quy mô toàn bộ hệ gien. Trong bài báo này, chúng tôi đề xuất phương pháp đánh trọng số đặc trưng mới thay cho cách đánh trọng số của GRRF. Kết quả thực nghiệm trên 2 tập dữ liệu Parkinson ( SNPs) và Alzheimer ( SNPs) cho thấy phương pháp cải tiến này có hiệu quả hơn hẳn GRRF và các phương pháp hiện thời. Từ khóa - Dữ liệu chiều cao, máy học, khai phá dữ liệu, rừng ngẫu nhiên I. ĐẶT VẤN ĐỀ Đa hình đơn nucleotide (Single Nucleotide Polymorphism, SNP) là những biến thể trình tự DNA xảy ra khi một đơn nucleotide (A, T, C, hoặc G) trong trình tự bộ gien bị thay đổi và là loại biến thể di truyền phổ biến tạo nên sự khác biệt chủ yếu giữa các cá thể cùng loài. Kết quả của bản đồ gien người cho biết, đối với loài người, hơn 99% trình tự ADN là giống nhau, sự khác biệt chỉ chiếm nhỏ hơn 1%, trong đó các SNP chiếm phần lớn sự khác biệt. Vì vậy, trong y sinh, dữ liệu SNP có vai trò quan trọng trong chẩn đoán bệnh tật, sự kháng thuốc, những phản ứng khác nhau trong quá trình điều trị [1] [2]. Những nghiên cứu liên kết mức toàn bộ hệ gen (Genome-wide association studies – GWAS) là một tiếp cận chuẩn để xác định được nhiều biến dị gien dẫn tới một số bệnh phức

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.