Bài viết trình bày một giải pháp sử dụng các dữ liệu chưa gán nhãn cho bài toán dự đoán gen gây bệnh (gọi tắt là gen bệnh). Thông thường, bài toán dự đoán gen bệnh có thể coi là bài toán phân lớp nhị phân. | Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn JOURNAL OF SCIENCE OF HNUE DOI: Educational Sci., 2015, Vol. 60, No. 7A, pp. 61-69 This paper is available online at MỘT PHƯƠNG PHÁP DỰ ĐOÁN GEN GÂY BỆNH SỬ DỤNG DỮ LIỆU CHƯA CÓ NHÃN 1 Lê Thu Hương 2 Thái Thị Thanh Vân và 3 Trần Đăng Hưng 1 Khoa Tự nhiên, Trường Cao đẳng Sư phạm Điện Biên 2 KhoaCông nghệ Thông tin, Học viện Kỹ thuật Mật mã 3 Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội Tóm tắt. Trong bài báo này, chúng tôi trình bày một giải pháp sử dụng các dữ liệu chưa gán nhãn cho bài toán dự đoán gen gây bệnh (gọi tắt là gen bệnh). Thông thường, bài toán dự đoán gen bệnh có thể coi là bài toán phân lớp nhị phân. Tuy nhiên, trong bài toán này dữ liệu âm tính (negative) thường khó xác định, nên hiệu quả của các phương pháp dự đoán chưa cao. Chúng tôi đã đề xuất một phương án xây dựng tập âm tính bằng cách sử dụng dữ liệu chưa có nhãn để huấn luyện các mô hình học máy nhằm tăng hiệu quả dự đoán. Từ khóa: Dự đoán, gen gây bệnh, dữ liệu chưa có nhãn, phân lớp nhị phân. 1. Mở đầu Từ các nghiên cứu thực nghiệm cho thấy rằng với từng loại bệnh cụ thể, có thể do một số gen quy định gây ra. Tuy nhiên, các nhà thực nghiệm chỉ tìm ra được các gen gây bệnh một cách đơn lẻ trên một số cá thể, hơn nữa các thực nghiệm này rất mất thời gian và chi phí lớn. Khi số lượng dữ liệu sinh học phân tử ngày càng nhiều, các nhà sinh học tính toán có thể đưa ra các phương pháp tính toán dựa trên những gen gây bệnh đã biết để tiên lượng các gen khác. Triết lí chung của các phương pháp tính toán là các gen có quan hệ “gần” với nhau sẽ có khả năng có chung một số chức năng nào đó. Giả sử rằng, ta biết được thông tin quan hệ giữa các gen trong một loài sinh vật thì có thể dự đoán chức năng cho các gen mới. Nhìn từ lĩnh vực khai phá dữ liệu, có thể coi bài toán dự đoán gen gây bệnh là một bài toán phân .