Một thuật toán tìm các Biclusters trong dữ liệu biểu hiện gen theo thời gian dựa trên cây hậu tố

Trong bài báo này, chúng tôi trình bày một hướng tiếp cận mới dựa trên các thuật toán biclustering (phân cụm hai chiều) để tìm các mẫu quan trọng từ lượng lớn dữ liệu biểu hiện gen. Cụ thể, chúng tôi giới thiệu thuật toán dựa trên cây hậu tố CCC-biclustering, sau đó thực nghiệm trên hai tập dữ liệu biểu hiện gen theo thời gian. | JOURNAL OF SCIENCE OF HNUE FIT. 2013 Vol. 58 pp. 47-59 This paper is available online at http MỘT THUẬT TOÁN TÌM CÁC BICLUSTERS TRONG DỮ LIỆU BIỂU HIỆN GEN THEO THỜI GIAN DỰA TRÊN CÂY HẬU TỐ Nguyễn Văn Trung1 Đỗ Văn Dư2 và Trần Đăng Hưng3 1 Trường Cao đẳng Y tế Lạng Sơn 2 Trường Cao đẳng Sư phạm Nam Định 3 Khoa Công nghệ Thông tin Trường Đại học Sư phạm Hà Nội 3 Email hungtd@ Tóm tắt. Phân tích dữ liệu biểu hiện gen theo thời gian là một trong những thao tác quan trọng để tìm ra chức năng của các phần tử sinh học. Với lượng dữ liệu ngày càng nhiều các phương pháp thống kê cổ điển không còn phù hợp. Điều này đòi hỏi phải phát triển các phương pháp tính toán mới để phân tích hiệu quả các nguồn dữ liệu biểu hiện gen. Trong bài báo này chúng tôi trình bày một hướng tiếp cận mới dựa trên các thuật toán biclustering phân cụm hai chiều để tìm các mẫu quan trọng từ lượng lớn dữ liệu biểu hiện gen. Cụ thể chúng tôi giới thiệu thuật toán dựa trên cây hậu tố CCC-biclustering sau đó thực nghiệm trên hai tập dữ liệu biểu hiện gen theo thời gian. Kết quả cho thấy các mẫu tìm được có độ biểu hiện tương đồng cao từ các mẫu này có thể dự đoán hoặc tiên lượng các chức năng mới cho các phần tử sinh học. Từ khóa Bicluster dữ liệu biểu hiện gen cây hậu tố 1. Mở Đầu Việc phân tích dữ liệu biểu hiện gen mà cụ thể là phân nhóm các gen có sự biểu hiện giống nhau trong từng thời điểm thành các cụm cluster được thực hiện bởi các thuật toán phân cụm clustering . Các thuật toán này thường tìm cách nhóm các gen có sự biểu hiện phụ thuộc nhau trên toàn bộ các điều kiện thí nghiệm. Tuy nhiên trên thực tế các gen thường chỉ thể hiện phụ thuộc với nhau trên một số điều kiện nào đó và độc lập với nhau trong điều kiện khác. Điều này dẫn đến một hạn chế rất lớn của các thuật toán clustering là không thể tìm ra được các gen chỉ thể hiện giống nhau trên một số điều kiện thí nghiệm. Để khắc phục hạn chế này người ta đã đề xuất một phương pháp phân cụm mới có tên là .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.