Dựa trên giả thuyết “các protein có tương tác với nhau thường có chung một số chức năng nào đó”, trong nghiên cứu này, tác giả đưa ra một phương pháp dự đoán chức năng của protein dựa vào mạng tương tác protein và dữ liệu chú giải chức năng trong từ điển genes. Phương pháp của chúng tôi dựa trên các thuật toán phân cụm (clustering) proteins. | JOURNAL OF SCIENCE OF HNUE FIT. 2011 Vol. 56 pp. 3-16 DỰ ĐOÁN CHỨC NĂNG PROTEIN BẰNG PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU Nguyễn Quỳnh Diệp Trần Đăng Hưng Trần Thị Thu Bình và Phạm Thọ Hoàn Khoa Công nghệ Thông tin - Trường Đại học Sư phạm Hà Nội E-mail hungtd@ Tóm tắt. Dự đoán chức năng của protein là một trong những bài toán quan trọng trong sinh học phân tử. Bằng nhiều phương pháp khác nhau người ta đã dự đoán được chức năng của rất nhiều protein. Tuy nhiên có một lượng không nhỏ protein của các loài sinh vật hiện nay còn chưa biết chức năng. Các nhà sinh học thường sử dụng các phương pháp hoá sinh để phân tích và tìm ra chức năng của các protein riêng lẻ. Ngày nay với sự hỗ trợ của máy tính điện tử và các phương pháp khai phá dữ liệu hiệu quả các nhà tin học kết hợp với các nhà sinh học đã đưa ra các phương pháp tính toán hiệu quả để đưa ra được chức năng của các protein. Dựa trên giả thuyết các protein có tương tác với nhau thường có chung một số chức năng nào đó trong nghiên cứu này chúng tôi đưa ra một phương pháp dự đoán chức năng của protein dựa vào mạng tương tác protein và dữ liệu chú giải chức năng trong từ điển genes. Phương pháp của chúng tôi dựa trên các thuật toán phân cụm clustering proteins. 1. Mở đầu Có nhiều cách tiếp cận khác nhau để thu được chức năng của protein chưa biết chức năng nhưng tất cả đều dựa trên những thông tin thu nhận được từ chuỗi gene. Mục đích của chúng tôi trong bài báo này là tìm cách gán chức năng cho protein dựa vào việc phân nhóm clustering các protein. Để phân nhóm được các protein chúng tôi dựa vào mạng tương tác giữa các protein. Chúng ta biết rằng một protein có thể có tương tác với một hoặc nhiều protein khác các nghiên cứu 3 cho thấy rằng các protein tương tác với nhau thường có một vài chức năng nào đó khá giống nhau. Cách tiếp cận của chúng tôi là dựa vào tương tác giữa protein-protein và coi đó như là một đồ thị mà mỗi protein là một đỉnh mỗi tương tác là một cạnh. Dựa vào đồ thị tương tác này sẽ tính được .