Trong khi đó, số lượng enzyme đã được định danh chính xác mới được khoảng 4006 enzymes. Vì vậy cần tìm kiếm phương pháp mới giúp dự đoán phân loại enzyme thoả các yêu cầu: - Nhanh - Dễ sử dụng và - Ít cần sự can thiệp của chuyên gia sinh học. Khai thác dữ liệu đồ thị (Graph Mining) đang là một kỹ thuật mới, được dùng để phát hiện tri thức và đặc biệt thích hợp với dữ liệu có cấu trúc, vì có thể sử dụng đồ thị để mô tả. | TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 11, SOÁ 05- 2008 DỰ ĐOÁN PHÂN LOẠI CỦA ENZYME BẰNG CÁCH ÁP DỤNG KỸ THUẬT KHAI THÁC DỮ LIỆU ĐỒ THỊ Phạm Quốc Đàm(1), Đỗ Phúc(2), Lê Thị Thanh Mai (3) (1) Trường Đại học Tôn Đức Thắng, (2)Trường Đại học Công nghệ thông tin, ĐHQG-HCM, (3) ĐHQG-HCM 1. GIỚI THIỆU Sự phát triển mạnh mẽ của công nghệ sinh học trong những năm gần đây đã tạo nên lượng dữ liệu rất lớn về enzyme (hơn 19000 enzymes). Trong khi đó, số lượng enzyme đã được định danh chính xác mới được khoảng 4006 enzymes. Vì vậy cần tìm kiếm phương pháp mới giúp dự đoán phân loại enzyme thoả các yêu cầu: - Nhanh - Dễ sử dụng và - Ít cần sự can thiệp của chuyên gia sinh học. Khai thác dữ liệu đồ thị (Graph Mining) đang là một kỹ thuật mới, được dùng để phát hiện tri thức và đặc biệt thích hợp với dữ liệu có cấu trúc, vì có thể sử dụng đồ thị để mô tả. Với enzyme, bộ 3 thành phần hoá học – cấu trúc – chức năng có quan hệ mật thiết với nhau. Vậy nếu có thể ứng dụng được Graph Mining để tìm được tập các đồ thị con chứa đặc trưng sinh học, việc phân loại enzyme có thể sẽ đạt hiệu quả hơn, hỗ trợ tốt cho chuyên gia sinh học trong quá trình định danh chính xác. 2. VẤN ĐỀ CẦN GIẢI QUYẾT Graph Mining đang được nghiên cứu sử dụng nhiều trong lĩnh vực phân lớp văn bản. Đã có nhiều thành tựu được công bố trong các bài báo của các chuyên gia. Để có thể ứng dụng graph mining trong việc dự đoán phân loại enzyme, cần phải: - Tìm cách biểu diễn enzyme dưới dạng đồ thị. - Đề xuất phương pháp tìm tập đồ thị con chứa đặc trưng của enzyme bằng kỹ thuật graph mining sao cho đạt độ chính xác từ 70% trở lên. - Đề xuất cách đánh giá và dự đoán phân loại enzyme. 3. CÁCH GIẢI QUYẾT . Để biểu diễn enzyme dưới dạng đồ thị, ta quy ước: Mỗi amino acid được gọi là “Đỉnh” của đồ thị. Sự đồng xuất hiện của hai đỉnh trong cấu trúc của enzyme sẽ có khả năng hình thành một “Cạnh” nối giữa hai đỉnh đó. Cạnh còn thể hiện khả năng xảy ra liên kết sinh – hoá giữa hai đỉnh. Khoảng cách giữa 2 đỉnh được gọi .