Dữ liệu chuỗi thời gian tồn tại trong nhiều ứng dụng thực tế, từ các lãnh vực khoa học kỹ thuật cho đến kinh tế, tài chính. Trong những ứng dụng này, việc tìm kiếm những chuỗi con truy vấn có xuất hiện trong cơ sở dữ liệu chuỗi thời gian là một công việc rất cần thiết. Sự truy tìm dựa vào độ tương tự như vậy là một mô đun căn bản trong nhiều công tác khai phá dữ liệu chuỗi thời gian cao cấp hơn như gom cụm, phân lớp, tìm mô típ, phát hiện mẫu bất thường, khám phá luật kết hợp và trực quan hóa dữ liệu. | TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 14, SOÁ K2 - 2011 TỔNG QUAN VỀ TÌM KIẾM TƯƠNG TỰ TRÊN DỮ LIỆU CHUỖI THỜI GIAN Dương Tuấn Anh Trường Đại học Bách Khoa, ĐHQG-HCM (Bài nhận ngày 07 tháng 12 năm 2010, hoàn chỉnh sửa chữa ngày 20 tháng 04 năm 2011) TÓM TẮT: Dữ liệu chuỗi thời gian tồn tại trong nhiều ứng dụng thực tế, từ các lãnh vực khoa học kỹ thuật cho đến kinh tế, tài chính. Trong những ứng dụng này, việc tìm kiếm những chuỗi con truy vấn có xuất hiện trong cơ sở dữ liệu chuỗi thời gian là một công việc rất cần thiết. Sự truy tìm dựa vào độ tương tự như vậy là một mô đun căn bản trong nhiều công tác khai phá dữ liệu chuỗi thời gian cao cấp hơn như gom cụm, phân lớp, tìm mô típ, phát hiện mẫu bất thường, khám phá luật kết hợp và trực quan hóa dữ liệu. Mặc dù có nhiều cách tiếp cận khác nhau đã được đề xuất, hầu hết các cách tiếp cận đều dựa trên một tiền đề chung là các phương pháp thu giảm số chiều và các cấu trúc chỉ mục không gian. Bài tổng quan này điểm qua các nghiên cứu mới đây và cho thấy những phương pháp này hội tụ về một khung thức chung của sự rút trích đặc trưng. Từ khóa: Chuỗi thời gian, tìm kiếm tương tự, thu giảm số chiều, rời rạc hóa, rút trích đặc trưng. 1. GIỚI THIỆU Một chuỗi thời gian (time series) là chuỗi trị số thực, mỗi trị biểu diễn một giá trị đo tại những thời điểm cách đều nhau. Những tập dữ liệu chuỗi thời gian rất lớn xuất hiện trong nhiều lãnh vực khác nhau như y khoa, kỹ thuật, kinh tế, tài chính, Tìm kiếm tương tự (similarity search) là công tác căn bản nhất để khai thác những cơ sở dữ liệu chuỗi thời gian. Vài áp dụng của tìm kiếm tương tự như: - nhận dạng những công ty có kiểu mẫu tăng trưởng giống nhau. - Xác định những sản phẩm trong công ty có những kiểu mẫu doanh số bán hàng giống nhau. - Xác định những chứng khoán có giá biến động theo một kiểu cách giống nhau. - Tìm xem một giai điệu nhạc có tương tự với một đoạn nhạc nào trong tập hợp những bản nhạc đã có bản quyền. - Tìm những tháng trong quá khứ mà lượng mưa .