Bài báo này giới thiệu một thang đo kết hợp các thuật giải so sánh chuỗi toàn cục và cục bộ để đánh giá sự tương tự giữa các cặp chuỗi ký tự. Qua thực nghiệm, thang đo được chứng minh về hiệu quả khi làm việc trên các chuỗi có độ dài chênh lệch so với các thang đo khác. Thang đo hữu ích trong việc phân cụm người dùng web, nhằm dự đoán và đáp ứng yêu cầu về thông tin của các nhóm người dùng khác nhau trong thời gian thực. | Lưu Vĩnh Trung. Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 59(2), 65-75 65 SỬ DỤNG KỸ THUẬT SO SÁNH CHUỖI KẾT HỢP TRÊN CÁC CHUỖI CÓ ĐỘ DÀI CHÊNH LỆCH LƯU VĨNH TRUNG Trường Đại học Mở Thành phố Hồ Chí Minh - (Ngày nhận: 31/07/2017; Ngày nhận lại: 09/10/2017; Ngày duyệt đăng: 05/12/2017) TÓM TẮT Bài báo này giới thiệu một thang đo kết hợp các thuật giải so sánh chuỗi toàn cục và cục bộ để đánh giá sự tương tự giữa các cặp chuỗi ký tự. Qua thực nghiệm, thang đo được chứng minh về hiệu quả khi làm việc trên các chuỗi có độ dài chênh lệch so với các thang đo khác. Thang đo hữu ích trong việc phân cụm người dùng web, nhằm dự đoán và đáp ứng yêu cầu về thông tin của các nhóm người dùng khác nhau trong thời gian thực. Từ khóa: Khai phá dữ liệu web; Phân loại người dùng; So sánh chuỗi; Thương mại điện tử. Using glocal alignment to compare sequences of significantly different lengths ABSTRACT This paper introduces a “glocal” combinatorial algorithm between global and local alignments to evaluate the similarity of symbol sequence pairs. This approach empirically proves its merit compared to competitors working on sequences of significantly different lengths. The measure is also useful for clustering web audiences to predict and meet information needs of various groups of users in real-time. Keywords: E-commerce; Sequence alignment; User segmentation; Web mining. 1. Giới thiệu Kỹ thuật khai phá dữ liệu từ hành vi người dùng đang nhận được sự quan tâm ngày càng lớn của các nhà nghiên cứu, nhằm phục vụ các ứng dụng thương mại điện tử trong việc tìm hiểu nhu cầu người dùng web. Phân cụm (clustering) là một trong những kỹ thuật được chú ý nhất cho mục đích phát hiện các nhóm người dùng web tiềm ẩn có nhu cầu tương tự nhau. Sự hiểu biết về nhu cầu này giúp các ứng dụng thương mại điện tử cải tiến cách thức và nội dung cung cấp, để thông tin đến đúng người có nhu cầu nhằm tối ưu hóa lợi nhuận. Trong bài báo trước (Lưu Vĩnh Trung, 2017), chúng tôi đã .