Cơ sở dữ liệu song ngữ, bao gồm các cặp văn bản song ngữ hay các cặp câu song ngữ, đóng một vai trò rất quan trọng trong nhiều ứng dụng ngôn ngữ tự nhiên, như dịch máy thống kê, xây dựng từ điển song ngữ, tìm kiếm đa ngôn ngữ. Việc xây dựng cơ sở dữ liệu này bằng tay là một việc tốn nhiều chi phí và thời gian. May mắn thay là có rất nhiều dữ liệu song ngữ ở các dạng khác nhau trên Internet. Việc khai phá ra các thành phần tương đương (song ngữ).