Thông thường mỗi tuần, tôi vào 4 đến 5 trang tin khác nhau để cập nhật tin tức trong nước. Do vậy chuyện đọc tin bị trùng không phải là hiếm. Mỗi lần như thế, cái thói “Sherlock Holmes” (tò mò!) cố hữu lại khiến tôi loay hoay tìm ra cho bằng được cái bài viết “quen quen” đó bắt nguồn từ đâu. Và tôi nhận ra rằng, một bài viết thường được “lưu truyền” ở khá nhiều trang tin khác nhau, có khi giống đến từng từ, có khi khác cái tiêu đề. . | Các báo điện tử VN có vi phạm bản quyền I Thông thường mỗi tuần tôi vào 4 đến 5 trang tin khác nhau để cập nhật tin tức trong nước. Do vậy chuyện đọc tin bị trùng không phải là hiếm. Mỗi lần như thế cái thói Sherlock Holmes tò mò cố hữu lại khiến tôi loay hoay tìm ra cho bằng được cái bài viết quen quen đó bắt nguồn từ đâu. Và tôi nhận ra rằng một bài viết thường được lưu truyền ở khá nhiều trang tin khác nhau có khi giống đến từng từ có khi khác cái . tiêu đề. 1. Cuộc khảo sát Vậy là quyết định làm một cuộc tìm hiểu nho nhỏ để xem mức độ các trang tin trực tuyến tham chiếu nội dung của nhau như thế nào nảy ra trong đầu tôi. Ý tưởng rất đơn giản tôi sử dụng Google để tìm xem một tờ báo điện tử sử dụng bao nhiêu bài viết của một báo khác. Ví dụ nếu tôi muốn biết có bao nhiêu bài viết trên VietnamNet là của báo Tuổi Trẻ hoặc Tuổi Trẻ Online tôi tìm chính xác cụm từ Theo Tuổi Trẻ có ngoặc kép trong site VietnamNet. Cụ thể tôi ghi vào ô tìm kiếm của Google như sau Theo Tuổi Trẻ site . Cũng may cho tôi là vì các site lớn đều có ghi nguồn nếu bài viết không phải của họ. Nếu bạn để ý cụm từ Theo Tuổi Trẻ Theo Thanh Niên Theo VnExpress . nằm ở cuối bài đã thành chuẩn mực trong việc đăng lại nội dung từ một trang tin hoặc báo khác. Dân Trí là một ngoại lệ mà tôi sẽ trình bày trong phần kết quả. Dĩ nhiên cách khảo sát này không thể cho kết quả chính xác tuyệt đối vì có thể cụm từ Theo Tuổi Trẻ chẳng hạn xuất hiện ở giữa bài viết chứ không phải ở cuối bài. Trong trường hợp đó rất có thể bài viết chỉ trích dẫn một phần bài viết gốc chứ không phải copy nguyên bài. Nhưng bất cứ cuộc khảo sát nào cũng không thể chính xác tuyện đối nên chúng ta có thể coi đó là sai số. Hơn nữa để kiểm tra tôi luôn click vào 5 bài viết bất kỳ trong 20 kết quả đầu tiên từ Google để kiểm tra cụm từ khóa có thật sự là trích dẫn nguyên xi không. Kết quả 100 trường hợp 6x5x5 150 lần click đều xác nhận là cụm từ khóa nằm dưới cùng của bài viết nghĩa là đăng lại chứ không phải trích dẫn. Điều