Nội dung chính của bài viết trình bày vấn đề lưu trữ và quản lý dữ liệu, giao tiếp và tính toán. Và đối với các nhà thống kê, Big data đưa ra một tập danh sách các vấn đề hoàn toàn khác nhau: Làm thế nào chúng ta lấy những thông tin có thể sử dụng được ra khỏi cơ sở dữ liệu rất lớn và phức tạp mà phương pháp truyền thống của chúng ta không thể xử lý? | Xu hướng hiện tại và tương lai những thách thức trong thống kê học: Dữ liệu lớn 07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” Xu hướng hiện tại và tương lai NHỮNG THÁCH THỨC TRONG THỐNG KÊ HỌC: DỮ LIỆU LỚN (Trích Báo cáo Khoa học London năm 2014: Hội thảo Tương lai của Thống kê học) Xu hướng hiện tại trong thống kê được đề cập nhiều tại Hội thảo Tương lai của Thống kê học là Dữ liệu lớn (Big data), điều này không có gì phải nghi ngờ. Dữ liệu lớn hiện diện ở khắp mọi nơi và mỗi đối tượng lại có những suy nghĩ khác nhau khi nghe về chúng. Đối với những người bình thường, Big data mang lại những câu hỏi về sự riêng tư và bảo mật thông tin như: Những thông tin nào của tôi được chia sẻ, và làm thế nào để mọi người có thể truy cập vào đó? Còn đối với các nhà khoa học máy tính, thì câu hỏi đặt ra lại về vấn đề lưu trữ và quản lý dữ liệu, giao tiếp và tính toán. Và đối với các nhà thống kê, Big data đưa ra một tập danh sách các vấn đề hoàn toàn khác nhau: Làm thế nào chúng ta lấy những thông tin có thể sử dụng được ra khỏi cơ sở dữ liệu rất lớn và phức tạp mà phương pháp truyền thống của chúng ta không thể xử lý? Tại hội thảo này, tất cả các quan điểm đã được trình bày, từ quan điểm “Big data là một cơ hội mà các nhà thống kê không nên bỏ lỡ” đến quan điểm “Big data sẽ thay đổi số liệu thống kê như là chúng ta biết đến nó” hay quan điểm trái ngược như “Big data chỉ là nhất thời và chúng ta không nên đầu tư vào như những gì phóng đại về nó”. Nội dung Phần này của báo cáo sẽ không thừa nhận bất cứ quan điểm nhìn nhận nào nhưng sẽ tóm tắt qua tình hình và những thách thức mà Big data đặt ra đối với Khoa học Thống kê. Ví dụ về Big data Một số hình thức phổ biến nhất của Big data là: Cơ sở dữ liệu thương mại, chẳng hạn như dữ liệu số nhân viên của Google hay Facebook. Chính phủ hay gắn với số liệu chính thức. Cơ sở dữ liệu Hệ gen người. Ví dụ, Một bộ gen của con người có hơn 3