Bài giảng trình bày các nội dung: dùng hàm cơ bản trong R để mã hóa, chuyển đổi, đổi tên biến; dùng package tidyverse; biên tập dữ liệu với hàm cơ bản trong R; hợp nhất dữ liệu. | Bài giảng Biên tập dữ liệu Tuan V. Nguyen Garvan Institute of Medical Research Professor, UNSW School of Public Health and Community Medicine Professor of Predictive Medicine, University of Technology Sydney Adj. Professor of Epidemiology and Biostatistics, School of Medicine Sydney, University of Notre Dame Australia Phân tích dữ liệu và ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019 © Tuan V. Nguyen Biên tập dữ liệu • Dùng hàm cơ bản trong R – mã hóa, hoán chuyển, đổi tên biến, . • Dùng package tidyverse – select, filter, mutate, arrange, summarize Biên tập dữ liệu với hàm cơ bản trong R Dấu "$" • Rất quan trọng! • $ nối kết dataset và biến số (dataframe và variable) dat$var1 • có nghĩa là biến "var1" thuộc dataset "dat" Dấu "$" bw = ("~/Dropbox/_Conferences and Workshops/TDTU 2018/Datasets/;) head(bw, 3) id low age lwt race smoke ptl ht ui ftv bwt 1 85 0 19 182 2 0 0 0 1 0 2523 2 86 0 33 155 3 0 0 0 0 3 2551 3 87 0 20 105 1 1 0 0 0 1 2557 > weight = lwt* Error: object 'lwt' not found > bw$weight = bw$lwt* > head(bw, 3) id low age lwt race smoke ptl ht ui ftv bwt weight 1 85 0 19 182 2 0 0 0 1 0 2523 2 86 0 33 155 3 0 0 0 0 3 2551 3 87 0 20 105 1 1 0 0 0 1 2557 Mã hoá (coding) # Chúng ta muốn tạo ra một biến mới "lowbw" mã hóa từ biến low. Nếu low=1 thì lowbw="Yes"; nếu low=0 thì lowbw="No" bw$lowbw[low=1] ifelse # Chúng ta muốn tạo ra một biến mới "smoker". Nếu smoke=1 thì smoker=Yes, tất cả các giá trị khác thì smoker=No bw$smoker = ifelse(bw$smoke==1, 1, 0) và • Biến character: dùng cho phân nhóm • Biến numeric: dùng cho tính toán > head(bw, 3) id low age lwt race smoke ptl ht ui ftv bwt weight lowbw smoker 1 85 0 19 182 2 0 0 0 1 0 2523 Yes 0 2 86 0 33 155 3 0 0 0 0 3 2551 Yes 0 3 87 0