Tập dữ liệu R
Tập dữ liệu
Tập dữ liệu là tập hợp dữ liệu, thường được trình bày dưới dạng bảng.
Có một bộ dữ liệu tích hợp phổ biến trong R được gọi là " mtcars " (Motor Trend Car Road Test), được lấy từ Tạp chí Motor Trend Hoa Kỳ năm 1974.
Trong các ví dụ bên dưới (và cho các chương tiếp theo), chúng tôi sẽ sử dụng bộ dữ liệu mtcars
cho mục đích thống kê:
Ví dụ
# Print the mtcars data set
mtcars
Kết quả:
mpg xi lanh phân phối hp drat wt qsec vs am gear carb Mazda RX4 21,0 6 160,0 110 3,90 2,620 16,46 0 1 4 4 Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22,8 4 108,0 93 3,85 2,320 18,61 1 1 4 1 Hornet 4 Ổ 21,4 6 258,0 110 3,08 3,215 19,44 1 0 3 1 Hornet Sportabout 18,7 8 360,0 175 3,15 3,440 17,02 0 0 3 2 Dũng cảm 18,1 6 225,0 105 2,76 3,460 20,22 1 0 3 1 Khăn lau bụi 360 14,3 8 360,0 245 3,21 3,570 15,84 0 0 3 4 Merc 240D 24,4 4 146,7 62 3,69 3,190 20,00 1 0 4 2 Merc 230 22,8 4 140,8 95 3,92 3,150 22,90 1 0 4 2 Merc 280 19,2 6 167,6 123 3,92 3,440 18,30 1 0 4 4 Merc 280C 17,8 6 167,6 123 3,92 3,440 18,90 1 0 4 4 Merc 450SE 16,4 8 275,8 180 3,07 4,070 17,40 0 0 3 3 Merc 450SL 17,3 8 275,8 180 3,07 3,730 17,60 0 0 3 3 Merc 450SLC 15,2 8 275,8 180 3,07 3,780 18,00 0 0 3 3 Cadillac Fleetwood 10,4 8 472,0 205 2,93 5,250 17,98 0 0 3 4 Lincoln Continental 10,4 8 460,0 215 3,00 5,424 17,82 0 0 3 4 Chrysler Imperial 14,7 8 440,0 230 3,23 5,345 17,42 0 0 3 4 Tiền pháp định 128 32,4 4 78,7 66 4,08 2,200 19,47 1 1 4 1 Honda Civic 30,4 4 75,7 52 4,93 1,615 18,52 1 1 4 2 Toyota Corolla 33,9 4 71,1 65 4,22 1,835 19,90 1 1 4 1 Toyota Corona 21,5 4 120,1 97 3,70 2,465 20,01 1 0 3 1 Dodge Challenger 15,5 8 318,0 150 2,76 3,520 16,87 0 0 3 2 AMC Javelin 15,2 8 304,0 150 3,15 3,435 17,30 0 0 3 2 Camaro Z28 13,3 8 350,0 245 3,73 3,840 15,41 0 0 3 4 Pontiac Firebird 19,2 8 400,0 175 3,08 3,845 17,05 0 0 3 2 Fiat X1-9 27,3 4 79,0 66 4,08 1,935 18,90 1 1 4 1 Porsche 914-2 26,0 4 120,3 91 4,43 2,140 16,70 0 1 5 2 Lotus Europa 30,4 4 95,1 113 3,77 1,513 16,90 1 1 5 2 Ford Pantera L 15,8 8 351,0 264 4,22 3,170 14,50 0 1 5 4 Ferrari Dino 19,7 6 145,0 175 3,62 2,770 15,50 0 1 5 6 Maserati Bora 15,0 8 301,0 335 3,54 3,570 14,60 0 1 5 8 Volvo 142E 21,4 4 121,0 109 4,11 2,780 18,60 1 1 4 2
Thông tin về tập dữ liệu
Bạn có thể sử dụng dấu chấm hỏi ( ?
) để lấy thông tin về tập dữ liệu mtcars
:
Ví dụ
# Use the question mark to get information about
the data set
?mtcars
Kết quả:
mtcars {bộ dữ liệu} | Tài liệu R |
Xu hướng xe máy Kiểm tra đường ô tô
Sự miêu tả
Dữ liệu được trích từ tạp chí Motor Trend US năm 1974, bao gồm mức tiêu thụ nhiên liệu và 10 khía cạnh về thiết kế và hiệu suất ô tô của 32 ô tô (mẫu 1973-74).
Cách sử dụng
xe mtcar
Định dạng
Khung dữ liệu có 32 quan sát trên 11 biến (số).
[, 1] | mpg | Dặm/(US) gallon |
[, 2] | xi lanh | số xi lanh |
[, 3] | hiển thị | Sự dịch chuyển (cu.in.) |
[, 4] | hp | Tổng mã lực |
[, 5] | thứ rác rưởi | Tỷ lệ trục sau |
[, 6] | cái gì | Trọng lượng (1000 lbs) |
[, 7] | qgiây | thời gian 1/4 dặm |
[, số 8] | vs | Động cơ (0 = hình chữ V, 1 = thẳng) |
[, 9] | là | Hộp số (0 = tự động, 1 = số tay) |
[,10] | bánh răng | Số bánh răng tiến |
[,11] | tinh bột | Số lượng bộ chế hòa khí |
Ghi chú
Henderson và Velleman (1981) nhận xét trong phần chú thích cuối trang của Bảng 1: 'Sự mã hóa không quan trọng của [người chuyển mã gốc] đối với động cơ quay của Mazda dưới dạng động cơ sáu xi-lanh thẳng hàng và động cơ phẳng của Porsche dưới dạng động cơ V, cũng như động cơ phẳng của Porsche. bao gồm động cơ diesel Mercedes 240D, đã được giữ lại để có thể so sánh trực tiếp với các phân tích trước đó.'
Nguồn
Henderson và Velleman (1981), Xây dựng mô hình hồi quy bội tương tác. Sinh trắc học , 37 , 391-411.
Ví dụ
yêu cầu (đồ họa) cặp(mtcars, main = "dữ liệu mtcars", khoảng cách = 1/4) coplot(mpg ~ disp | as.factor(cyl), data = mtcars, panel = panel.smooth, hàng = 1) ## có thể có ý nghĩa hơn, ví dụ: đối với biểu đồ tóm tắt() hoặc biểu đồ hai biến: mtcars2 <- bên trong(mtcars, { vs <- yếu tố(vs, nhãn = c("V", "S")) am <- yếu tố(am, labels = c("tự động", "thủ công")) xi lanh <- ra lệnh(xi lanh) thiết bị <- ra lệnh(bánh răng) carb <- đặt hàng(carb) }) tóm tắt(mtcars2)
Nhận thông tin
Sử dụng hàm dim()
để tìm kích thước của tập dữ liệu và names()
để xem tên của các biến:
Ví dụ
Data_Cars <- mtcars # create a variable of the mtcars data set for better
organization
# Use dim() to find the dimension of the data set
dim(Data_Cars)
# Use names() to find the names of the variables from
the data set
names(Data_Cars)
Kết quả:
[1] 32 11 [1] "mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear" [11] "tinh bột"
Sử dụng hàm rownames()
để lấy tên của từng hàng trong cột đầu tiên, đó là tên của từng chiếc xe:
Ví dụ
Data_Cars <- mtcars
rownames(Data_Cars)
Kết quả:
[1] "Mazda RX4" "Mazda RX4 Wag" "Datsun 710" [4] "Hornet 4 Drive" "Hornet Sportabout" "Valiant" [7] "Duster 360" "Merc 240D" "Merc 230" [10] "Merc 280" "Merc 280C" "Merc 450SE" [13] "Merc 450SL" "Merc 450SLC" "Cadillac Fleetwood" [16] "Lincoln Continental" "Chrysler Imperial" "Fiat 128" [19] "Honda Civic" "Toyota Corolla" "Toyota Corona" [22] "Dodge Challenger" "AMC Javelin" "Camaro Z28" [25] "Con chim lửa Pontiac" "Fiat X1-9" "Porsche 914-2" [28] "Lotus Europa" "Ford Pantera L" "Ferrari Dino" [31] "Maserati Bora" "Volvo 142E"
Từ các ví dụ trên, chúng tôi phát hiện ra rằng tập dữ liệu có 32 quan sát (Mazda RX4, Mazda RX4 Wag, Datsun 710, v.v.) và 11 biến (mpg, cyl, disp, v.v.).
Một biến được định nghĩa là một cái gì đó có thể đo lường được hoặc đếm được.
Dưới đây là giải thích ngắn gọn về các biến trong bộ dữ liệu mtcars:
Tên biến | Sự miêu tả |
---|---|
mpg | Dặm/(Mỹ) gallon |
xi lanh | số xi lanh |
hiển thị | Sự dịch chuyển |
hp | Tổng mã lực |
thứ rác rưởi | Tỷ lệ trục sau |
cái gì | Trọng lượng (1000 lbs) |
qgiây | thời gian 1/4 dặm |
vs | Động cơ (0 = hình chữ V, 1 = thẳng) |
là | Hộp số (0 = tự động, 1 = số tay) |
bánh răng | Số bánh răng tiến |
tinh bột | Số lượng bộ chế hòa khí |
In các giá trị biến
Nếu bạn muốn in tất cả các giá trị thuộc về một biến, hãy truy cập khung dữ liệu bằng cách sử dụng dấu $
và tên của biến (ví dụ: cyl
(hình trụ)):
Ví dụ
Data_Cars <- mtcars
Data_Cars$cyl
Kết quả:
[1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
Sắp xếp các giá trị biến
Để sắp xếp các giá trị, hãy sử dụng hàm sort()
:
Ví dụ
Data_Cars <- mtcars
sort(Data_Cars$cyl)
Kết quả:
[1] 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 6 6 6 8 8 8 8 8 8 8 8 8 8 8 8 8 8
Từ các ví dụ trên, chúng ta thấy rằng hầu hết các ô tô đều có 4 và 8 xi-lanh.
Phân tích dữ liệu
Bây giờ chúng ta đã có một số thông tin về tập dữ liệu, chúng ta có thể bắt đầu phân tích nó bằng một số con số thống kê.
Ví dụ: chúng ta có thể sử dụng hàm summary()
để lấy bản tóm tắt thống kê về dữ liệu:
Đừng lo lắng nếu bạn không hiểu các con số đầu ra. Bạn sẽ thành thạo chúng trong thời gian ngắn.
Hàm summary()
trả về sáu số thống kê cho mỗi biến:
- tối thiểu
- Phân vị thứ nhất (phần trăm)
- Trung bình
- Nghĩa là
- Phân vị thứ ba (phần trăm)
- Tối đa
Chúng tôi sẽ đề cập đến tất cả chúng, cùng với những con số thống kê khác trong các chương tiếp theo.