Cách xử lý số liệu bằng phần mềm sas

PGS. TS.

LÊ QUANG HƯNG

ỨNG DỤNG SAS
PHÂN TÍCH SỐ LIỆU THÍ NGHIỆM

2009

Lời mở đầu
SAS [Statistical Analysis Systems] áp dụng ngôn ngữ lập trình để phân tích số liệu.
Riêng SAS/STAT bao gồm trên 60 phương thức phân tích số liệu áp dụng cho phân tích
phương sai, hồi qui, phân tích tổng hợp, và phân tích đa biến.

Dữ liệu lập trình trên word để xử lý thống kê của SAS ngắn gọn, khoảng 9 hàng với 24
từ, được thiết kế trước và số liệu được chuyển trực tiếp từ file word, excel, là dạng lưu trữ số
liệu thống kê phổ biến nhất. Ngoài ra có thể sử dụng số liệu lưu trữ từ file text, file của SAS để
phân tích thống kê. Cách sắp xếp bảng số liệu excel theo cột hay hàng, mã hóa bằng số hay tên
giống cây trồng, tên phương pháp, xử lý nhiều chỉ tiêu rất thuận tiện trong file mẫu word.
Sau khi lập trình đầy đủ số liệu để tạo file mẫu [sample], xử lý bằng lệnh RUN với thời
gian rất nhanh, chỉ một vài giây cho tất cả các cách xử lý 1 lần như: phân tích phương sai, xếp
nhóm các nghiệm thức của các yếu tố, tính ma trận tương tác các yếu tố, vẽ đồ thị… Kết quả
phân tích được giải thích rất rõ ràng về so sánh các nghiệm thức và xếp nhóm [grouping] theo
ký tự A, B cho yếu tố có hai nghiệm thức và A, B, C, D, E cho yếu tố có nhiều nghiệm thức.
Các giá trị xác suất cho các yếu tố đơn và tổ hợp đều thể hiện rõ trong bảng ANOVA.
Quyển sách này trình bày một số phương pháp xử lý số liệu thí nghiệm thông dụng trong
ngành nông sinh học liên quan đến khoa học cây trồng, căn cứ trên các bài tập mẫu bao gồm
các phương thức xử lý ANOVA, tương quan, hồi qui thực hiện cho thí nghiệm phổ biến nhất.
Các bài tập mẫu thống kê về các lĩnh vực khác như y học, hóa học, xã hội, cơ học … có thể
tham khảo trong chương trình của phần mềm SAS [phần Help > Using this windows > Sample

SAS Programs and Applications]. Ngoài ra SAS có thể xử lý số liệu với nhiều lệnh, bắt đầu từ
thanh công cụ với lệnh Solutions > Analysis > Analyst > Open với file Excel, file SAS>
Statistics > ANOVA.
Rất mong được sự góp ý để quyển sách được sử dụng thuận tiện hơn.
Các góp ý xin gửi về: PGS.TS Lê Quang Hưng
Khoa Nông học, Đại học Nông Lâm TP HCM. Liên hệ E-mail:
Trân trọng,
Tác giả
Update: 29-7-09, 86 tr.
Mục lục
Chương 1
PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI [ANOVA], XẾP NHÓM [GROUPING]
NGHIỆM THỨC VÀ SO SÁNH TƯƠNG TÁC [INTERACTION]
1.1. Mục tiêu
2

3

1.2. Nguồn số liệu theo dõi thí nghiệm
1.3. Tạo file word mẫu [sample]
1.4. Xử lý số liệu với SAS
1.5. Giải thích kết quả
1.6. Trình bày kết quả
1.7. Phương thức tạo file mẫu cho thí nghiệm hai yếu tố
1.8. Ý nghĩa các từ và chuyển đổi giá trị
1.9. Ô cơ sở [plot size] và lặp lại [replications]
Chương 2
THÍ NGHIỆM BỐ TRÍ HOÀN TOÀN NGẪU NHIÊN
[Completely Randomized Design, CRD]

2.1. Thí nghiệm hoàn toàn ngẫu nhiên một yếu tố
2.2. Thí nghiệm hoàn toàn ngẫu nhiên hai yếu tố

3
4
6
8
9
10
17
18

18
22

Chương 3
THÍ NGHIỆM KHỐI ĐẦY ĐỦ NGẪU NHIÊN
[Randomized Complete Block Design, RCBD]

3.1. Khối đầy đủ hoàn toàn ngẫu nhiên một yếu tố
3.2. Kiểu ô vuông la tinh
3.3. Khối đầy đủ ngẫu nhiên hai yếu tố
3.4. Thí nghiệm lô phụ
3.5. Thí nghiệm lô sọc

3.6. Thí nghiệm ba yếu tố
3.7. Các lệnh [SAS Code] để xử lý số liệu tính phương sai [ANOVA] thông dụng
Chương 4
TÍNH GIÁ TRỊ TRUNG BÌNH, T-TEST, CHI- BÌNH PHƯƠNG
TƯƠNG QUAN VÀ HỒI QUI

4.1. Tính giá trị trung bình
4.2. T- test
4.3. Chi-bình phương
4.4. Ma trận tương quan
4.5. Hồi qui tuyến tính đơn biến
4.6. Hồi qui tuyến tính đa biến
4.7. Hồi qui đa biến bậc hai
4.8. Tối ưu hóa và xác định điểm

4.9. Đồ thị hình lưới chiếu mặt phẳng ba chiều
Tài liệu tham khảo

24
26
28
34
47
51
59

64
66
67
68
71
72
75
77
80
86

Chương 1
PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI [ANOVA], XẾP NHÓM [GROUPING]
NGHIỆM THỨC VÀ SO SÁNH TƯƠNG TÁC [INTERACTION]
1.1.

Mục tiêu:
3

Mục tiêu của phân tích ANOVA [ANalysis Of VAriance] là xác định các nghiệm thức có ý
nghĩa khi giá trị tính F nhỏ hơn mức xác suất [probability] p < 0,05 hay p < 0,01 là mức
thường dùng trong nông nghiệp, sinh học. Sau đó các nghiệm thức được xếp nhóm [grouping,
SAS, 2004; homogeneous grouping: nhóm tương đồng [NRCS, 2007] với các ký tự A, B cho
hai nghiệm thức và A, B, C, D, E cho nhiều nghiệm thức là để so sánh sai khác và chọn được
nghiệm thức phù hợp của thí nghiệm. Đối với thí nghiệm nhiều yếu tố, cần có so sánh tương
tác [interaction] của các yếu tố. Các mẫu bài tập được tạo ra từ file excel và word để dễ sử
dụng và lưu số liệu ở dạng .doc, .xls, .sas.
1.2. Nguồn số liệu theo dõi thí nghiệm:
Số liệu được thu thập, xử lý và lưu từ file excel tùy theo kiểu bố trí thí nghiệm. Thí dụ so
sánh năng suất [kg/ô 20 m2] năm giống cải ngọt lần lượt là G22, Z15, X31, K14, D25, có thể
ghi bằng số nghiệm thức là 1, 2 , 3, 4, 5; hoặc ghi tên giống; được bố trí thí nghiệm kiểu khối
đầy đủ hoàn toàn ngẫu nhiên [Randomized Complete Block Design] bốn khối [I, II, III, IV].
Năm nghiệm thức thí nghiệm được ghi bằng tên giống trong file excel, khối ghi trước, nghiệm
thức ghi sau.
Sơ đồ thí nghiệm
Chiều biến thiên
Hướng dốc cao

I

1

3

2

5

4

II

2

1

5

4

3

III 3

4

2

1

5

IV

1

3

2

4

9.00
14.59
8.23

5

14.90

7.00

10.28

8.00

14.63

11.77

9.12

15.15
7.40

14.94
11.99
7.00
15.00

11.86
6.00
13.81
8.00

thấp

Cách ghi số liệu lưu trong file excel
khoi
1
1
1
1
1
2
2
2
2
2
3

3
3
3
3
4
4
4
4
4

nthuc
G22
Z15
X31
K14
D25
G22
Z15
X31
K14
D25
G22
Z15
X31
K14
D25
G22
Z15
X31
K14

D25

nsuat
9.00
10.28
7.00
11.86
14.94
8.00
14.59
6.00
11.99
14.63
7.00
15.15
8.23
11.77
13.81
9.12
15.00
7.40
8.00
14.90

Để phân tích kết quả, cần thực hiện:
4

-

Tạo file mẫu word
Xử lý với chương trình thống kê SAS
Ghi lại bảng ANOVA, nếu khác biệt của nghiệm thức ở mức p < 0,05 hay p < 0,01 thì
chọn xếp nhóm cho phù hợp. Ghi ký tự vào các trị trung bình của nghiệm thức để xếp
nhóm. Nếu p > 0,05 các nghiệm thức không khác nhau [ns, non- significant].
Ghi LSD [khác biệt có nghĩa nhỏ nhất], xác suất p và CV%.

1.3.
Tạo file word mẫu [sample]: file mẫu là file thông dụng để xử lý bằng chương
trình SAS với các lệnh [command] ANOVA và xếp nhóm. File word mẫu được sử dụng và xử
lý cho nhiều file và nhiều chỉ tiêu có thể một lần trong SAS. Có thể sử dụng file excel để tạo
file mẫu. File word mẫu gồm ba phần: [1] nhập lệnh khai biến, [2] nhập số liệu từ excel [hoặc
trực tiếp, từ các file khác] và [3] nhập lệnh xử lý ANOVA và xếp nhóm.
Thí nghiệm kiểu khối đầy đủ ngẫu nhiên đơn yếu tố, theo dõi năng suất của năm giống cải
ngọt [kg/ô 20 m2], trồng trên bốn khối. Tổng số ô là 4 x 5 = 20 ô.
Các lệnh xử lý như sau:
- DATA: tên file, ghi từ một đến nhiều chữ như DATA; hay DATA CAI NGOT;
- INPUT: chọn ký hiệu cho input, chỉ ghi một ký tự hay một từ, tối đa là tám ký tự. Nếu nhiều
từ cần có gạch nối dài, hoặc xác định độ dài length$10 [mười ký tự]. Nếu dùng bảng hàng
ngang có các biến nối tiếp, ghi:
INPUT T Y@@;
Datalines; [thay cho cards;]

* Cách 1: K [Khối], T [nghiệm thức], Y [năng suất], có cách một khoảng hoặc dấu $ như
INPUT K T Y; hay INPUT K $ T $ Y;
* Cách 2: ghi thẳng một từ cho một biến số: INPUT KHOI NTHUC NSUAT;

- CARDS; lệnh nhập số, kết thúc bằng dấu ;
- Số liệu excel với các số ghi dấu theo hệ ngôn ngữ Anh Mỹ: 0.5 thay vì 0,5 [tiếng Việt thì
chương trình không xử lý được].

- PROC: PROCEDURE, cách xử lý, như ANOVA, GLM, REG, SRREG [hồi qui],
PROC ANOVA;
riêng PROC GLM; được sử dụng kết hợp tính ANOVA và so sánh tương tác các yếu tố.

- CLASS: xếp loại các biến dùng phân tích, gồm có khối [K] và nghiệm thức [T],
CLASS K T;

- MODEL: mô hình phân tích năng suất [Y] = khối [K] và nghiệm thức [T]
MODEL Y = K T;

- MEANS: liệt kê các giá trị trung bình nghiệm thức [T] MEANS T;
- LSD ALPHA = 0.01: xếp nhóm các giá trị trung bình nghiệm thức ở mức alpha = 0.01. Có
thể chọn DUNCAN khi trên năm giá trị trung bình nghiệm thức. Alpha chọn ở mức alpha =
0.05 hay alpha = 0.01. Nếu ghi LSD; mặc định xếp nhóm ở mức p = 0.05. Nếu muốn chọn cả
hai, ghi đồng thời: MEANS T / LSD ALPHA = 0.05;
MEANS T / LSD ALPHA = 0.01;

SAS xử lý cả hai, khi đó xem trung bình các nghiệm thức ở bảng xếp nhóm và chọn mức có
nghĩa p F

0.11 0.9524
15.46 0.0001

NANG SUAT THUC THU
The ANOVA Procedure
t Tests [LSD] for Y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha

0.01
Error Degrees of Freedom
12
Error Mean Square
2.748135
Critical Value of t
3.05454
Least Significant Difference 3.5806

9

Means with the same letter are not significantly different.
t Grouping

Mean

N

T

A
A
B
B
B
C
D
D
D

14.570

4

D25

A

13.755

4

Z15

C

10.905

4

K14

C

8.280

4

G22

7.158

4

X31

1. 5. Giải thích kết quả: Xem bảng ANOVA
The ANOVA Procedure
Dependent Variable: Y
Sum of
Source
DF
Squares Mean Square
Model
7 170.8494350
24.4070621
Error
12
32.9776200
2.7481350
Corrected Total
19 203.8270550

F Value Pr > F
8.88 0.0006

R-Square
0.838208
Source

K
T

Coeff Var
Root MSE
Y Mean
15.16212
1.657750
10.93350
DF
Anova SS Mean Square F Value Pr > F
3
0.9092550
0.3030850
0.11 0.9524
4 169.9401800
42.4850450
15.46 0.0001

- Nghiệm thức T có F Value 15,46 với Pr > F là F

Type I SS

Mean Square

F Value

Pr > F

K
S
P
S*P

2 417.3333333 208.6666667
30.99 F

2 417.3333333 208.6666667
30.99 |t|
59.3333333
48.0000000
57.6666667
52.3333333
55.0000000
57.6666667

0.0013

0.8899
0.0301
0.2208
0.8899

Giải thích: sử dụng mức xác suất p-value để so sánh tương tác theo Dunnett test [Adjustment
for Multiple Comparisons: Dunnett], khi p < 0,05 thì các giá trị trung bình bình phương có ảnh
hưởng độc lập khác nhau, nếu p > 0,05 thì các giá trị này ảnh hưởng như nhau.
Phương pháp so sánh Dunnett test cho thấy: các tương tác S1P1, S2P1, S3P1 và S3P2 có ảnh
hưởng như nhau đến năng suất [p từ 0,2208 đến 0,8899]. Tương tác ảnh hưởng độc lập là S1P2
[p = 0,0013] và S2P2 [p = 0,0301].
2 YEU TO
The GLM Procedure
Class Level Information
Class

Levels

K

3

SP

Values

123

6

S1P1 S1P2 S2P1 S2P2 S3P1 S3P2

Number of observations

18

2 YEU TO
The GLM Procedure
Dependent Variable: Y
Source

DF

Sum of
Squares

Mean Square

F Value

Model

7

684.6666667

97.8095238

14.53

67.3333333

6.7333333

Error
Corrected Total

10

17

Pr > F
0.0002

752.0000000

14

R-Square

Coeff Var

Root MSE

Y Mean

0.910461

4.717940

2.594867

55.00000

Source

DF

K
SP

Type I SS

2 417.3333333
5 267.3333333

Source

DF

K
SP

Mean Square
208.6666667
53.4666667

Type III SS

2 417.3333333
5 267.3333333

Mean Square
208.6666667
53.4666667

F Value

Pr > F

30.99 F

30.99 F

40.02 0.0080

5.63 0.0982
0.20 0.6850
F Value

Pr > F

33.80 0.0101
5.00 0.1114
0.20 0.6850

2 YEU TO KHONG CAN DOI
The GLM Procedure
t Tests [LSD] for Y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha
0.05
Error Degrees of Freedom

3

22

Error Mean Square
2
Critical Value of t
3.18245
Least Significant Difference 3.4374
Harmonic Mean of Cell Sizes 3.428571
NOTE: Cell sizes are not equal.

Means with the same letter are not significantly different.
t Grouping

Mean

N

A

18.333

3

A2

B

11.500

4

A1

A

Giải thích:
- Tổng độ tự do của thí nghiệm là n - 1 = 7 - 1 = 6. F test toàn thí nghiệm là 15,29 v ới xác suất
p = 0,0253, chứng tỏ có khác biệt trong 4 trung bình nghiệm thức.
- Thí nghiệm cân đối các ô thí nghiệm thường có bảng ước lượng Type I SS và Type III SS [SS
= Sum of Squares, tổng bình phương] bằng nhau, nhưng trong thí nghiệm không cân đối này,

sử dụng Type III SS là phù hợp.
- So sánh khác biệt ở mức α = 0,05 cho thấy không có tương tác A*B [p = 0,6850], chứng tỏ
ảnh hưởng của yếu tố A không lệ thuộc vào yếu tố B và ngược lại. Cần tính khác biệt từng yếu
tố, trong đó yếu tố B không khác biệt [p = 0,1114], yếu tố A có khác biệt [p = 0,0101] ở mức p
< 0,05.

Chương 3
PHÂN TÍCH PHƯƠNG SAI THÍ NGHIỆM
KHỐI ĐẦY ĐỦ NGẪU NHIÊN
[Randomized Complete Block Design, RCBD]
3.1. Khối đầy đủ hoàn toàn ngẫu nhiên một yếu tố
Đây là kiểu bố trí phổ biến nhất trong nghiên cứu nông nghiệp. Áp dụng cho việc so sánh
các giống, loại phân bón trong điều kiện đất đai, ngoại cảnh tương đối ít đồng nhất. Thường có
chiều biến thiên của hướng dốc hoặc hướng ánh sáng, độ phì đất, pH, cần điều chỉnh ô phù hợp
về kích thước, chiều dài ô. Kiểu RCBD giảm sai số thí nghiệm, nhưng chịu ảnh hưởng của
khối.
Thí nghiệm so sánh năng suất tươi [kg/ô 36m2] của 6 giống đậu Hà Lan trong 4 khối, sử
dụng ký tự thay tên giống [Barnard, 1994].
Bố trí thí nghiệm theo khối đầy đủ hoàn toàn ngẫu nhiên, bốn lần lặp lại, sáu nghiệm thức.
Tổng số ô = 4x6 = 24 ô [k = khối; t = nghiệm thức, tên giống; y = năng suất]. Sơ đồ thí
nghiệm như sau:
Hướng dốc cao
I
II
III
IV

f
e
c

e

d
f
d
d

c
c
e
c

e
b
a
a

b
a
b
f

a
d
f
b
Thấp

data;
input k $ t $ y;

23

cards;
1
1
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
3
4
4
4
4
4
4

f
d
c
e
b
a
e
f
c
b
a
d
c
d
e
a
b
f
e
d
c
a
f
b

9
14.6
18.3
14.1
21.9

22.4
14.2
14.1
17.4
25.6
23.9
19.2
12.7
15.8
11.5
21.1
23.7
6.4
12.1
16.1
15.9
19.6
12.3
18.3

;
proc anova;
class k t;
model y = k t;
means t /duncan alpha=0.01;
title 'Thi nghiem 1 yeu to RCBD';
run;
Thi nghiem 1 yeu to RCBD
The ANOVA Procedure
Class Level Information

Class

Levels

Values

k

4

1234

t

6

abcdef

Number of observations

24

Thi nghiem 1 yeu to RCBD
The ANOVA Procedure
Dependent Variable: y
Source

DF

Sum of

Squares

Mean Square

F Value

Model

8

497.3300000

62.1662500

16.42

56.7950000

3.7863333

Error
Corrected Total

15

23

Pr > F
F

4.66 0.0171
23.48

Chủ Đề