Cách xử lý số liệu bằng phần mềm sas

PGS. TS.

LÊ QUANG HƯNG

ỨNG DỤNG SAS
PHÂN TÍCH SỐ LIỆU THÍ NGHIỆM

2009

Lời mở đầu
SAS (Statistical Analysis Systems) áp dụng ngôn ngữ lập trình để phân tích số liệu.
Riêng SAS/STAT bao gồm trên 60 phương thức phân tích số liệu áp dụng cho phân tích
phương sai, hồi qui, phân tích tổng hợp, và phân tích đa biến.

Dữ liệu lập trình trên word để xử lý thống kê của SAS ngắn gọn, khoảng 9 hàng với 24
từ, được thiết kế trước và số liệu được chuyển trực tiếp từ file word, excel, là dạng lưu trữ số
liệu thống kê phổ biến nhất. Ngoài ra có thể sử dụng số liệu lưu trữ từ file text, file của SAS để
phân tích thống kê. Cách sắp xếp bảng số liệu excel theo cột hay hàng, mã hóa bằng số hay tên
giống cây trồng, tên phương pháp, xử lý nhiều chỉ tiêu rất thuận tiện trong file mẫu word.
Sau khi lập trình đầy đủ số liệu để tạo file mẫu (sample), xử lý bằng lệnh RUN với thời
gian rất nhanh, chỉ một vài giây cho tất cả các cách xử lý 1 lần như: phân tích phương sai, xếp
nhóm các nghiệm thức của các yếu tố, tính ma trận tương tác các yếu tố, vẽ đồ thị… Kết quả
phân tích được giải thích rất rõ ràng về so sánh các nghiệm thức và xếp nhóm (grouping) theo
ký tự A, B cho yếu tố có hai nghiệm thức và A, B, C, D, E cho yếu tố có nhiều nghiệm thức.
Các giá trị xác suất cho các yếu tố đơn và tổ hợp đều thể hiện rõ trong bảng ANOVA.
Quyển sách này trình bày một số phương pháp xử lý số liệu thí nghiệm thông dụng trong
ngành nông sinh học liên quan đến khoa học cây trồng, căn cứ trên các bài tập mẫu bao gồm
các phương thức xử lý ANOVA, tương quan, hồi qui thực hiện cho thí nghiệm phổ biến nhất.
Các bài tập mẫu thống kê về các lĩnh vực khác như y học, hóa học, xã hội, cơ học … có thể
tham khảo trong chương trình của phần mềm SAS (phần Help > Using this windows > Sample

SAS Programs and Applications). Ngoài ra SAS có thể xử lý số liệu với nhiều lệnh, bắt đầu từ
thanh công cụ với lệnh Solutions > Analysis > Analyst > Open với file Excel, file SAS>
Statistics > ANOVA.
Rất mong được sự góp ý để quyển sách được sử dụng thuận tiện hơn.
Các góp ý xin gửi về: PGS.TS Lê Quang Hưng
Khoa Nông học, Đại học Nông Lâm TP HCM. Liên hệ E-mail:
Trân trọng,
Tác giả
Update: 29-7-09, 86 tr.
Mục lục
Chương 1
PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI (ANOVA), XẾP NHÓM (GROUPING)
NGHIỆM THỨC VÀ SO SÁNH TƯƠNG TÁC (INTERACTION)
1.1. Mục tiêu
2

3

1.2. Nguồn số liệu theo dõi thí nghiệm
1.3. Tạo file word mẫu (sample)
1.4. Xử lý số liệu với SAS
1.5. Giải thích kết quả
1.6. Trình bày kết quả
1.7. Phương thức tạo file mẫu cho thí nghiệm hai yếu tố
1.8. Ý nghĩa các từ và chuyển đổi giá trị
1.9. Ô cơ sở (plot size) và lặp lại (replications)
Chương 2
THÍ NGHIỆM BỐ TRÍ HOÀN TOÀN NGẪU NHIÊN
(Completely Randomized Design, CRD)

2.1. Thí nghiệm hoàn toàn ngẫu nhiên một yếu tố
2.2. Thí nghiệm hoàn toàn ngẫu nhiên hai yếu tố

3
4
6
8
9
10
17
18

18
22

Chương 3
THÍ NGHIỆM KHỐI ĐẦY ĐỦ NGẪU NHIÊN
(Randomized Complete Block Design, RCBD)

3.1. Khối đầy đủ hoàn toàn ngẫu nhiên một yếu tố
3.2. Kiểu ô vuông la tinh
3.3. Khối đầy đủ ngẫu nhiên hai yếu tố
3.4. Thí nghiệm lô phụ
3.5. Thí nghiệm lô sọc

3.6. Thí nghiệm ba yếu tố
3.7. Các lệnh (SAS Code) để xử lý số liệu tính phương sai (ANOVA) thông dụng
Chương 4
TÍNH GIÁ TRỊ TRUNG BÌNH, T-TEST, CHI- BÌNH PHƯƠNG
TƯƠNG QUAN VÀ HỒI QUI

4.1. Tính giá trị trung bình
4.2. T- test
4.3. Chi-bình phương
4.4. Ma trận tương quan
4.5. Hồi qui tuyến tính đơn biến
4.6. Hồi qui tuyến tính đa biến
4.7. Hồi qui đa biến bậc hai
4.8. Tối ưu hóa và xác định điểm

4.9. Đồ thị hình lưới chiếu mặt phẳng ba chiều
Tài liệu tham khảo

24
26
28
34
47
51
59

64
66
67
68
71
72
75
77
80
86

Chương 1
PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI (ANOVA), XẾP NHÓM (GROUPING)
NGHIỆM THỨC VÀ SO SÁNH TƯƠNG TÁC (INTERACTION)
1.1.

Mục tiêu:
3

Mục tiêu của phân tích ANOVA (ANalysis Of VAriance) là xác định các nghiệm thức có ý
nghĩa khi giá trị tính F nhỏ hơn mức xác suất (probability) p < 0,05 hay p < 0,01 là mức
thường dùng trong nông nghiệp, sinh học. Sau đó các nghiệm thức được xếp nhóm (grouping,
SAS, 2004; homogeneous grouping: nhóm tương đồng (NRCS, 2007) với các ký tự A, B cho
hai nghiệm thức và A, B, C, D, E cho nhiều nghiệm thức là để so sánh sai khác và chọn được
nghiệm thức phù hợp của thí nghiệm. Đối với thí nghiệm nhiều yếu tố, cần có so sánh tương
tác (interaction) của các yếu tố. Các mẫu bài tập được tạo ra từ file excel và word để dễ sử
dụng và lưu số liệu ở dạng .doc, .xls, .sas.
1.2. Nguồn số liệu theo dõi thí nghiệm:
Số liệu được thu thập, xử lý và lưu từ file excel tùy theo kiểu bố trí thí nghiệm. Thí dụ so
sánh năng suất (kg/ô 20 m2) năm giống cải ngọt lần lượt là G22, Z15, X31, K14, D25, có thể
ghi bằng số nghiệm thức là 1, 2 , 3, 4, 5; hoặc ghi tên giống; được bố trí thí nghiệm kiểu khối
đầy đủ hoàn toàn ngẫu nhiên (Randomized Complete Block Design) bốn khối (I, II, III, IV).
Năm nghiệm thức thí nghiệm được ghi bằng tên giống trong file excel, khối ghi trước, nghiệm
thức ghi sau.
Sơ đồ thí nghiệm
Chiều biến thiên
Hướng dốc cao

I

1

3

2

5

4

II

2

1

5

4

3

III 3

4

2

1

5

IV

1

3

2

4

9.00
14.59
8.23

5

14.90

7.00

10.28

8.00

14.63

11.77

9.12

15.15
7.40

14.94
11.99
7.00
15.00

11.86
6.00
13.81
8.00

thấp

Cách ghi số liệu lưu trong file excel
khoi
1
1
1
1
1
2
2
2
2
2
3

3
3
3
3
4
4
4
4
4

nthuc
G22
Z15
X31
K14
D25
G22
Z15
X31
K14
D25
G22
Z15
X31
K14
D25
G22
Z15
X31
K14

D25

nsuat
9.00
10.28
7.00
11.86
14.94
8.00
14.59
6.00
11.99
14.63
7.00
15.15
8.23
11.77
13.81
9.12
15.00
7.40
8.00
14.90

Để phân tích kết quả, cần thực hiện:
4

-

Tạo file mẫu word
Xử lý với chương trình thống kê SAS
Ghi lại bảng ANOVA, nếu khác biệt của nghiệm thức ở mức p < 0,05 hay p < 0,01 thì
chọn xếp nhóm cho phù hợp. Ghi ký tự vào các trị trung bình của nghiệm thức để xếp
nhóm. Nếu p > 0,05 các nghiệm thức không khác nhau (ns, non- significant).
Ghi LSD (khác biệt có nghĩa nhỏ nhất), xác suất p và CV%.

1.3.
Tạo file word mẫu (sample): file mẫu là file thông dụng để xử lý bằng chương
trình SAS với các lệnh (command) ANOVA và xếp nhóm. File word mẫu được sử dụng và xử
lý cho nhiều file và nhiều chỉ tiêu có thể một lần trong SAS. Có thể sử dụng file excel để tạo
file mẫu. File word mẫu gồm ba phần: (1) nhập lệnh khai biến, (2) nhập số liệu từ excel (hoặc
trực tiếp, từ các file khác) và (3) nhập lệnh xử lý ANOVA và xếp nhóm.
Thí nghiệm kiểu khối đầy đủ ngẫu nhiên đơn yếu tố, theo dõi năng suất của năm giống cải
ngọt (kg/ô 20 m2), trồng trên bốn khối. Tổng số ô là 4 x 5 = 20 ô.
Các lệnh xử lý như sau:
- DATA: tên file, ghi từ một đến nhiều chữ như DATA; hay DATA CAI NGOT;
- INPUT: chọn ký hiệu cho input, chỉ ghi một ký tự hay một từ, tối đa là tám ký tự. Nếu nhiều
từ cần có gạch nối dài, hoặc xác định độ dài length$10 (mười ký tự). Nếu dùng bảng hàng
ngang có các biến nối tiếp, ghi:
INPUT T Y@@;
Datalines; (thay cho cards;)

* Cách 1: K (Khối), T (nghiệm thức), Y (năng suất), có cách một khoảng hoặc dấu $ như
INPUT K T Y; hay INPUT K $ T $ Y;
* Cách 2: ghi thẳng một từ cho một biến số: INPUT KHOI NTHUC NSUAT;

- CARDS; lệnh nhập số, kết thúc bằng dấu ;
- Số liệu excel với các số ghi dấu theo hệ ngôn ngữ Anh Mỹ: 0.5 thay vì 0,5 (tiếng Việt thì
chương trình không xử lý được).

- PROC: PROCEDURE, cách xử lý, như ANOVA, GLM, REG, SRREG (hồi qui),
PROC ANOVA;
riêng PROC GLM; được sử dụng kết hợp tính ANOVA và so sánh tương tác các yếu tố.

- CLASS: xếp loại các biến dùng phân tích, gồm có khối (K) và nghiệm thức (T),
CLASS K T;

- MODEL: mô hình phân tích năng suất (Y) = khối (K) và nghiệm thức (T)
MODEL Y = K T;

- MEANS: liệt kê các giá trị trung bình nghiệm thức (T) MEANS T;
- LSD ALPHA = 0.01: xếp nhóm các giá trị trung bình nghiệm thức ở mức alpha = 0.01. Có
thể chọn DUNCAN khi trên năm giá trị trung bình nghiệm thức. Alpha chọn ở mức alpha =
0.05 hay alpha = 0.01. Nếu ghi LSD; mặc định xếp nhóm ở mức p = 0.05. Nếu muốn chọn cả
hai, ghi đồng thời: MEANS T / LSD ALPHA = 0.05;
MEANS T / LSD ALPHA = 0.01;

SAS xử lý cả hai, khi đó xem trung bình các nghiệm thức ở bảng xếp nhóm và chọn mức có
nghĩa p<0,05 hay p<0,01.
- TITLE: tựa đề không cần ghi, nếu ghi có thể ghi nhiều chữ, có dấu ‘ ’ để nêu rõ chỉ tiêu
theo dõi như TITLE ‘NANG SUAT’;
- RUN; lệnh xử lý (RUN, SUBMIT ở thanh công cụ).
RUN;
5

Lưu ý: sau mỗi lệnh, kết thúc bằng dấu ;
Trình tự nhập số liệu được sử dụng ký tự đơn giản và giải thích như sau:
DATA;
INPUT K $ T $ Y ;

CARDS;

1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
4
4
4
4
4

G22
Z15
X31
K14
D25
G22
Z15

X31
K14
D25
G22
Z15
X31
K14
D25
G22
Z15
X31
K14
D25

(DATA: tên dữ liệu, ghi thêm tên và kết thúc bằng dấu ;)
(INPUT: nhập biến và có ký tự $ cách khoảng và dấu;)
(CARDS: lệnh nhập số liệu, kết thúc bằng dấu;)
(Copy và paste chỉ có phần số từ file excel trên)

9.00
10.28
7.00
11.86
14.94
8.00
14.59
6.00
11.99
14.63
7.00

15.15
8.23
11.77
13.81
9.12
15.00
7.40
8.00
14.90

;
PROC ANOVA;
CLASS K T;
MODEL Y = K T;
MEANS T / LSD ALPHA=0.01;
TITLE ‘NANG SUAT’;
RUN;

(dấu ; cho biết đã ghi xong số liệu)
(Xử lý ANOVA)
(Xếp loại các biến dùng xử lý)
(Mô hình biến phụ thuộc bảng ANOVA)
(Xếp hạng các trung bình theo alpha)
(Đặt tên của chỉ tiêu theo dõi)
(Lệnh xử lý)

Tóm lại các lệnh (command, code) phân tích thống kê cho cách 1 như sau:
DATA;
INPUT K $ T $ Y;
CARDS;

……Số liệu từ bảng excel
;
PROC ANOVA;
CLASS K T;
MODEL Y = K T;
MEANS T / LSD ALPHA=0.05;
TITLE ‘NANG SUAT’;
RUN;

Input cách 2 như sau:

DATA;
INPUT KHOI NTHUC NSUAT;
CARDS;
……
;
PROC ANOVA;
CLASS KHOI NTHUC;
MODEL NSUAT = KHOI NTHUC;
MEANS NTHUC / LSD ALPHA=0.05;
TITLE ‘NANG SUAT’;
RUN;

6

* Ghi chú về xếp hạng các nghiệm thức:
- Thí nghiệm từ hai đến năm nghiệm thức chọn so sánh Fisher’s LSD test, ghi:
MEANS NTHUC / LSD; kết quả xếp nhóm mặc định với APHA = 0.05; Least Significant
Difference (sai biệt nhỏ nhất có nghĩa). Xếp nhóm ở mức khác biệt p = 0,01 nếu ghi ALPHA =

0.01.
- Thí nghiệm từ sáu nghiệm thức trở lên chọn Duncan test, ghi:
MEANS NTHUC / DUNCAN; kết quả xếp nhóm mặc định với APHA = 0.05 (Trịnh Công
Thành, 2003). Trắc nghiệm đa đoạn Duncan (Duncan’s Multiple Range Test) xếp nhóm ở mức
khác biệt p = 0,01 nếu ghi ALPHA = 0.01. Duncan’s Multiple Range Test xếp nhóm toàn thí
nghiệm khi trên bốn nghiệm thức.
1.4. Xử lý số liệu với SAS
- Mở chương trình (ex: SAS v.8, v.9), giao diện có các phần cho xử lý thống kê như
Program editor, Log, Ouput ở thanh bar phía dưới cùng. Chọn (click) phần Program
editor.

Hình 1.1. Giao diện của SAS version 8

-

Copy file word mẫu và patse vào phần Program editor.
Có thể mở trực tiếp dạng file lưu từ .sas hoặc word .txt.

7

Hình 1.2. Program Editor để chuyển số liệu từ file word mẫu

File word mẫu để phân tích ANOVA, khối đầy đủ ngẫu nhiên, năm nghiệm thức, bốn khối.
Ký hiệu: K (Khối), T (nghiệm thức), Y (năng suất cải ngọt kg/ô 20 m2). Trình tự xử lý:
- Chuyển file mẫu (copy và paste) từ DATA đến RUN; vào Program Editor.
DATA;
INPUT K $ T $ Y;
CARDS;

1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
4
4
4
4
4

G22
Z15
X31
K14
D25
G22
Z15
X31
K14

D25
G22
Z15
X31
K14
D25
G22
Z15
X31
K14
D25

9.00
10.28
7.00
11.86
14.94
8.00
14.59
6.00
11.99
14.63
7.00
15.15
8.23
11.77
13.81
9.12
15.00
7.40

8.00
14.90

;
PROC ANOVA;
CLASS K T;

8

MODEL Y = K T;
MEANS T / LSD ALPHA=0.01;
TITLE ‘NANG SUAT THUC THU’;
RUN;

Lưu ý: Có thể dùng mẫu này để xử lý nhiều chỉ tiêu, chỉ cần
thay mức alpha=0.05 hay alpha=0.01 sau khi đã xem kết quả bảng
ANOVA, và tựa đề (title) khi nhập số cho các chỉ tiêu khác.

-

Click vào hình
ở thanh công cụ (task bar) để xử lý số liệu
(Run→Submit).
Xem kết quả trong Ouput: lưu bằng Select all→ Copy, paste vào word, hoặc save
.sas.
Thời gian xử lý cpu time = 0.02 seconds.

NANG SUAT THUC THU
The ANOVA Procedure

Class Level Information
Class
Levels Values
K
T

4

1234

5 D25 G22 K14 X31 Z15
Number of observations 20
NANG SUAT THUC THU
The ANOVA Procedure

Dependent Variable: Y
Source

DF

Sum of
Squares

Mean Square

F Value

Model

7

170.8494350

24.4070621

8.88

Error

12

32.9776200

2.7481350

Corrected Total

19

203.8270550

R-Square
0.838208
Source
K
T

3
4

Coeff Var

Root MSE

Pr > F
0.0006

Y Mean

15.16212
1.657750
10.93350
DF
Anova SS Mean Square F Value
0.9092550
169.9401800

0.3030850
42.4850450

Pr > F

0.11 0.9524
15.46 0.0001

NANG SUAT THUC THU
The ANOVA Procedure
t Tests (LSD) for Y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha

0.01
Error Degrees of Freedom
12
Error Mean Square
2.748135
Critical Value of t
3.05454
Least Significant Difference 3.5806

9

Means with the same letter are not significantly different.
t Grouping

Mean

N

T

A
A
B
B
B
C
D
D
D

14.570

4

D25

A

13.755

4

Z15

C

10.905

4

K14

C

8.280

4

G22

7.158

4

X31

1. 5. Giải thích kết quả: Xem bảng ANOVA
The ANOVA Procedure
Dependent Variable: Y
Sum of
Source
DF
Squares Mean Square
Model
7 170.8494350
24.4070621
Error
12
32.9776200
2.7481350
Corrected Total
19 203.8270550

F Value Pr > F
8.88 0.0006

R-Square
0.838208
Source

K
T

Coeff Var
Root MSE
Y Mean
15.16212
1.657750
10.93350
DF
Anova SS Mean Square F Value Pr > F
3
0.9092550
0.3030850
0.11 0.9524
4 169.9401800
42.4850450
15.46 0.0001

- Nghiệm thức T có F Value 15,46 với Pr > F là <0,0001, các nghiệm thức khác biệt rất có
nghĩa ở mức p < 0,01.
- Xem xếp nhóm t grouping (t- test) ở mức p = 0,01 và các nghiệm thức được xếp bốn nhóm
theo ký tự là A, B, C, D; các trung bình cùng ký tự không khác biệt có nghĩa (Means with the
same letter are not significantly different).
- Lưu ý: xem Coeff Var = 15,16212 (hệ số biến thiên CV% trong bảng ANOVA) và Least
Significant Difference = 3,5806 (t Tests (LSD) for NSUAT).
1.6. Trình bày kết quả:
Bảng 1.1. Năng suất thực thu của năm giống cải ngọt.
Giống
Năng suất (kg/ô 20m2)

G22
8,280 cd
Z15
13,755 ab
X31
7,158 d
K14
10,905 bc
D25
14,570 a
LSD
3,5806
CV%
15,16
P
0,01
Ghi chú: Các trung bình cùng ký tự không khác biệt có nghĩa ở mức xác suất p< 0,01.
Giải thích: xếp nhóm theo ký tự có thể chia nhóm khác biệt trung bình các nghiệm thức theo
thứ tự từ cao đến thấp bốn nhóm là A, B, C và D. Năng suất cao nhất là giống D25, tiếp theo là
giống X15, thấp nhất là giống X31.
1.7.

Phương thức tạo file mẫu cho thí nghiệm hai yếu tố

10

Thí nghiệm khảo sát năng suất đậu (kg/ô) với hai lượng phân lân (P1 = không bón lân, P2 = 25
kg/ha) và ba khoảng cách hàng (S1 = 45 cm, S2 = 90 cm, S3 = 135 cm). Ký hiệu K (khối I, II,
III), P (lân), S (khoảng cách hàng), Y (năng suất/ô), phỏng theo bài tập trang 86 (Petersen,

1994).
I
II
III

S2 P1
60
S1 P2
45
S1 P1
55

S1 P1
65
S3 P1
55
S3 P1
51

S3 P2
66
S3 P2
57
S1 P2
43

Sơ đồ thí
S3 P1
59
S1 P1

58
S2 P1
54

nghiệm
S1 P2
56
S2 P2
50
S2 P2
45

S2 P2
62
S2 P1
59
S3 P2
50

Nhập số liệu với ký hiệu: K (khối),

S (khoảng cách hàng), P (lượng phân lân), SP (yếu
tố tương tác khoảng cách hàng và lượng phân lân, nếu không có tương tác không cần
ghi cột này và không xếp nhóm). So sánh tương tác theo Dunnett test, xếp nhóm
Duncan sáu giá trị trung bình nghiệm thức (tất cả là 2 x 3 = 6 giá trị trung bình
nghiệm thức).

Trình tự phân tích: a. Tạo file mẫu xử lý ANOVA và xếp nhóm nghiệm thức S và P.
b. Tính xác suất p so sánh tương tác hai yếu tố S*P theo Dunnett test.
c. Ghi kết quả phân tích vào bảng.

1.7. 1. Tạo file mẫu tính tương tác, không xếp nhóm các

nghiệm thức

trung bình của S
và P.

Kết quả sẽ cho bảng phân tích phương sai, tính tương tác S*P theo
DATA;
INPUT K S P Y;
CARDS;
1
1
1
65
1
1
2
56
1
2
1
60
1
2
2
62
1
3
1

59
1
3
2
66
2
1
1
58
2
1
2
45
2
2
1
59
2
2
2
50
2
3
1
55
2
3
2
57
3

1
1
55
3
1
2
43
3
2
1
54
3
2
2
45
3
3
1
51
3
3
2
50
;
PROC GLM;
CLASS K S P;
MODEL Y = K S P S*P;
MEAN S P / LSD ALPHA=0.01;
MEAN S*P / DUNCAN ALPHA=0.01;

11

Dunnett test.

LSMEANS S*P / PDIFF ADJUST=DUNNETT;
TITLE ‘2 YEU TO’;
RUN;

1.7. 2.

Tạo file mẫu tính tương tác, xếp

nhóm các

nghiệm thức trung bình của S và

P.

Ghi thêm cột SP

(yếu tố tương tác khoảng cách hàng và lượng phân lân để xếp nhóm khi
tương tác S*P có nghĩa). Kết quả sẽ cho bảng phân tích phương sai, tính tương tác S*P
theo Dunnett test, xếp

nhóm các

trung bình nghiệm thức của các yếu tố như sau:

DATA;

INPUT K $ S $ P $ SP $ Y;
CARDS;
1
1
1 S1P1
65
1
1
2 S1P2
56
1
2
1 S2P1
60
1
2
2 S2P2
62
1
3
1 S3P1
59
1
3
2 S3P2
66
2
1
1 S1P1
58

2
1
2 S1P2
45
2
2
1 S2P1
59
2
2
2 S2P2
50
2
3
1 S3P1
55
2
3
2 S3P2
57
3
1
1 S1P1
55
3
1
2 S1P2
43
3
2

1 S2P1
54
3
2
2 S2P2
45
3
3
1 S3P1
51
3
3
2 S3P2
50
;
PROC GLM;
CLASS K S P;
MODEL Y = K S P S*P;
MEAN S P / LSD ALPHA=0.01;
MEAN S*P / DUNCAN ALPHA=0.01;
LSMEANS S*P / PDIFF ADJUST=DUNNETT;
TITLE ‘2 YEU TO’;
RUN;
PROC GLM;
CLASS K SP;
MODEL Y = K SP;
MEAN SP / DUNCAN ALPHA=0.01;
RUN;
2 YEU TO
The GLM Procedure

Class Level Information
Class
Levels Values
K
3 123
S

3

123

P

2

12

Number of observations

18

12

2 YEU TO
The GLM Procedure
Dependent Variable: Y
Source

DF

Sum of
Squares

Mean Square

F Value

Model

7

684.6666667

97.8095238

14.53

67.3333333

6.7333333

Error

10

Corrected Total

17

Coeff Var

Root MSE

Y Mean

0.910461

4.717940

2.594867

55.00000

DF

0.0002

752.0000000

R-Square

Source

Pr > F

Type I SS

Mean Square

F Value

Pr > F

K
S
P
S*P

2 417.3333333 208.6666667
30.99 <.0001
2
21.3333333
10.6666667
1.58 0.2526
1
98.0000000
98.0000000
14.55 0.0034
2 148.0000000
74.0000000
10.99 0.0030

Source
K
S
P
S*P

DF Type III SS Mean Square F Value Pr > F

2 417.3333333 208.6666667
30.99 <.0001
2
21.3333333
10.6666667
1.58 0.2526
1
98.0000000
98.0000000
14.55 0.0034
2 148.0000000
74.0000000
10.99 0.0030
2 YEU TO
The GLM Procedure
t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha
0.01
Error Degrees of Freedom
10
Error Mean Square
6.733333
Critical Value of t
3.16927
Least Significant Difference 4.748
Means with the same letter are not significantly different.
t Grouping
A

A
A
A
A

Mean

N

56.333

6

3

55.000

6

2

53.667

6

1

S

2 YEU TO

The GLM Procedure
t Tests (LSD) for Y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha
0.01
Error Degrees of Freedom
10
Error Mean Square
6.733333
Critical Value of t
3.16927
Least Significant Difference 3.8768
Means with the same letter are not significantly different.

13

t Grouping

Mean

N

A

57.333

9

1

B

52.667

9

2

P

2 YEU TO
The GLM Procedure
Level of Level of
S
P
N
1
1
2
2
3
3

1
2
1
2
1
2

--------------Y-------------Mean
Std Dev

3
3
3
3
3
3

59.3333333
48.0000000
57.6666667
52.3333333
55.0000000
57.6666667

5.13160144
7.00000000
3.21455025
8.73689495
4.00000000
8.02080628

2 YEU TO
The GLM Procedure
Least Squares Means
Adjustment for Multiple Comparisons: Dunnett

S

P

1
1
2
2
3
3

1
2
1
2
1
2

H0:LSMean=
Control
Y LSMEAN
Pr > |t|
59.3333333
48.0000000
57.6666667
52.3333333
55.0000000
57.6666667

0.0013

0.8899
0.0301
0.2208
0.8899

Giải thích: sử dụng mức xác suất p-value để so sánh tương tác theo Dunnett test (Adjustment
for Multiple Comparisons: Dunnett), khi p < 0,05 thì các giá trị trung bình bình phương có ảnh
hưởng độc lập khác nhau, nếu p > 0,05 thì các giá trị này ảnh hưởng như nhau.
Phương pháp so sánh Dunnett test cho thấy: các tương tác S1P1, S2P1, S3P1 và S3P2 có ảnh
hưởng như nhau đến năng suất (p từ 0,2208 đến 0,8899). Tương tác ảnh hưởng độc lập là S1P2
(p = 0,0013) và S2P2 (p = 0,0301).
2 YEU TO
The GLM Procedure
Class Level Information
Class

Levels

K

3

SP

Values

123

6

S1P1 S1P2 S2P1 S2P2 S3P1 S3P2

Number of observations

18

2 YEU TO
The GLM Procedure
Dependent Variable: Y
Source

DF

Sum of
Squares

Mean Square

F Value

Model

7

684.6666667

97.8095238

14.53

67.3333333

6.7333333

Error
Corrected Total

10

17

Pr > F
0.0002

752.0000000

14

R-Square

Coeff Var

Root MSE

Y Mean

0.910461

4.717940

2.594867

55.00000

Source

DF

K
SP

Type I SS

2 417.3333333
5 267.3333333

Source

DF

K
SP

Mean Square
208.6666667
53.4666667

Type III SS

2 417.3333333
5 267.3333333

Mean Square
208.6666667
53.4666667

F Value

Pr > F

30.99 <.0001
7.94 0.0029
F Value

Pr > F

30.99 <.0001
7.94 0.0029

2 YEU TO
The GLM Procedure
Duncan's Multiple Range Test for Y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha
0.01
Error Degrees of Freedom
10
Error Mean Square
6.733333

Number of Means
2
Critical Range
6.714

3
6.997

4
7.175

5
6
7.298
7.387

Means with the same letter are not significantly different.
Duncan Grouping

Mean

A
A
A
A
A
A
A
A
B A

B
B

59.333

3

S1P1

57.667

3

S3P2

57.667

3

S2P1

55.000

3

S3P1

52.333
48.000

3
3

N

SP

S2P2
S1P2

Bảng 1.2. Năng suất đậu (kg/ô) do ảnh hưởng khoảng cách hàng và lượng lân
Yếu tố lân

Yếu tố khoảng cách hàng
S1 = 45 cm S2 = 90 cm S3 = 135 cm
59,33 a
57,67 a
55,00 a
48,00 b
52,33 ab
57,67 a
53,67 A
55,00 A
56,33 A

Trung bình yếu tố lân

P1= 0 kg/ha
57,33 A
P2 = 25kg/ha

52,67 B
Trung bình yếu tố
khoảng cách hàng
* Các trung bình cùng ký tự không khác biệt có nghĩa thống kê ở mức xác suất với yếu tố P: p < 0,01,
tương tác S*P : p<0,01; CV = 4,7%.

Giải thích kết quả:
- Kết quả từ bảng phương sai và xếp nhóm yếu tố khoảng cách hàng không khác biệt (F =1,58
với p = 0,2526), yếu tố lân có khác biệt có nghĩa (F = 14,55 với p = 0,0034). Xếp nhóm
Duncan các giá trị trung bình tương tác lân và khoảng cách hàng cho thấy có hai nhóm theo ký
tự là A và B trong đó năng suất cao nhất 59,33 kg/ô.
- Có tương tác của khoảng cách hàng và lân S*P đến năng suất (F = 10,99 với p = 0,003).
Năng suất ô chịu tác động của lân và khác biệt có nghĩa ở hai lượng lân.
15

- So sánh giá trị xác suất p các nghiệm thức trung bình tương tác theo Dunnett cho thấy tương
tác khoảng cách hàng với bón lân cho năng suất cao nhất là 59,33 kg/ô của tương tác S1P1
(khoảng cách hàng 45 cm và không bón lân) có ảnh hưởng giống như S2P1(khoảng cách hàng
90 cm và không bón lân) có p = 0,8899, giống như S3P1 (khoảng cách hàng 135 cm và không
bón lân) với p = 0,2208 và khoảng cách 135 cm với lượng lân 25 kg/ha (S3P2 với p = 0,8899).
Tương tác ảnh hưởng độc lập là bón lân với khoảng cách hàng 45 cm (S1P2 với p = 0,0013) và
90 cm (S2P2 với p = 0,0301).
Ghi chú: phân tích tương tác các giá trị dựa trên số trung bình bình phương nhỏ nhất:
- Khác biệt means và lsmeans:
Số trung bình (means) = tổng số các giá trị / số giá trị (theo số học).
Số trung bình bình phương nhỏ nhất (lsmeans) = tổng số các giá trị kết hợp tuyến
tính / số giá trị, được dùng để so sánh tương tác A*B, A*B*C.
• Nếu số giá trị đầy đủ trong bố trí thí nghiệm nhiều yếu tố, số trung bình bằng với số
trung bình bình phương nhỏ nhất.

• Nếu thiếu một số giá trị, số trung bình khác với số trung bình bình phương nhỏ nhất.
Xem số liệu bảng sau:

Số trung bình sẽ là:
Số trung bình bình phương nhỏ nhất:
Nhưng thiếu 1 số như bảng sau:

Số trung bình = (4 + 6 + 2 + ....+ 4 + 2 + 3)/8 = 3,625.
Trái lại, số trung bình bình phương nhỏ nhất = (4 + 4 + 3)/3 = 3,667.
-

Nếu quan tâm đến so sánh nhiều giá trị độc lập và không quan tâm đến nhiều tương tác,
sử dụng t test lặp lại với LSD.
Nếu quan tâm đến so sánh tất cả các giá trị từng cặp, áp dụng Tukey test hoặc so sánh
tất cả giá trị với một giá trị đối chứng thì sử dụng Dunnett test để có tương tác rõ nhất
(SAS, 2004).

16

- So sánh giá trị p điều chỉnh giải thích tương tác của A*B, căn cứ trên giả thiết căn bản là
H0: LSMean(i) = LSMean(j) gọi là giả thiết null, có nghĩa là các trị số giống nhau. Khi so sánh
nhiều trị số với nhau, giá trị p điều chỉnh (adjusted p-value) là giá trị mức sai số chung nhỏ
nhất (FWE, Familywise Error Rate) để bác bỏ giả thiết trên (Westfall, 2008).
Giải thích so sánh nhiều giá trị:
- Khi so sánh, nếu không bác bỏ giả thiết null H0: các trị số giống nhau.
- Duncan multiple range test (DMRT) sử dụng so sánh t test cho nhiều giá trị trung bình
với trên bốn giá trị. LSD áp dụng cho hai biến rất dễ dàng và không cần dùng DMRT.
1.8. Ý nghĩa các từ và chuyển đổi giá trị
- SD (Standard deviation, độ lệch chuẩn): mức độ biến động của dãy A so với dãy B, mặc dù

hai giá trị trung bình của hai dãy bằng nhau.
- CV (Coefficience of variance, hệ số biến thiên): so sánh mức biến động của nhiều mẫu.
- SE (Standard error, sai số chuẩn): sai số của tổng các giá trị.
- Chia tổ: chia nhỏ thành tổ khi có số liệu thu thập lớn. Áp dụng công thức K = 5log n.
Ex: có 50 cây, K = 5log 50 = 8,49; chọn tám tổ. Khoảng cách tổ C = (Xmax-Xmin)/K
Tổ một: 3- 4,4 ; tổ hai: 4,5-5,9 ; tổ ba: 6 -7,4 … (Phạm Chí Thành, 1976).
Chuyển đổi giá trị (transformation) rất cần để so sánh khác biệt các giá trị trung bình, vì không
chuyển giá trị, thống kê không khác biệt với LSD lớn, nhưng chuyển đổi giá trị thì thống
kê có khác biệt có nghĩa vì LSD nhỏ (Clewer, 2001).

- Số

liệu là đơn vị số x từ 1 đến 35, chuyển sang yi = ln (xi), (Clewer, 2001).

-

Số liệu là đơn vị số có x = 0,02 cộng 1 vào các trị số và đổi sang yi = log
(xi+1), lưu ý phải có giá trị giả định lớn hơn 1 mới tính log được. Vì có số “0”
nên cần giả định (assumption) để tính số hợp lý (Phạm Chí Thành, 1976 và Clewer,
2001).

Trọng lượng khô của lúa cỏ (red rice) trong thí nghiệm ba

nghiệm thức từ 0,08 đến 32 g/m2,
được đổi số liệu sang log (x+1) trước khi thống kê so sánh LSD (Catala, 1993).

- số

liệu là % với trị số x từ 0 - 30 (sau khi cộng thêm 0,5 hoặc 1 cho các giá trị
(Phạm Chí Thành, 1976) và từ 70 - 100, có thể chuyển yi = √% (Clewer, 2001).

Chuyển đổi số liệu sang √(x

+ 0,5) đối với chỉ số bệnh từ 1,05 đến 2,98 theo thí
nghiệm của Taa và ctv (2002).

- số liệu là % với

trị số x từ 40 - 70% không cần chuyển đổi vì kết quả thống kê
không khác giữa số nguyên và số liệu chuyển đổi.

- số liệu là % với

trị số x từ 1 đến 100, chuyển sang góc (angular) yi = arcsin√%,
thường gặp trong việc tính tỉ lệ nảy mầm, tỉ lệ ra rễ với tác động của chất điều
hòa sinh trưởng, tỉ lệ nấm bệnh.

Thí nghiệm khảo sát tỉ lệ nảy mầm của hạt Echinacea purpurea từ 4 đến 82% được chuyển
sang góc arcsin√% (Qu và ctv, 2005).
Lưu ý chuyển đổi trong excel:
- chuyển log: yi = LN(x)
17

- chuyển tỉ lệ %: đổi p = 99 →0.99→SQRT(0.99) = x1→ASIN(x1) = x2→DEGREES(x2) =
giá trị ARCSIN√% = yi
1.9. Ô
- Ô cơ

cơ sở (plot size) và lặp lại (replications)

sở cho cây nhỏ: 20-40 cây, cà phê: 4 cây, cây ăn quả nhỏ: 10-20 cây, rau:
20-30 m2, thuốc BVTV: 10 m2. Thí nghiệm sản xuất: 100 m2. Sai số (e) cho 1 m2 =
19,6%, 10 m2 = 7,5%, 20 m2 = 2,9%, 50 m2 = 1,3% (Phạm Chí Thành, 1976).

- Lặp lại (n): bốn

lần là phù hợp, tối thiểu là ba lần, cần xác định n = ((V%)/(e%)) 2.
Thí nghiệm năm loại đất cho năng suất cải có sai số chuẩn (SE) của trị số trung
bình với ba lần lặp lại là 2,83; bốn lần lặp lại là 2,45 và năm lần lặp lại là
2,20 (Petersen,

1994).
Chương 2

PHÂN TÍCH PHƯƠNG SAI THÍ NGHIỆM BỐ TRÍ
HOÀN TOÀN NGẪU NHIÊN
(Completely Randomized Design, CRD)
2.1. Thí nghiệm hoàn toàn ngẫu nhiên một yếu tố
Áp dụng trong điều kiện đồng nhất về môi trường, độ dốc, ánh sáng, độ phì nhiêu của đất, bố
trí trong phòng thí nghiệm.
Tiện lợi của phương pháp này là các nghiệm thức có số lần lặp lại khác nhau, nhưng hạn chế là
ít chính xác khi đơn vị thí nghiệm trong nghiệm thức không đồng nhất. Để khắc phục điều này,
cần tăng nhiều số lần lặp lại và kích thước ô phải lớn, do đó tốn kém hơn (Clewer, 2001).
Thí nghiệm dòng vi khuẩn ảnh hưởng hàm lượng đạm trên cỏ xa

trục thảo.

Thí nghiệm gồm sáu nghiệm thức tiêm chủng 6 nhóm dòng vi khuẩn ảnh hưởng đến hàm
lượng đạm (mg N) của giống cỏ xa trục thảo đỏ (red clover), năm lần lặp lại. Năm nghiệm thức

đầu cho năm dòng vi khuẩn Rhizobium trifolii riêng biệt kết hợp với hỗn hợp năm dòng vi
khuẩn Rhizobium meliloti. Nghiệm thức compos = hỗn hợp năm dòng vi khuẩn Rhizobium
trifolii với hỗn hợp năm dòng vi khuẩn Rhizobium meliloti (phỏng theo bài tập 2, phương pháp
so sánh nhiều cách xếp hạng, xếp số theo hàng ngang với cách nhập số liệu là datalines, SAS,
1999). Tương tự, xếp số liệu theo hàng dọc cho kết quả xử lý như nhau.
data;
input T $ N @@;
datalines;
3DOK1
19.4
3DOK1
3DOK5
17.7
3DOK5
3DOK4
17
3DOK4
3DOK7
20.7
3DOK7
3DOK13
14.3
3DOK13
COMPOS
17.3 COMPOS
;
proc anova;
class T;
model N = T;
means T / tukey;

32.6
24.8
19.4
21
14.4
19.4

3DOK1
3DOK5
3DOK4
3DOK7
3DOK13
COMPOS

27
27.9
9.1
20.5
11.8
19.1

18

3DOK1
3DOK5
3DOK4
3DOK7
3DOK13
COMPOS

32.1
25.2
11.9
18.8
11.6
16.9

3DOK1
3DOK5
3DOK4
3DOK7
3DOK13
COMPOS

33
24.3
15.8
18.6
14.2
20.8

means t / duncan waller;
means t / lsd;
title ‘vi khuan’;
run;
vi khuan
The ANOVA Procedure
Class Level Information

Class

Levels

T

6

Values

3DOK1 3DOK13 3DOK4 3DOK5 3DOK7 COMPOS

Number of observations

30

vi khuan
The ANOVA Procedure
Dependent Variable: N
Source

DF

Sum of
Squares

Mean Square

Model

5

847.046667

169.409333

24

282.928000

11.788667

Error
Corrected Total

29

14.37

Coeff Var

Root MSE

N Mean

0.749616

17.26515

3.433463

19.88667

DF
5

Pr > F
<.0001

1129.974667

R-Square

Source
T

F Value

Anova SS

847.0466667

Mean Square
169.4093333

F Value
14.37

Pr > F

<.0001

vi khuan
The ANOVA Procedure
Tukey's Studentized Range (HSD) Test for N
NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type
II error rate than REGWQ.
Alpha
0.05
Error Degrees of Freedom
24
Error Mean Square
11.78867
Critical Value of Studentized Range 4.37265
Minimum Significant Difference
6.7142
Means with the same letter are not significantly different.
Tukey Grouping
A
A
B A
B
B C
B C
B C
C
C
C
C

Mean

28.820

5

N

T

3DOK1

23.980

5

3DOK5

19.920

5

3DOK7

18.700

5

COMPOS

14.640

5

3DOK4

13.260

5

3DOK13

vi khuan

19

The ANOVA Procedure
Waller-Duncan K-ratio t Test for N
NOTE: This test minimizes the Bayes risk under additive loss and certain other assumptions.
Kratio
100
Error Degrees of Freedom
24
Error Mean Square
11.78867
F Value
14.37
Critical Value of t
1.91873

Minimum Significant Difference 4.1665
Means with the same letter are not significantly different.
Waller Grouping
A
B
B
C B
C
C D
D
E D
E
E

Mean

N

T

28.820

5

3DOK1

23.980

5

3DOK5

19.920

5

3DOK7

18.700

5

COMPOS

14.640

5

3DOK4

13.260

5

3DOK13

vi khuan
The ANOVA Procedure
Duncan's Multiple Range Test for N
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha
0.05
Error Degrees of Freedom
24
Error Mean Square
11.78867
Number of Means
2
Critical Range
4.482

3
4.707

4
4.852

5
6
4.954
5.031

Means with the same letter are not significantly different.
Duncan Grouping
A
B
B
C B
C
C D

D
E D
E
E

Mean

N

28.820

5

3DOK1

23.980

5

3DOK5

T

19.920

5

3DOK7

18.700

5

COMPOS

14.640

5

3DOK4

13.260

5

3DOK13

vi khuan
The ANOVA Procedure
t Tests (LSD) for N
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha

0.05

20

Error Degrees of Freedom
24

Error Mean Square
11.78867
Critical Value of t
2.06390
Least Significant Difference 4.4818
Means with the same letter are not significantly different.
t Grouping
A
B
B
C B
C
C D
D
E D
E
E

Mean

N

T

28.820

5

3DOK1

23.980

5

3DOK5

19.920

5

3DOK7

18.700

5

COMPOS

14.640

5

3DOK4

13.260

5

3DOK13

Giải thích: sự khác biệt thay đổi khi so sánh các nghiệm thức với các so sánh giá trị trung bình
như sau:
Tukey's Studentized Range (HSD) Test for Nitrogen Minimum Significant Difference 6,7142
Waller-Duncan K-ratio t Test for Nitrogen
Minimum Significant Difference 4,1665
t Tests (LSD) for Nitrogen
Least Significant Difference
4,4818
Duncan grouping có giá trị so sánh cặp 2 trung bình với critical range là 4,482, nhưng tăng dần
khi có nhiều so sánh các nghiệm thức.
Giải thích: tổng độ tự do của thí nghiệm là 6 - 1 = 5, F tính của thí nghiệm là 14,37 với p <
0,0001. Hàm lượng đạm thay đổi và có khác biệt thống kê được chọn ở mức p< 0,05 do tác
động của sáu dòng vi khuẩn. Xếp nhóm theo Tukey test khác với các cách khác. Xếp nhóm
theo Waller, Duncan và t test LSD như nhau, xếp nhóm các trung bình chia thành năm nhóm
theo ký tự từ cao đến thấp là A, B, C, D, và E. Xếp nhóm theo Duncan test cho thấy hàm
lượng đạm tích lũy do 3DOK1 cao nhất, khác biệt có nghĩa với các dòng vi khuẩn khác, thấp
nhất là 3DOK13.
Hiện có trên 20 giá trị so sánh khác biệt các nghiệm thức (Kuehl, 2000; Clewer, 2001),
nhưng phổ biến là các cách trên. Xếp nhóm theo Duncan test được dùng phổ biến hiện nay.

2.2. Thí nghiệm hoàn toàn ngẫu nhiên hai yếu tố không cân đối
Bài tập thí nghiệm hai yếu tố không cân đối (Unbalanced 2-by-2 Factorial, SAS, 1999), yếu tố
A và B được thiết kế theo sơ đồ như sau:
A
1
2
1 12 20
B
14 18
2 11 7

9
21

data;
input A $ B $ Y @@;
datalines;
A1 B1 12 A1 B1 14 A1 B2
A2 B1 20 A2 B1 18 A2 B2
;
proc glm;
class A B;
model Y=A B A*B;
means A/lsd;
title ‘2 YEU TO KHONG CAN DOI’;
run;

11
17

A1

B2

9

2 YEU TO KHONG CAN DOI
The GLM Procedure
Class Level Information
Class

Levels

Values

A

2

A1 A2

B

2

B1 B2

Number of observations

7

2 YEU TO KHONG CAN DOI
The GLM Procedure
Dependent Variable: Y
Source

DF

Sum of
Squares

Mean Square

F Value

Pr > F

Model

3

91.71428571

30.57142857

15.29

0.0253

Error

3

6.00000000

Corrected Total

Source
A
B

A*B
Source
A
B
A*B

6

2.00000000

97.71428571

R-Square

Coeff Var

Root MSE

Y Mean

0.938596

9.801480

1.414214

14.42857

DF

Type I SS

1 80.04761905
1 11.26666667
1
0.40000000
DF

Mean Square
80.04761905
11.26666667
0.40000000

Type III SS

1 67.60000000
1 10.00000000
1
0.40000000

Mean Square
67.60000000
10.00000000
0.40000000

F Value

Pr > F

40.02 0.0080

5.63 0.0982
0.20 0.6850
F Value

Pr > F

33.80 0.0101
5.00 0.1114
0.20 0.6850

2 YEU TO KHONG CAN DOI
The GLM Procedure
t Tests (LSD) for Y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha
0.05
Error Degrees of Freedom

3

22

Error Mean Square
2
Critical Value of t
3.18245
Least Significant Difference 3.4374
Harmonic Mean of Cell Sizes 3.428571
NOTE: Cell sizes are not equal.

Means with the same letter are not significantly different.
t Grouping

Mean

N

A

18.333

3

A2

B

11.500

4

A1

A

Giải thích:
- Tổng độ tự do của thí nghiệm là n - 1 = 7 - 1 = 6. F test toàn thí nghiệm là 15,29 v ới xác suất
p = 0,0253, chứng tỏ có khác biệt trong 4 trung bình nghiệm thức.
- Thí nghiệm cân đối các ô thí nghiệm thường có bảng ước lượng Type I SS và Type III SS (SS
= Sum of Squares, tổng bình phương) bằng nhau, nhưng trong thí nghiệm không cân đối này,

sử dụng Type III SS là phù hợp.
- So sánh khác biệt ở mức α = 0,05 cho thấy không có tương tác A*B (p = 0,6850), chứng tỏ
ảnh hưởng của yếu tố A không lệ thuộc vào yếu tố B và ngược lại. Cần tính khác biệt từng yếu
tố, trong đó yếu tố B không khác biệt (p = 0,1114), yếu tố A có khác biệt (p = 0,0101) ở mức p
< 0,05.

Chương 3
PHÂN TÍCH PHƯƠNG SAI THÍ NGHIỆM
KHỐI ĐẦY ĐỦ NGẪU NHIÊN
(Randomized Complete Block Design, RCBD)
3.1. Khối đầy đủ hoàn toàn ngẫu nhiên một yếu tố
Đây là kiểu bố trí phổ biến nhất trong nghiên cứu nông nghiệp. Áp dụng cho việc so sánh
các giống, loại phân bón trong điều kiện đất đai, ngoại cảnh tương đối ít đồng nhất. Thường có
chiều biến thiên của hướng dốc hoặc hướng ánh sáng, độ phì đất, pH, cần điều chỉnh ô phù hợp
về kích thước, chiều dài ô. Kiểu RCBD giảm sai số thí nghiệm, nhưng chịu ảnh hưởng của
khối.
Thí nghiệm so sánh năng suất tươi (kg/ô 36m2) của 6 giống đậu Hà Lan trong 4 khối, sử
dụng ký tự thay tên giống (Barnard, 1994).
Bố trí thí nghiệm theo khối đầy đủ hoàn toàn ngẫu nhiên, bốn lần lặp lại, sáu nghiệm thức.
Tổng số ô = 4x6 = 24 ô (k = khối; t = nghiệm thức, tên giống; y = năng suất). Sơ đồ thí
nghiệm như sau:
Hướng dốc cao
I
II
III
IV

f
e
c

e

d
f
d
d

c
c
e
c

e
b
a
a

b
a
b
f

a
d
f
b
Thấp

data;
input k $ t $ y;

23

cards;
1
1
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
3
4
4
4
4
4
4

f
d
c
e
b
a
e
f
c
b
a
d
c
d
e
a
b
f
e
d
c
a
f
b

9
14.6
18.3
14.1
21.9

22.4
14.2
14.1
17.4
25.6
23.9
19.2
12.7
15.8
11.5
21.1
23.7
6.4
12.1
16.1
15.9
19.6
12.3
18.3

;
proc anova;
class k t;
model y = k t;
means t /duncan alpha=0.01;
title 'Thi nghiem 1 yeu to RCBD';
run;
Thi nghiem 1 yeu to RCBD
The ANOVA Procedure
Class Level Information

Class

Levels

Values

k

4

1234

t

6

abcdef

Number of observations

24

Thi nghiem 1 yeu to RCBD
The ANOVA Procedure
Dependent Variable: y
Source

DF

Sum of

Squares

Mean Square

F Value

Model

8

497.3300000

62.1662500

16.42

56.7950000

3.7863333

Error
Corrected Total

15

23

Pr > F
<.0001

554.1250000

24

R-Square

Coeff Var

Root MSE

y Mean

0.897505

11.66927

1.945850

16.67500

Source

DF

k
t

3
5

Anova SS

52.8950000
444.4350000

Mean Square
17.6316667
88.8870000

F Value

Pr > F

4.66 0.0171
23.48 <.0001

Thi nghiem 1 yeu to RCBD
The ANOVA Procedure
Duncan's Multiple Range Test for y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha
0.01
Error Degrees of Freedom
15
Error Mean Square
3.786333
Number of Means
2
Critical Range

4.054

3
4.229

4
4.342

5
6
4.424
4.485

Means with the same letter are not significantly different.
Duncan Grouping
A
A
A
B
B
B
B
C B
C
C

Mean

N

22.375

4

b

21.750

4

a

16.425

4

d

16.075

4

c

12.975
10.450

4
4

t

e
f

Giải thích: kết quả cho thấy các nghiệm thức khác biệt rất có nghĩa ở mức p < 0,01, xếp nhóm
theo ký tự chia làm ba nhóm là A, B và C và không khác biệt trong cùng nhóm với nhau.
Nghiệm thức b cho năng suất cao nhất, không khác biệt với nghiệm thức a và thấp nhất là
nghiệm thức f.
3.2. Kiểu ô vuông la tinh (Latin square)
Áp dụng khi có biến thiên hai chiều của các nghiệm thức và cần được khảo sát theo hai hướng,
thường là bố trí theo hàng và cột. Bài tập: thí nghiệm khảo sát tăng giảm chiều cao lúa mì theo
tiêu chuẩn do máy gặt trên sáu lô. Thứ tự ô (I, II, III, IV, V, VI) trên các khu vực A, B, C, D,
E, F (Barnard, 1994). Chiều cao chồi so sánh với chiều cao thực sự (cm).
Khu vực
I
II
III
IV
V
VI

f
b
c
d
e
a

b

f
e
c
a
d

a
d
f
b
c
e

d
a
b
e
f
c

c
e
d
a
b
f

e
c
a

f
d
b

Dữ liệu được sắp xếp như sau: hàng (H), cột (C), nghiệm thức (T) và chiều cao (Y).
DATA;

25