Nghiên cứu các chỉ tiêu đo độ biến thiên cho thấy
Độ biến thiên của tiêu thức dùng đế đánh giá mức độ đại diện của số bình quân đối với tổng thế được nghiên cứu. Trị số này tính ra càng lớn, độ biến thiên của tiêu thức càng lớn do đó mức độ đại diện của số bình quân đối với tổng thế càng thấp và ngược lại. Show Quan sát độ biến thiên tiêu thức trong dãy số lượng biến sẽ thấy nhiều đặc trưng về phân phối, kết cấu, tính đồng đều của tổng thế. Độ biến thiên của tiêu thức được sử dụng nhiều trong nghiên cứu thống kê như phân tích biến thiên cũng như mối liên hệ của hiện tượng, dự đoán thống kê, điều tra chọn mẫu,… Khi nghiên cứu độ biến thiên của tiêu thức, thống kê thường dùng các chỉ tiêu như khoảng biến thiên, độ lệch tuyệt đối bình quân, phương sai, độ lệch tiêu chuẩn và hệ số biến thiên. Dưới đây là nội dung và phương pháp tính của các chỉ tiêu đó. 1. Khoảng biến thiên (Range)Khoảng biến thiên (còn gọi là toàn cự) là chỉ tiêu được tính bằng hiệu số giữa lượng biến lớn nhất và lượng biến nhỏ nhất của một dãy số lượng biến. Khoảng biến thiên càng lớn, mức độ biến động của chỉ tiêu càng lớn. Ngược lại, khoảng biến thiên nhỏ, mức độ biến động của chỉ tiêu thấp, tức là mức độ đồng đều của chỉ tiêu cao. Khoảng biến thiên phản ánh khoảng cách biến động của tiêu thức tuy tính toán đơn giản song phụ thuộc vào lượng biến lớn nhất và nhỏ nhất của tiêu thức, tức là không tính gì đến mức độ khác nhau của các lượng biến còn lại trong dãy số. 2. Độ lệch tuyệt đối trung bình (Mean Absolute Deviation)Độ lệch tuyệt đối bình quân là số bình quân số học của các độ lệch tuyệt đối giữa các lượng biến với số bình quân số học của các lượng biến đó. Chỉ tiêu này biếu hiện độ biến thiên của tiêu thức nghiên cứu một cách đầy đủ hơn khoảng biến thiên. Qua đó phản ánh rõ nét hơn tính chất đồng đều của tổng thế: vì nó tính đến độ lệch của tất cả các lượng biến. về cách tính cũng tương đối đơn giản, nhưng có đặc điếm là phải lấy giá trị tuyệt đối (giá trị dương) của chênh lệch. 3. Phương sai (Variance)Phương sai là số bình quân số học của bình phương các độ lệch giữa các lượng biến với số bình quân số học của các lượng biến đó. Phương sai là sai số trung bình bình phương giữa các lượng biến và số trung bình số học của các lượng biến đó. Trong công thức phương sai mẫu người ta gọi tử số là tổng độ lệch bình phương và mẫu số là bậc tự do. Chú ý, đối với công thức phương sai mẫu, theo toán học người ta chia ra thành 2 loại là phương sai mẫu và phương sai mẫu điều chỉnh. Tuy nhiên phương sai mẫu (bậc tự do là n) là ước lượng chệch của phương sai của tổng thể, còn phương sai mẫu là ước lượng không chệch. Chính vì vậy, để cho đơn giản chúng ta hiểu phương sai mẫu ở đây là phương sai mẫu đã điều chỉnh theo quan điểm của toán học. 4. Độ lệch chuẩn (Standard deviation)
5. Hệ số biến thiên (Coefficient of Variation)Hệ số biến thiên là chỉ tiêu tương đối phản ánh mối quan hệ so sánh giữa độ lệch chuẩn với số bình quân số học. Hệ số biến thiên cũng dùng để đánh giá độ biến thiên của tiêu thức và tính chất đồng đều của tổng thể. Hệ số này biểu hiện bằng số tương đối nên còn có thể được dùng để so sánh cả những chỉ tiêu cùng loại nhưng ở các quy mô khác nhau như so sánh độ đồng đều về thu nhập bình quân của hộ gia đình ở khu vực nông thôn (có thu nhập thấp và số hộ ít hơn) với thu nhập bình quân của hộ gia đình ở thành thị (có mức thu nhập cao hơn và số hộ nhiều hơn), đặc biệt để so sánh được những chỉ tiêu của các hiện tượng khác nhau và có đơn vị đo lường khác nhau như so sánh hệ số biến thiên về bậc thợ với hệ số biến thiên về tiền lương bình quân, hệ số biến thiên về năng suất lao động bình quân, so sánh hệ số biến thiên về chỉ tiêu thu nhập của hộ gia đình với hệ số biến thiên về chi tiêu của hộ gia đình,… Hệ số biến thiên còn có thể tính theo độ lệch tuyệt đối bình quân, nhưng hệ số biến thiên tính theo độ lệch chuẩn thường được sử dụng rộng rãi hơn, tuy phần tính toán có phức tạp hơn phải sử dụng độ lệch tuyệt đối trung bình. Hệ số biến thiên tính theo độ lệch tuyệt đối bình quân có công thức tính:
Chi tiết Chuyên mục: Tài liệu phân tích thống kê Được đăng: 15 Tháng 7 2021 Lượt xem: 16076
Trong quá trình phân tích, khi các thước đo biểu diễn vị trí/xu thế “trung tâm” (mean, median, mode) của 2 tập dữ liệu có giá trị xấp xỉ bằng nhau, ta sẽ gặp khó khăn khi cần đưa ra nhận xét, đánh giá sự khác biệt của 2 tập dữ liệu. Lúc này, các đại lượng đo mức độ phân tán của dữ liệu sẽ có ích hơn trong việc đánh giá. Trong bài viết này, 6 đại lượng đo mức độ phân tán của tập dữ liệu sẽ được giới thiệu:
Các đại lượng này sẽ giúp ích trong việc đo lường mức độ biến thiên, mức độ phân tán và dàn trải của dữ liệu. Qua đó, có thể rút ra các nhận xét, mô tả bộ dữ liệu nghiên cứu đầy đủ và chính xác hơn. 1. Khoảng biến thiên (Range)Khoảng biến thiên (Range) trong thống kê là đại lượng đo mức độ trải dài của một tập dữ liệu nhất định từ nhỏ nhất đến lớn nhất. Dễ hiểu hơn, trong một tập dữ liệu, khoảng biến thiên là hiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất. Công thức tính khoảng biến thiên: Trong đó: R là khoảng biến thiên, xmax là giá trị lớn nhất, xmin là giá trị nhỏ nhất Ví dụ: Cho tập dữ liệu X={2,4,5,6,7,8,9,12,15}. Ta thấy giá trị lớn nhất của tập X là xmax=15 và giá trị nhỏ nhất là xmin=2 Trong thực tế, ta có thể thấy khoảng biến thiên được sử dụng trong rất nhiều tình huống, chẳng hạn như tìm ra sự phân tán điểm kiểm tra trong một lớp học hay để xác định phạm vi giá cả của một dịch vụ, … Trong các đại lượng đo mức độ phân tán của dữ liệu, khoảng biến thiên là một đại lượng rất dễ hiểu và dễ tính toán. Tuy nhiên, khoảng biến thiên chỉ sử dụng giá trị MAX và MIN của tập dữ liệu để tính toán mà không diễn giải được sự phân tán giữa 2 giá trị này. Do đó, nó không phải là một đại lượng hữu ích để đánh giá sự phân tán của tập dữ liệu vì ta cần xem xét trên toàn bộ dữ liệu. Khoảng biến thiên là thang đo tương đối tốt đối với các bộ dữ liệu nhỏ như ví dụ trên, nhưng độ tin cậy sẽ ít đi khi áp dụng với các bộ dữ liệu lớn do độ dàn trải của dữ liệu cũng sẽ lớn hơn. Một điểm cần lưu ý khác là giá trị của khoảng biến thiên sẽ bị ảnh hưởng bởi các giá trị ngoại lệ (Outliers)[1]. Do đó, không nên sử dụng đại lượng khoảng biến thiên đối với các bộ dữ liệu có giá trị ngoại lệ. 2. Bách phân vị (Percentile) và Tứ phân vị (Quartile)
- Đầu tiên, sắp xếp lại tập X theo thứ tự tăng dần: X={1; 1; 2; 2; 4; 6; 6,8; 7,2; 8; 8,3; 9; 10; 10; 11,5} - Tập dữ liệu có 14 quan sát, giá trị trung vị nằm giữa giá trị thứ 7 (6,8) và giá trị thứ 8 (7,2). Giá trị trung vị là trung bình cộng của 2 giá trị này: Q1, là giá trị giữa của nửa dưới dữ liệu tương ứng với tập dữ liệu X1={1; 1; 2; 2; 4; 6; 6,8}. Tập X1 có 7 giá trị, do đó giá trị trung vị của tập dữ liệu X1 là 2. => Q1 = 2 Q3, là giá trị nửa trên của dữ liệu tương ứng với tập dữ liệu X2={7,2; 8; 8,3; 9; 10; 10; 11,5}. Tập X2 có 7 giá trị, do đó giá trị trung vị của tập dữ liệu X2 là 9. => Q3 = 9 Kết luận: ¼ tập dữ liệu có giá trị ≤2, ¾ tập dữ liệu có giá trị ≥2. Tương tự kết luận với Q2 và Q3. ỨNG DỤNG Bách phân vị được sử dụng trong nhiều lĩnh vực như: đo lường băng thông internet, thước đo sự phát triển của trẻ em trong y học, đo lường mốc giới hạn tốc độ, báo cáo điểm số tổng quan trong các bài kiểm tra hay trong các lĩnh vực tài chính, v.v… Ví dụ trong y học: Một trẻ nam 2 tuổi có chiều cao 110cm và cân nặng 13,3kg; khi so sánh với biểu đồ bách phân vị cân nặng và chiều cao theo độ tuổi của WHO thì chiều cao ở mức bách phân vị 50 và cân nặng ở mức bách phân vị 85. Ngoài những ứng dụng tương tự như bách phân vị, tứ phân vị còn có công dụng kiểm soát tác động của những giá trị ngoại lệ (Outliers) ở 2 đầu mút. Để hiểu rõ hơn, ta sẽ tiếp tục tìm hiểu trong đại lượng tiếp theo: Khoảng trải giữa (InterQuartile Range) 3. Khoảng trải giữa (InterQuartile Range)Khoảng trải giữa (InterQuartile Range – IQR) hay còn gọi là khoảng tứ phân vị của tập dữ liệu. Khoảng trải giữa là một con số cho biết mức độ lan truyền của nửa giữa hoặc 50% phần giữa của tập dữ liệu. IQR thường được sử dụng thay cho khoảng biến thiên (Range) vì nó loại trừ hầu hết giá trị bất thường hay giá trị ngoại lệ (Outliers) của dữ liệu. Công thức tính IQR có dạng: IQR có thể giúp xác định các giá trị ngoại lệ. Một giá trị bị nghi ngờ là một giá trị ngoại lệ nếu nó nhỏ hơn 1,5*IQR dưới phần tư đầu tiên (Q1 - 1,5*IQR) hoặc lớn hơn (1,5*IQR) trên phần tư thứ ba (Q3 + 1,5*IQR) (Xem hình dưới). Các giá trị ngoại lệ luôn yêu cầu việc rà soát, kiểm tra lại dữ liệu. Những điểm dữ liệu đặc biệt này có thể do lỗi hoặc do sự bất thường trong dữ liệu nhưng cũng có thể là chìa khóa để hiểu dữ liệu. 4. Phương sai (Variance) và Độ lệch chuẩn (Standard deviation)Trong một số tập dữ liệu, các giá trị dữ liệu được tập trung gần giá trị trung bình; nhưng trong các tập dữ liệu khác, các giá trị dữ liệu có thể được trải rộng hơn so với giá trị trung bình. Phương sai và độ lệch chuẩn là 2 thuật ngữ được sử dụng phổ biến để mô tả sự phân tán này và cả 2 đều đưa ra các giá trị đo lường mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
Duy Sang tổng hợp Chú thích: ---------------------------------------- Tài liệu tham khảo:Carin Viljoen, Linda van der Merwe. (2000). Elementary Statistics (2nd ed.). Pearson South Africa.Illowsky et al. (2013). Introductory Statistics. Houston: OpenStax. Wikipedia. (2021, March 24). Phương sai. Retrieved from Wikipedia: https://vi.wikipedia.org/wiki/Ph%C6%B0%C6%A1ng_sai ---------------------------------------- Các bài viết liên quan: Thống kê mô tả trong nghiên cứu – Các đại lượng về trung tâm Thống kê mô tả trong nghiên cứu – Các đại lượng về hình dáng phân phối Thống kê mô tả trong nghiên cứu – Các đại lượng về sự tương quan --------------------------------------------------------------------------------------------------- QUÝ ANH/CHỊ CẦN HỖ TRỢ XỬ LÝ, PHÂN TÍCH DỮ LIỆU VUI LÒNG GỬI THÔNG TIN QUA FORM DƯỚI ĐÂYCHÚNG TÔI SẼ LIÊN HỆ VÀ PHÚC ĐÁP TRONG THỜI GIAN SỚM NHẤT |