Hỏi Đáp Tại sao

Tại sao chúng ta phải tiền xử lý dữ liệu?

Xử lý dữ liệu là việc chuyển đổi dữ liệu thành dạng có thể sử dụng được. Trước đây, việc xử lý được thực hiện thủ công, tốn thời gian và dễ sai sót, thì hiện nay hầu hết việc xử lý được thực hiện tự động bằng máy tính sẽ cho kết quả nhanh và chính xác. Trong bài viết này, UniTrain sẽ hướng dẫn bạn cách dữ liệu được xử lý.

Dữ liệu được xử lý như thế nào?

Xử lý dữ liệu bắt đầu với việc thu thập dữ liệu. Dữ liệu được thu thập để chuyển đổi dạng mong muốn phải được xử lý bằng cách xử lý dữ liệu theo từng bước như dữ liệu thu thập được phải được lưu trữ, sắp xếp, xử lý, phân tích và trình bày.

Vì vậy, điều này được chia thành 6 bước cơ bản như sau: thu thập dữ liệu, lưu trữ dữ liệu, sắp xếp dữ liệu, xử lý dữ liệu. phân tích dữ liệu, trình bày dữ liệu và kết luận.

Hãy thảo luận chi tiết từng cái một:

1. Thu thập dữ liệu

Như chúng ta đã thảo luận về các nguồn thu thập dữ liệu, dữ liệu liên quan về mặt logic được thu thập từ các nguồn khác nhau, định dạng khác nhau, các loại khác nhau như từ XML, tệp CSV, phương tiện truyền thông xã hội, hình ảnh là dữ liệu có cấu trúc hoặc không có cấu trúc,…

2. Lưu trữ dữ liệu

Dữ liệu được thu thập bây giờ cần được lưu trữ dưới dạng vật lý như giấy tờ, sổ ghi chép, và tất cả hoặc dưới bất kỳ hình thức vật lý nào khác. Hiện nay do khai thác dữ liệu và dữ liệu lớn, việc thu thập dữ liệu là rất lớn kể cả ở dạng có cấu trúc hay không có cấu trúc. Dữ liệu sẽ được lưu trữ dưới dạng kỹ thuật số để thực hiện phân tích và trình bày có ý nghĩa theo các yêu cầu ứng dụng.

3. Sắp xếp dữ liệu

Sau bước lưu trữ, bước ngay lập tức sẽ là phân loại và lọc. Việc phân loại và lọc được yêu cầu để sắp xếp dữ liệu theo một số thứ tự có ý nghĩa và chỉ lọc ra những thông tin được yêu cầu giúp dễ dàng hình dung và phân tích.

4. Xử lý dữ liệu

Một loạt quá trình xử lý hoặc sử dụng liên tục và xử lý được thực hiện để xác minh, chuyển đổi, tổ chức, tích hợp và trích xuất dữ liệu ở dạng đầu ra hữu ích để sử dụng xa hơn.

5. Phân tích dữ liệu

Phân tích dữ liệu là quá trình áp dụng hoặc đánh giá dữ liệu một cách có hệ thống bằng cách sử dụng lập luận phân tích và logic để minh họa từng thành phần của dữ liệu được cung cấp và để có được kết quả hoặc quyết định được đưa ra.

6. Trình bày dữ liệu và kết luận

Khi chúng ta đi đến kết quả phân tích, nó có thể được biểu diễn thành các dạng khác nhau như biểu đồ, tệp văn bản, tệp excel, đồ thị,…

Phần mềm đơn lẻ hoặc kết hợp các phần mềm có thể sử dụng để thực hiện lưu trữ, sắp xếp, lọc và xử lý dữ liệu tùy theo yêu cầu và khả thi. Nó có thể được thực hiện bằng phần mềm cụ thể theo tập hợp các hoạt động được xác định trước theo các yêu cầu ứng dụng.

Các loại đầu ra khác nhau

Các loại tệp đầu ra khác nhau như:

– Tệp văn bản thuần túy: Chúng được xuất dưới dạng tệp notepad hoặc WordPad. Đây là dạng đơn giản nhất của tệp dữ liệu.
– Bảng/Bảng tính: Ở định dạng tệp này, dữ liệu biểu diễn theo hàng và cột, giúp dễ dàng hiểu và phân tích dữ liệu. Định dạng tệp này để thực hiện các hoạt động khác nhau như lọc và sắp xếp theo thứ tự tăng dần/giảm dần cũng như các hoạt động thống kê.
– Đồ thị và Biểu đồ: Định dạng đồ thị và biểu đồ là các tính năng tiêu chuẩn trong hầu hết các phần mềm. Định dạng này rất dễ phân tích dữ liệu, không bắt buộc phải đọc từng dữ liệu số mà mất nhiều thời gian chỉ trong một lần nhìn là có thể hiểu và phân tích được dữ liệu.
– Một Tệp Hình ảnh hoặc Bản đồ/Vectơ: Nếu ứng dụng yêu cầu lưu trữ và phân tích với dữ liệu không gian, tùy chọn xuất dữ liệu thành tệp hình ảnh và tệp bản đồ hoặc tệp vectơ rất được sử dụng.
Cùng với những định dạng này, định dạng khác có thể là các định dạng tệp tin phần mềm cụ thể có thể được sử dụng và xử lý bằng phần mềm chuyên dụng.

Tại sao chúng ta nên sử dụng xử lý dữ liệu?

Giờ đây, dữ liệu của một ngày là quan trọng hơn hầu hết công việc dựa trên chính dữ liệu, vì vậy ngày càng có nhiều dữ liệu được thu thập cho các mục đích khác nhau như nghiên cứu khoa học, học thuật, sử dụng cá nhân và cá nhân, sử dụng thương mại, sử dụng tổ chức,… Cần phải xử lý dữ liệu đã thu thập này để tất cả các bước nêu trên được sử dụng cho quá trình được lưu trữ, sắp xếp, lọc, phân tích và trình bày ở định dạng sử dụng cần thiết. Quá trình xử lý tốn thời gian và phức tạp tùy thuộc vào kết quả được yêu cầu. Trong trường hợp thu thập dữ liệu khổng lồ hoặc dữ liệu lớn mà họ cần xử lý để có được kết quả tối ưu với sự trợ giúp của khai thác dữ liệu và quản lý dữ liệu thì điều đó càng trở nên quan trọng hơn.

Kết luận

Nó là sự chuyển đổi dữ liệu thành thông tin hữu ích. Quá trình xử lý dữ liệu được chia thành 6 bước cơ bản là thu thập dữ liệu, lưu trữ dữ liệu, sắp xếp dữ liệu, xử lý dữ liệu, phân tích dữ liệu, trình bày dữ liệu và kết luận.

Ở đây chúng ta đã thảo luận về cách dữ liệu được xử lý, các loại đầu ra khác nhau và việc sử dụng xử lý dữ liệu. Bạn có thể tham khảo Khóa học Ứng dụng Excel trong xử lý dữ liệu của UniTrain để áp dụng hiệu quả vào công việc hằng ngày.

UniTrain lược dịch

Xem thêm

Khóa học Ứng dụng Excel trong xử lý dữ liệu

9 cách thông minh để ứng dụng Excel cho kỹ thuật

Mục đích của phân tích dữ liệu ban đầu là xử lý dữ liệu để có thể đánh giá chất lượng của nó trước khi tiến hành bất kỳ phân tích nào khác. Có ba bước cơ bản trong phân tích dữ liệu gồm: i] xử lý dữ liệu [data processing], ii] làm sạch dữ liệu [data cleaning], và iii] mô tả dữ liệu [data description]. Xử lý dữ liệu bao gồm việc mã hóa và nhập dữ liệu vào tập dữ liệu có định dạng phù hợp cho các bài kiểm tra thống kê. Làm sạch dữ liệu là kiểm tra chất lượng và cấu trúc của dữ liệu và sửa chữa bất kỳ sai sót nào do quá trình mã hóa và xử lý. Mô tả dữ liệu liên quan đến việc tóm tắt và hiển thị các đặc điểm chính của phân phối dữ liệu.

1. Các xem xét của xử lí dữ liệu

Sau khi đã thu thập, các cân nhắc sơ bộ nên bao gồm:

Đầu tiên là việc kiểm tra chặt chẽ số lượng quan sát và số lượng các biến trong phép đo. Xem xét liệu các ‘con số’ được sử dụng cho các biến thống kê có đại diện cho các mức đo lường danh nghĩa, thứ tự, khoảng hoặc tỷ lệ hay không. Cũng cần lưu ý rằng việc lấy các con số ở giá trị bề mặt mà không xem xét cách thu thập dữ liệu có thể dẫn đến các kết quả sai lệch. Ngoài ra, việc kiểm tra dữ liệu thô ban đầu này cũng là để xem xét ở giai đoạn thiết kế, liệu tất cả dữ liệu thu thập được có cần thiết cho phân tích thống kê tiếp theo hay không. Nhiều nhà nghiên cứu có thể đã thu thập thông tin không phải là trọng tâm của mục đích điều tra. Có một lượng nhỏ dữ liệu có chất lượng cao hơn là một lượng lớn dữ liệu ‘không sạch’, tức là dữ liệu không đầy đủ hoặc không thể đọc được.
Thứ hai là cần xem xét chính xác cách dữ liệu được ghi lại. Ví dụ, những câu hỏi được người trả lời đánh dấu hay khoanh tròn? Các giá trị số có được nhập bởi nhà nghiên cứu không? Các giá trị là số nguyên được sử dụng xuyên suốt trong các trường hợp hay là các giá trị số thập phân? Đảm bảo bạn có thể phân biệt giữa các giá trị bị thiếu – không có giá trị được mã hóa, giá trị nằm ngoài phạm vi – một giá trị được mã hóa nhưng được biết là không thể, và đối với dữ liệu bảng câu hỏi, câu trả lời “không biết” và “không áp dụng”.
Thận trọng với vấn đề khi dữ liệu từ các nguồn khác nhau được kết hợp thành một tập dữ liệu. Cùng một biến số có thể được đo lường theo nhiều cách khác nhau, chẳng hạn như bằng cách đặt các câu hỏi hơi khác nhau hoặc mã hóa với một số chữ số thập phân khác nhau.
Việc xem xét các biến có vai trò gì trong thiết kế nghiên cứu tổng thể là quan trọng. Ví dụ, liệu một biến danh nghĩa đã được sử dụng như một yếu tố phân tầng trong thiết kế mẫu hay liệu một biến liên tục sẽ được chuyển thành một biến phân loại và được sử dụng để phân tầng. Biến phân tầng hay yếu tố phân tầng là một biến được sử dụng để tách dân số mục tiêu thành một số nhóm hoặc tầng lớp trong đó các thành viên của mỗi tầng lớp có một đặc điểm chung, chẳng hạn như phân tầng sinh viên đại học theo tình trạng nơi ở, tầng i] Thành thị; và tầng ii] Nông thôn; hoặc phân tầng sinh viên theo tình trạng tài chính, tầng i] đủ sinh hoạt, và tầng ii] không đủ chi trả sinh hoạt. Tương tự, một biến có thể được sử dụng làm yếu tố kiểm soát trong thiết kế thử nghiệm, như một hiệp biến [covariate] hoặc biến chặn [blocking variable] trong thiết kế giai thừa. Biến đóng vai trò hiệp biến sẽ cần phải là một số đo liên tục và biến chặn là một biến phân loại. Trong một số thiết kế, điều quan trọng là phải phân biệt giữa các biến phản ứng [kết quả] và các biến giải thích [độc lập], chẳng hạn như một thiết kế hồi quy.

Giải thích rõ hơn thuật ngữ “hiệp biến”

Chúng ta biết rằng với một biến X hay Y, có ba thông số thống kê mô tả: số cỡ mẫu, số trung [mean], và phương sai [variance]. Nhưng để mô tả mối quan hệ giữa hai biến X và Y, chúng ta cần đến hiệp biến.

Có thể hiểu hiệp biến qua hình học lượng giác như sau. Chúng ta biết rằng cho một tam giác vuông, nếu gọi cạnh huyền là c và hai cạnh còn lại là a và b, Định lí Pythagoras cho biết bình phương cạnh huyền bằng tổng bình phương hai cạnh kia: c2 = a2 + b2

Nhưng cho một tam giác thường, thì mối liên hệ giữa c và hai cạnh a và b phức tạp hơn với mối liên hệ được định lượng bằng hàm cosine của góc C như sau: c2 = a2 + b2 – 2ab × Cos [C]

Tương tự như vậy, cho hai biến X và Y, và nếu hai biến này hoàn toàn độc lập với nhau, chúng ta có thể phát biểu rằng phương sai của biến X + Y bằng phương sai của X cộng với phương sai của Y: var[X+Y] = var[X] + var[Y] . trong đó, “var” là viết tắt của phương sai [tức variance]. Chú ý rằng X+Y là một biến mới.

Nếu hai biến X và Y có tương quan nhau, thì công thức trên được thay thế bằng một công thức khác với hiệp biến: var[X+Y] = var[X] + var[Y] + 2×Cov[X,Y] . trong đó, “Cov” là viết tắt của hiệp biến [covariance].

Ví dụ, trong phân tích tương quan Pearson [r], hiệp biến đối với mỗi cá nhân của xi và yi được cho bởi công thức:

Nhưng ở đây chúng ta có n đối tượng, cho nên cần phải cộng tất cả lại và chia cho số đối tượng:

Công thức trên chính là định nghĩa của hiệp biến. Từ hai công thức trên, chúng ta có thể rút ra vài nhận xét:

Một hiệp biến là số dương có nghĩa là độ lệch từ số trung bình của x tuân theo chiều hướng thuận với y.
Một hiệp biến là số âm có nghĩa là độ lệch từ số trung bình của x tuân theo chiều hướng nghịch với y.
Nếu hiệp biến là 0, thì hai biến x và y độc lập nhau, tức không có tương quan gì với nhau.

Tương quan Pearson [r] là lấy tỉ số của hai chỉ số này:

Nếu giá trị của r là dương, hai biến x và y cùng biến thiên theo một hướng; nếu giá trị của r là âm, x và y liên hệ đảo ngược: tức khi khi x tăng thì y giảm, và ngược lại.

2. Mã hóa dữ liệu

Sau khi xem xét sơ bộ, chúng ta tiến hành mã hóa dữ liệu để có thể phân tích thống kê. Chúng ta nên suy nghĩ về sự lựa chọn của định dạng biến, cụ thể là định dạng số học hay kí tự của mỗi biến, và con số của các cột khi biến là số thập phân.

Đối với mỗi biến, thông tin sau là bắt buộc:

mô tả biến đầy đủ;
tên biến ngắn;
định dạng cột cho biến [con số của các cột, nếu cần, cho dấu thập phân];
phạm vi biến có thể có [giá trị nhỏ nhất và lớn nhất], chẳng hạn, thật vô lí khi có điểm thi là 11 trong khi giới hạn thang đo là 10 điểm;
các giá trị cho dữ liệu bị thiếu [biểu thị là dấu chấm [.] cho các giá trị số bị thiếu];
Gán “nhãn” cho các biến danh nghĩa. Đối với giới tính, 0 = Nam, 1 = Nữ; đối với nhóm ngành sinh viên, 1 = Kỹ thuật, 2 = Kinh tế, 3 = Ngoại ngữ.

Sau khi dữ liệu đã được mã hóa, nó sẽ được nhập vào tệp dữ liệu máy tính của chương trình thống kê bạn sử dụng, chẳng hạn SPSS.

3. Hướng dẫn nhập dữ liệu trong SPSS

Ví dụ 1, chúng ta có dữ liệu về giới tính, nhóm ngành học, số giờ ôn tập toán, điểm thi cuối kì toán [thang điểm 100] của 10 sinh viên tham gia khảo sát và muốn nhập vào SPSS. Số liệu thu thập được thể hiện trong bảng dưới đây:

STT	1	2	3	4	5	6	7	8	9	10
Giới tính	Nam	Nam	Nữ	Nam	Nữ	Nữ	Nữ	Nữ	Nam	Nam
Nhóm ngành	Kinh tế	Cơ khí	Cơ khí	Điện	CNTT	CNTT	Cơ khí	Kinh tế	Điện	Điện
Giờ ôn tập	5	10	5	3	8	5	8	5	1	6
Điểm cuối kì Toán	70	93	69	74	88	69	79	80	55	78

Giai đoạn 1: Mã hóa dữ liệu

Chúng ta cần mã hóa tên biến và các lựa chọn cho biến trước khi thực hiện thao tác trên SPSS. Không có quy định ràng buộc cho việc mã hóa này, tuy nhiên chúng ta mã hoá sao cho khi phân tích dễ nhận biết tên biến cũng như những lựa chọn của biến.

Ở ví dụ trên, chúng ta có thể mã hóa như sau:

Bảng 1: Mã hóa biến và dữ liệu

Tên biến	Mã tên biến	Mã lựa chọn
Giới tính	Gioitinh	0 = Nam, 1 = Nữ
Nhóm ngành	Nganh	1 = Kinh tế; 2 = Cơ khí; 3 = Điện; 4 = CNTT
Giờ ôn tập	Thoigian
Điểm cuối kì Toán	DiemToan

Lưu ý rằng các biến giờ ôn tập, điểm cuối kì Toán là một giá trị định lượng cụ thể nên chúng ta không cần mã mà nhập trực tiếp vào SPSS.

Giai đoạn 2: Nhập dữ liệu trong SPSS

– Bước 1: Mở phần mềm SPSS và khai báo biến

Chương trình SPSS sau khi được mở có hai khu vực làm việc là Data View và Variable View. Bước 1 khai báo biến là được thực hiện ở khu vực Variable View. Chúng ta tiến hành đặt tên từng biến cũng như vào tất cả các cột để khai báo cho biến.

Cột Name: Ở cột này chúng ta đặt mã cho tên biến chỉ cần click vào ô và đặt tên. Trong ví dụ này chúng ta có 4 biến [giới tính, nhóm ngành, giờ ôn tập, điểm cuối kì Toán]. Theo Bảng 1, trên trong SPSS chúng ta có 4 biến Gioitinh, Nganh, Thoigian, DiemToan.
Cột Type: Dữ liệu của chúng ta có nhiều kiểu như số, văn bản, tiền tệ, mũ… Nếu chúng ta không xác định chính xác kiểu dữ liệu khi khai báo biến thì sau này khi nhập liệu hoặc phân tích sẽ gặp nhiều rắc rối không đáng có. SPSS cho phép khai báo dữ liệu kiểu Numeric [kiểu số], Comma [giá trị số với những ‘dấu phẩy’ chèn vào hàng trăm, hàng nghìn…, dấu chấm dùng cho hàng thập phân], Dot [giống như Comma, nhưng dấu ngăn cách nhóm 3 số là dấu ‘.’, và dấy phẩy dùng cho hàng thập phân], Scientific Notation [dùng kí tự E để hiển thị số mũ, ví dụ 2014 = 2.014E3, 0.0005 = 5E-4], Date [năm, tháng, ngày, giờ, phút, giây], Dollar [giá trị tiền tệ], Custom Currency [tùy chỉnh cho tiền tệ], String [định dạng kiểu ký tự không phải số], Restricted Numeric [giống như Numeric nhưng số chữ số hiển thị là bằng nhau].
Cột Width: Thiết lập độ rộng trong định nghĩa của biến xác định số lượng ký tự được sử dụng để hiển thị giá trị.
Cột Decimals: Số chữ số thập phân hiển thị ở giá trị khai báo.
Cột Label: Giống như Name khi có cùng chung mục đích dùng để mô tả biến. Khác với Name là nó cho phép mô tả chi tiết tên biến với bất kỳ kí tự nào.
Cột Value: Cột Value là nơi mà chúng ta gán mã cho tất cả các lựa chọn của biến. Ví dụ, với biến giới tính thì giá trị 0 gán nhãn Nam, giá trị 1 gán nhãn Nữ.
Cột Missing: chỉ định một giá trị thích hợp để lấp đầy khoản trống dữ liệu. Ví dụ, chúng ta có biến hỏi về điểm thi cuối kì Toán của những người được điều tra, vì lý do tế nhị nào đó đã từ chối trả lời biến hỏi này, biến này sẽ không có giá trị. Tuy nhiên, chúng ta có thể chỉ định một giá trị để thay thế khoảng trống này, chẳng hạn giá trị trung bình là một lựa chọn phù hợp.
Cột Columns: nơi khai báo độ rộng của cột biến khi ta nhập liệu, thông thường chọn là 8.
Cột Align: dữ liệu được căn trái, căn phải hoặc căn giữa của cột.
Cột Measure: khai báo thang đo đo thể hiện dữ liệu với ba loại chính là Scale [gồm cả Interval và Ratio tức thang đo khoảng cách và tỉ lệ], Ordinary [thang đo thứ bậc], Norminal [thang đo danh nghĩa].

Kết quả khai báo biến trong ví dụ trên được thể hiện trong hình dưới đây:

– Bước 2: Nhập dữ liệu

Sau khi thực hiện xong bước 1, chúng ta chuyển qua làm việc ở khu vực Data View để tiến hành nhập liệu. Sau đó, chúng ta tiến hành nhập số liệu vào SPSS cho từng biến. Cuối cùng, chúng ta phải nhấp lưu dữ liệu thường xuyên để tránh trường hợp máy bị treo hoặc cúp điện đột ngột gây mất dữ liệu đã nhập.

Kết quả nhập dữ liệu trong ví dụ trên được thể hiện trong hình dưới đây:

Tài liệu tham khảo

Coolican, H. [2018]. Research methods and statistics in psychology. Routledge.
Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. [2012]. Basic statistics for social research [Vol. 38]. John Wiley & Sons.
Jackson, S. L. [2015]. Research methods and statistics: A critical thinking approach. Cengage Learning.
McQueen, R. A., & Knussen, C. [2006]. Introduction to research methods and statistics in psychology. Pearson education.
Peers, I. [2006]. Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
Wagner III, W. E. [2019]. Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.