Tại sao chúng ta phải tiền xử lý dữ liệu?
Xử lý dữ liệu là việc chuyển đổi dữ liệu thành dạng có thể sử dụng được. Trước đây, việc xử lý được thực hiện thủ công, tốn thời gian và dễ sai sót, thì hiện nay hầu hết việc xử lý được thực hiện tự động bằng máy tính sẽ cho kết quả nhanh và chính xác. Trong bài viết này, UniTrain sẽ hướng dẫn bạn cách dữ liệu được xử lý. Show
Dữ liệu được xử lý như thế nào?Xử lý dữ liệu bắt đầu với việc thu thập dữ liệu. Dữ liệu được thu thập để chuyển đổi dạng mong muốn phải được xử lý bằng cách xử lý dữ liệu theo từng bước như dữ liệu thu thập được phải được lưu trữ, sắp xếp, xử lý, phân tích và trình bày. Vì vậy, điều này được chia thành 6 bước cơ bản như sau: thu thập dữ liệu, lưu trữ dữ liệu, sắp xếp dữ liệu, xử lý dữ liệu. phân tích dữ liệu, trình bày dữ liệu và kết luận. Hãy thảo luận chi tiết từng cái một: 1. Thu thập dữ liệuNhư chúng ta đã thảo luận về các nguồn thu thập dữ liệu, dữ liệu liên quan về mặt logic được thu thập từ các nguồn khác nhau, định dạng khác nhau, các loại khác nhau như từ XML, tệp CSV, phương tiện truyền thông xã hội, hình ảnh là dữ liệu có cấu trúc hoặc không có cấu trúc,… 2. Lưu trữ dữ liệuDữ liệu được thu thập bây giờ cần được lưu trữ dưới dạng vật lý như giấy tờ, sổ ghi chép, và tất cả hoặc dưới bất kỳ hình thức vật lý nào khác. Hiện nay do khai thác dữ liệu và dữ liệu lớn, việc thu thập dữ liệu là rất lớn kể cả ở dạng có cấu trúc hay không có cấu trúc. Dữ liệu sẽ được lưu trữ dưới dạng kỹ thuật số để thực hiện phân tích và trình bày có ý nghĩa theo các yêu cầu ứng dụng. 3. Sắp xếp dữ liệuSau bước lưu trữ, bước ngay lập tức sẽ là phân loại và lọc. Việc phân loại và lọc được yêu cầu để sắp xếp dữ liệu theo một số thứ tự có ý nghĩa và chỉ lọc ra những thông tin được yêu cầu giúp dễ dàng hình dung và phân tích. 4. Xử lý dữ liệuMột loạt quá trình xử lý hoặc sử dụng liên tục và xử lý được thực hiện để xác minh, chuyển đổi, tổ chức, tích hợp và trích xuất dữ liệu ở dạng đầu ra hữu ích để sử dụng xa hơn. 5. Phân tích dữ liệuPhân tích dữ liệu là quá trình áp dụng hoặc đánh giá dữ liệu một cách có hệ thống bằng cách sử dụng lập luận phân tích và logic để minh họa từng thành phần của dữ liệu được cung cấp và để có được kết quả hoặc quyết định được đưa ra. 6. Trình bày dữ liệu và kết luậnKhi chúng ta đi đến kết quả phân tích, nó có thể được biểu diễn thành các dạng khác nhau như biểu đồ, tệp văn bản, tệp excel, đồ thị,… Phần mềm đơn lẻ hoặc kết hợp các phần mềm có thể sử dụng để thực hiện lưu trữ, sắp xếp, lọc và xử lý dữ liệu tùy theo yêu cầu và khả thi. Nó có thể được thực hiện bằng phần mềm cụ thể theo tập hợp các hoạt động được xác định trước theo các yêu cầu ứng dụng. Các loại đầu ra khác nhauCác loại tệp đầu ra khác nhau như: – Tệp văn bản thuần túy: Chúng được xuất dưới dạng tệp notepad hoặc WordPad. Đây là dạng đơn giản nhất của tệp dữ liệu. Tại sao chúng ta nên sử dụng xử lý dữ liệu?Giờ đây, dữ liệu của một ngày là quan trọng hơn hầu hết công việc dựa trên chính dữ liệu, vì vậy ngày càng có nhiều dữ liệu được thu thập cho các mục đích khác nhau như nghiên cứu khoa học, học thuật, sử dụng cá nhân và cá nhân, sử dụng thương mại, sử dụng tổ chức,… Cần phải xử lý dữ liệu đã thu thập này để tất cả các bước nêu trên được sử dụng cho quá trình được lưu trữ, sắp xếp, lọc, phân tích và trình bày ở định dạng sử dụng cần thiết. Quá trình xử lý tốn thời gian và phức tạp tùy thuộc vào kết quả được yêu cầu. Trong trường hợp thu thập dữ liệu khổng lồ hoặc dữ liệu lớn mà họ cần xử lý để có được kết quả tối ưu với sự trợ giúp của khai thác dữ liệu và quản lý dữ liệu thì điều đó càng trở nên quan trọng hơn. Kết luậnNó là sự chuyển đổi dữ liệu thành thông tin hữu ích. Quá trình xử lý dữ liệu được chia thành 6 bước cơ bản là thu thập dữ liệu, lưu trữ dữ liệu, sắp xếp dữ liệu, xử lý dữ liệu, phân tích dữ liệu, trình bày dữ liệu và kết luận. Ở đây chúng ta đã thảo luận về cách dữ liệu được xử lý, các loại đầu ra khác nhau và việc sử dụng xử lý dữ liệu. Bạn có thể tham khảo Khóa học Ứng dụng Excel trong xử lý dữ liệu của UniTrain để áp dụng hiệu quả vào công việc hằng ngày. UniTrain lược dịch Xem thêm Khóa học Ứng dụng Excel trong xử lý dữ liệu 9 cách thông minh để ứng dụng Excel cho kỹ thuật
Mục đích của phân tích dữ liệu ban đầu là xử lý dữ liệu để có thể đánh giá chất lượng của nó trước khi tiến hành bất kỳ phân tích nào khác. Có ba bước cơ bản trong phân tích dữ liệu gồm: i) xử lý dữ liệu (data processing), ii) làm sạch dữ liệu (data cleaning), và iii) mô tả dữ liệu (data description). Xử lý dữ liệu bao gồm việc mã hóa và nhập dữ liệu vào tập dữ liệu có định dạng phù hợp cho các bài kiểm tra thống kê. Làm sạch dữ liệu là kiểm tra chất lượng và cấu trúc của dữ liệu và sửa chữa bất kỳ sai sót nào do quá trình mã hóa và xử lý. Mô tả dữ liệu liên quan đến việc tóm tắt và hiển thị các đặc điểm chính của phân phối dữ liệu. 1. Các xem xét của xử lí dữ liệuSau khi đã thu thập, các cân nhắc sơ bộ nên bao gồm:
2. Mã hóa dữ liệuSau khi xem xét sơ bộ, chúng ta tiến hành mã hóa dữ liệu để có thể phân tích thống kê. Chúng ta nên suy nghĩ về sự lựa chọn của định dạng biến, cụ thể là định dạng số học hay kí tự của mỗi biến, và con số của các cột khi biến là số thập phân. Đối với mỗi biến, thông tin sau là bắt buộc:
Sau khi dữ liệu đã được mã hóa, nó sẽ được nhập vào tệp dữ liệu máy tính của chương trình thống kê bạn sử dụng, chẳng hạn SPSS. 3. Hướng dẫn nhập dữ liệu trong SPSSVí dụ 1, chúng ta có dữ liệu về giới tính, nhóm ngành học, số giờ ôn tập toán, điểm thi cuối kì toán (thang điểm 100) của 10 sinh viên tham gia khảo sát và muốn nhập vào SPSS. Số liệu thu thập được thể hiện trong bảng dưới đây:
Giai đoạn 1: Mã hóa dữ liệuChúng ta cần mã hóa tên biến và các lựa chọn cho biến trước khi thực hiện thao tác trên SPSS. Không có quy định ràng buộc cho việc mã hóa này, tuy nhiên chúng ta mã hoá sao cho khi phân tích dễ nhận biết tên biến cũng như những lựa chọn của biến. Ở ví dụ trên, chúng ta có thể mã hóa như sau: Bảng 1: Mã hóa biến và dữ liệu
Lưu ý rằng các biến giờ ôn tập, điểm cuối kì Toán là một giá trị định lượng cụ thể nên chúng ta không cần mã mà nhập trực tiếp vào SPSS. Giai đoạn 2: Nhập dữ liệu trong SPSS– Bước 1: Mở phần mềm SPSS và khai báo biến Chương trình SPSS sau khi được mở có hai khu vực làm việc là Data View và Variable View. Bước 1 khai báo biến là được thực hiện ở khu vực Variable View. Chúng ta tiến hành đặt tên từng biến cũng như vào tất cả các cột để khai báo cho biến.
Kết quả khai báo biến trong ví dụ trên được thể hiện trong hình dưới đây: – Bước 2: Nhập dữ liệu Sau khi thực hiện xong bước 1, chúng ta chuyển qua làm việc ở khu vực Data View để tiến hành nhập liệu. Sau đó, chúng ta tiến hành nhập số liệu vào SPSS cho từng biến. Cuối cùng, chúng ta phải nhấp lưu dữ liệu thường xuyên để tránh trường hợp máy bị treo hoặc cúp điện đột ngột gây mất dữ liệu đã nhập. Kết quả nhập dữ liệu trong ví dụ trên được thể hiện trong hình dưới đây: Tài liệu tham khảo
|