So sánh 2 phương pháp biến nhị giá
Hồi quy tuyến tính và hồi quy logistic là các kỹ thuật máy học đưa ra dự đoán bằng cách phân tích dữ liệu trước đây. Ví dụ: Nhờ quan sát xu hướng mua hàng trước đây của khách hàng, phân tích hồi quy sẽ ước tính doanh số bán hàng trong tương lai để bạn có thể đưa ra quyết định mua hàng tồn kho sáng suốt hơn. Kỹ thuật hồi quy tuyến tính lập mô hình toán học cho yếu tố chưa biết dựa trên nhiều yếu tố đã biết để ước tính giá trị chưa biết chính xác. Tương tự, hồi quy logistic sử dụng toán học để tìm ra mối quan hệ giữa hai yếu tố dữ liệu. Sau đó, kỹ thuật này sử dụng mối quan hệ đã tìm được để dự đoán giá trị của những yếu tố đó dựa trên yếu tố còn lại. Dự đoán thường cho ra một số kết quả hữu hạn, như có hoặc không. Show
Đọc về hồi quy tuyến tính » Đọc về hồi quy logistic » Đưa ra dự đoán: hồi quy tuyến tính so với hồi quy logisticCả hồi quy tuyến tính và hồi quy logistic đều sử dụng mô hình toán học để dự đoán giá trị của biến đầu ra từ một hoặc nhiều biến đầu vào. Biến đầu ra là biến phụ thuộc và biến đầu vào là biến độc lập. Hồi quy tuyến tínhMỗi biến độc lập có mối quan hệ trực tiếp với biến phụ thuộc và không có mối quan hệ nào với các biến độc lập khác. Mối quan hệ này được gọi là mối quan hệ tuyến tính. Biến phụ thuộc thường là một giá trị từ một loạt các giá trị liên tục. Đây là công thức, hoặc hàm tuyến tính, để tạo ra mô hình hồi quy tuyến tính: y= β0 + β1X1 + β2X2+… βnXn+ ε Sau đây là ý nghĩa của mỗi biến:
Một ví dụ về hồi quy tuyến tính là dự đoán giá nhà (biến phụ thuộc) dựa trên số phòng, khu phố và tuổi nhà (các biến độc lập). Hồi quy logisticGiá trị của biến phụ thuộc là một trong danh sách các danh mục hữu hạn sử dụng phân lớp nhị phân. Chúng được gọi là các biến danh mục. Một ví dụ là kết quả từ việc lăn một con xúc xắc sáu mặt. Mối quan hệ này được gọi là mối quan hệ logistic. Công thức hồi quy logistic áp dụng phép biến đổi logit, hoặc logarit tự nhiên của tỷ lệ cược, cho xác suất thành công hay thất bại của một biến phân loại cụ thể. y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε)) Sau đây là ý nghĩa của mỗi biến:
Một ví dụ về hồi quy logistic là dự đoán khả năng giá nhà trên 500.000 USD (biến phụ thuộc) dựa trên số lượng phòng, khu phố và tuổi nhà (các biến độc lập). Hồi quy tuyến tính và hồi quy logistic có những điểm tương đồng gì?Hồi quy tuyến tính và hồi quy logistic có một số điểm chung và có không gian ứng dụng phạm vi rộng tương tự. Phân tích thống kêHồi quy logistic và hồi quy tuyến tính là cả hai hình thức thống kê hoặc phân tích dữ liệu, và thuộc lĩnh vực khoa học dữ liệu. Cả hai đều sử dụng mô hình toán học để liên hệ một tập hợp các biến độc lập hoặc đã biết với các biến phụ thuộc. Bạn có thể biểu diễn cả hồi quy logistic và hồi quy tuyến tính dưới dạng phương trình toán học. Bạn cũng có thể biểu diễn mô hình trên biểu đồ. Kỹ thuật máy họcCả hai mô hình hồi quy tuyến tính và hồi quy logistic đều được sử dụng trong máy học có giám sát. Máy học có giám sát liên quan đến việc đào tạo một mô hình bằng cách nhập các tập dữ liệu được gắn nhãn. Các biến phụ thuộc và độc lập được xác định và thu thập bởi các nhà nghiên cứu con người. Bằng cách nhập dữ liệu cũ đã biết, phương trình toán học được thiết kế ngược. Cuối cùng, các dự đoán có thể chính xác để tính toán các biến phụ thuộc chưa biết từ các biến độc lập đã biết. Học có giám sát khác với học không có giám sát, nơi dữ liệu không được gắn nhãn. Tìm hiểu về công nghệ máy học » Khó đào tạoCả hồi quy logistic và hồi quy tuyến tính đều yêu cầu một lượng đáng kể dữ liệu được gắn nhãn để các mô hình trở nên chính xác trong các dự đoán. Đây có thể là một nhiệm vụ khó khăn đối với con người. Ví dụ: nếu bạn muốn gắn nhãn xem một hình ảnh có chứa ô tô hay không, thì tất cả các hình ảnh phải có thẻ của các biến như kích thước ô tô, góc ảnh và vật cản. Độ chính xác dự đoán hạn chếMột mô hình thống kê phù hợp với dữ liệu đầu vào với dữ liệu đầu ra không nhất thiết bao hàm mối quan hệ nhân quả giữa biến phụ thuộc và biến độc lập. Đối với cả hồi quy logistic và hồi quy tuyến tính, mối tương quan không phải là mối quan hệ nhân quả. Để sử dụng ví dụ về giá nhà từ phần trước, giả sử tên của chủ nhà tham gia danh sách các biến độc lập. Sau đó, cái tên John Doe tương quan với giá bán nhà thấp hơn. Mặc dù hồi quy tuyến tính và hồi quy logistic sẽ luôn dự đoán giá nhà thấp hơn nếu tên của chủ sở hữu là John Doe, logic cho thấy mối quan hệ này với dữ liệu đầu vào là không chính xác. Những điểm khác biệt chính: hồi quy tuyến tính so với hồi quy logisticHồi quy logistic và hồi quy tuyến tính khác nhau nhất trong các cách tiếp cận toán học của chúng. Giá trị đầu raĐầu ra hồi quy tuyến tính là một thang giá trị liên tục. Ví dụ: bao gồm số, kilomet, giá cả và trọng lượng. Ngược lại, giá trị đầu ra của mô hình hồi quy logistic là xác suất xảy ra một sự kiện phân loại cố định. Ví dụ: 0,76 có thể có nghĩa là 76% cơ hội mặc áo sơ mi xanh và 0,22 có thể có nghĩa là 22% cơ hội bỏ phiếu đồng ý. Mối quan hệ biến đổiTrong phân tích hồi quy, đường hồi quy là hình dạng của đường đồ thị biểu diễn mối quan hệ giữa mỗi biến độc lập và biến phụ thuộc. Trong hồi quy tuyến tính, đường hồi quy thẳng. Bất kỳ thay đổi nào về biến độc lập đều có ảnh hưởng trực tiếp đến biến phụ thuộc. Trong hồi quy logistic, đường hồi quy là đường cong hình chữ S, còn được gọi là đường cong sigmoid. Kiểu phân phối toán họcHồi quy tuyến tính tuân theo phân phối chuẩn hoặc Gauss của biến phụ thuộc. Phân phối chuẩn được mô tả bằng một đường liên tục trên đồ thị. Hồi quy logistic tuân theo phân phối nhị thức. Phân phối nhị thức thường được mô tả dưới dạng biểu đồ thanh. Thời điểm sử dụng hồi quy tuyến tính so với hồi quy logisticBạn có thể sử dụng hồi quy tuyến tính khi bạn muốn dự đoán một biến phụ thuộc liên tục từ thang giá trị. Sử dụng hồi quy logistic khi bạn mong đợi kết quả nhị phân (ví dụ: có hoặc không). Dưới đây là các ví dụ về hồi quy tuyến tính:
Dưới đây là các ví dụ về hồi quy logistic:
Tóm tắt những điểm khác biệt: hồi quy tuyến tính so với hồi quy logisticHồi quy tuyến tính Hồi quy logistic Đó là gì? Một phương pháp thống kê để dự đoán giá trị đầu ra từ một tập hợp các giá trị đầu vào. Một phương pháp thống kê để dự đoán xác suất của giá trị đầu ra từ một danh mục nhất định từ một tập hợp các biến phân loại. Mối quan hệ Mối quan hệ tuyến tính, được biểu diễn bằng một đường thẳng. Mối quan hệ logitic hoặc mối quan hệ sigmoid, được biểu diễn bằng một đường cong hình chữ S. Phương trình Tuyến tính. Logarit. Kiểu học có giám sát Hồi quy. Phân loại. Kiểu phân phối Bình thường/gauss. Nhị thức. Trường hợp sử dụng phù hợp nhất Các tác vụ yêu cầu một biến phụ thuộc liên tục được dự đoán từ một quy mô. Các tác vụ yêu cầu khả năng dự đoán của một biến phụ thuộc trong danh mục xảy ra từ một tập hợp các danh mục cố định. Làm cách nào bạn có thể chạy phân tích hồi quy tuyến tính và hồi quy logistic trên AWS?Bạn có thể chạy phân tích hồi quy tuyến tính và hồi quy logistic trên Amazon Web Services (AWS) bằng Amazon SageMaker. SageMaker là một dịch vụ máy học được quản lý toàn phần, tích hợp các thuật toán hồi quy cho cả hồi quy tuyến tính và hồi quy logistic, trong số những gói phần mềm thống kê khác. Bạn có thể triển khai hồi quy tuyến tính với nhiều giá trị đầu vào cần thiết hoặc giải quyết các vấn đề hồi quy với các mô hình xác suất logistic. Ví dụ: sau đây là cách bạn có thể hưởng lợi khi sử dụng SageMaker:
Bắt đầu với phân tích hồi quy trên AWS bằng cách tạo tài khoản ngay hôm nay. Các bước tiếp theo để sử dụng AWSAWS sẽ ngừng hỗ trợ cho Internet Explorer vào 07/31/2022. Các trình duyệt được hỗ trợ là Chrome, Firefox, Edge và Safari. Tìm hiểu thêm » |