Phuong phap sống còn để đánh giá năm 2024

1 PHẦN MỞ ĐẦU

1.1 Lời nói đầu

Survival – Phân tích sự tồn tại _ Phân tích sống còn_ Phân tích sống sót_ Phân tích sự kiện

Phân tích sống sót [PTSS] hoặc phân tích sự kiện khi nhà nghiên cứu muốn tìm hiểu ảnh hưởng đến các biến kết cục [biến phụ thuộc] mang tính thời gian.

Khi so sánh 2 phương pháp điều trị cho các bệnh có tần số tử vong cao như bệnh AIDS, các bệnh ung thư… Nếu mô hình phân tích như phân tích hồi qui logistic, chỉ để ý đến biến kết cục [sống/chết hoặc khỏi bệnh/không khỏi bệnh] mà không quan tâm đến yếu tố thời gian thì đôi không tìm thấy sự khác biệt giữa 2 phương pháp điều trị vì tỉ lệ tử vong gần như nhau, nhưng thời gian dẫn đến tử vong ở 2 nhóm có thể khác nhau. Vì vậy chúng ta phải sử dụng mô hình PTSS thì mới thấy sự khác biệt này. Như vậy mô hình nghiên cứu mô tả kết cục là biến nhị phân [sống/chết] tuy quan trọng nhưng không chính xác.

Mô hình chính để thể hiện mối liên hệ giữa thời gian dẫn đến bệnh [hay không bệnh] và các yếu tố nguy cơ [risk factors] là mô hình có tên là “survival analysis – Phân tích sự sông sót”. Cụm từ “survival analysis” xuất phát từ nghiên cứu trong bảo hiểm, và giới nghiên cứu y khoa từ đó dùng cụm từ cho bộ môn của mình. Nhưng như nói trên, sống/chết không phải là biến duy nhất, vì trong thực tế chúng ta cũng có những biến cố có bệnh hay không bệnh, xảy ra hay không xảy ra. Ngoài ra, trong các bộ môn kĩ thuật, người ta dùng một cụm từ khác “reliability analysis – Phân tích độ tin cậy”, dể chỉ cho khái niệm survival analysis. Tuy nhiên trong đề tài này chúng tôi sẽ dùng cụm từ Phân tích sống còn.

1.2 Lý do chọn đề tài

Mô hình hóa dữ liệu thời gian đến sự kiện là một chủ đề quan trọng với nhiều ứng dụng trong các lĩnh vực khác nhau. Tập hợp các phương pháp để phân tích dữ liệu đó được gọi là phân tích sự tồn tại, phân tích lịch sử sự kiện hoặc phân tích thời lượng. Phân tích sống còn được áp dụng rộng rãi vì định nghĩa về một ‘sự kiện’ có thể rất đa dạng và các ví dụ bao gồm chết và sống, thành công và phá sản, tiếp tục hoặc hủy bỏ. Do đó, các lĩnh vực ứng dụng bao gồm từ y học và xã hội học đến tiếp thị và kinh tế. Trong bài tiểu luận này, chúng ta xem xét các vấn đề cơ bản về lý thuyết của phân tích sống còn bao gồm các công cụ ước tính cho các chức năng sinh tồn và rủi ro và cách thực hành trên R dựa trên package survival.

Trong thời đại ngày nay - Công nghiệp 4.0 là thời đại cho sự phát triển kinh tế xã hội và công nghệ kĩ thuật, việc ứng dụng của phân tích sống sót trong tài chính doanh nghiệp trở thành một vấn đề có ý nghĩa thời sự, đặc biệt trong bối cảnh sự phát triển đa ngành nghề một cách sâu rộng và nhanh chóng như hiện nay.

Thấy được tầm quan trọng cũng như tiềm năng khi phân tích sự tồn tại của package survival trong thời điểm hiện tại, chúng tôi mong muốn có thể kết hợp các ngôn ngữ lập trình để giải quyết vấn đề trong kinh tế xã hội hiện và mô hình này sẽ giúp ích cho việc phân tích các nguy cơ, sự sống sót có thể xảy ra từ đó có thể dễ dàng giải quyết được các vấn đề quan trọng

1.3 Mục đích của đề tài

Một ưu điểm cùa Phân tích sống còn là xử lý được các trường hợp đối tượng nghiên cứu bỏ cuộc giữa chừng [như mất dấu theo dõi, ngưng điều trị do tác dụng phụ của thuốc hoặc tử vong do bệnh lý khác…].

Trong mô hình phân tích này các đối tượng còn sống kể cả đối tượng bỏ cuộc được gọi là censored hoặc sự kiện chưa xảy ra. Các đối tượng tử vong hoặc hết sống được gọi là events hoặc sự kiện đã kết thúc. Mục tiêu suy luận đối với phân tích sống còn là khoảng thời gian giữa thời điểm bắt đầu và thời điểm sự kiện xảy ra. Trong nghiên cứu y học hiện nay, phân tích sống còn được sử dụng rộng rãi trong các nghiên cứu lâm sàng để đánh giá hiệu quả của một phương phương điều trị hoặc để đánh giá tình trạng sống còn của một số các biện pháp điều trị ung thư. Trong kinh tế xã hội, phân tích sống còn được dùng để phân tích rủi ro/ nguy cơ để đánh giá sự tồn tại, của một doanh nghiệp nào đó.

1.4 Đối tượng, phạm vi nghiên cứu

Đối tượng nghiên cứu

Phân tích sống còn tập trung mô tả cho một cá thể hay một nhóm cá thể nhất định. Một điểm xác định của một sự kiện được gọi là failure [như là xuất hiện bệnh, chữa khỏi bệnh, tử vong, tái phát sau khi đáp ứng với điều trị…] mà xảy ra sau một khoảng thời gian được gọi là failure time [thời gian dẫn đến sự kiện] [hoặc follow-up time [thời gian theo dõi] trong nghiên cứu thuần tập/nghiên cứu dựa vào dân số] trong suốt thời gian các cá thể được quan sát. Để xác định thời gian dẫn đến sự kiện, chúng ta cần xác định thời điểm bắt đầu [có thể là ngày nhận vào, ngày chẩn đoán…].

Phạm vi nghiên cứu

Trong bài báo này, chúng tôi xem xét các vấn đề cơ bản về lý thuyết của phân tích tỷ lệ sống sót bao gồm các công cụ ước tính cho các chức năng sinh tồn và rủi ro. Chúng tôi thảo luận chi tiết về Mô hình mối nguy theo tỷ lệ Cox và cả các phương pháp để kiểm tra giả định về mối nguy theo tỷ lệ [PH]. Hơn nữa, chúng tôi thảo luận về các mô hình Cox phân tầng cho các trường hợp khi giả định PH không đúng. Phần thảo luận của chúng tôi được bổ sung bằng một ví dụ hoạt động sử dụng ngôn ngữ lập trình thống kê R để cho phép ứng dụng thực tế của phương pháp này. Phép ước tính thường được dùng để Phân tích sống còn được gọi là ước tính KaplanMeier. Phép ước tính này giúp ta tính được xác suất sống sót tích lũy tại các mốc thời gian khác nhau [sẽ minh họa trong các ví dụ sau]. Nếu muốn so sánh sự khác biệt giữa 2 nhóm điều trị, dùng kiểm định log-rank bằng cách so sánh 2 hàm xác suất tích lũy của 2 nhóm

2.1 Thông tin về package survival

Package “survival” chứa các quy trình phân tích sự sống sót cốt lõi, bao gồm định nghĩa về các đối tượng Surv, đường cong Kaplan-Meier và Aalen-Johansen [đa trạng thái], mô hình Cox và mô hình thời gian thất bại tăng tốc theo tham số.

  • Phiên bản mới nhất: 3.5-5
  • Phiên bản R hỗ trợ: R[>3.5.0]
  • Nhóm tác giá: Terry M Therneau, Thomas Lumley, Atkinson Elizabeth, Crowson Cynthia
  • Người phụ trách chính: Terry M Therneau
  • Tài liệu hướng dẫn: //cran.r-project.org/web/packages/survival/survival.pdf

2.2 Giới thiệu package survival

Phân tích sống còn được sử dụng phổ biến trong sinh học, y học, kỹ thuật, tiếp thị, khoa học xã hội hoặc khoa học. Các tên tương đồng với “Phân tích sống còn” như là phân tích lịch sử sự kiện, lý thuyết độ tin cậy hoặc phân tích thời gian.

Có hai phương pháp đóng góp quan trọng cho sự phát triển của lĩnh vực này. Đầu tiên là phương pháp của Kaplan và Meier, người đã giới thiệu một công cụ “Ước tính xác suất sống sót”. Thứ hai là từ Cox, người đã giới thiệu một mô hình được gọi là “Mô hình rủi ro theo tỷ lệ Cox” [CPHM], là một mô hình hồi quy. Thật đặc biệt khi cả hai mô hình này đều được sử dụng nhiều cho đến nay và luôn là lực chọn của mọi nhà khoa học khi phân tích về dữ liệu sống còn [survival data].

Trong những năm qua, nhiều báo cáo đã được viết về khảo sát phân tích tỷ lệ sống còn. Tuy nhiên, do sự phức tạp của các phương pháp, đặc biệt là đối với dữ liệu đa biến, các cuộc thảo luận dễ dẫn đến nhầm lẫn. Ngoài ra, ở cấp độ giới thiệu có sẵn các đánh giá, đây hoàn toàn là lý thuyết hoặc sử dụng các ngôn ngữ lập trình [như stata hoặc SAS] được sử dụng chủ yếu trong các thống kê sinh học.

Ngược lại, đánh giá của một số người đã kết hợp trình bày lý thuyết với thực tế sử dụng ngôn ngữ lập trình thống kê R. R là ngôn ngữ được sử dụng rộng rãi cho các vấn đề chung trong khoa học dữ liệu vì nó kết hợp các tính năng từ các mô hình lập trình khác nhau. Chúng ta hướng tới một cách trình bày toàn diện và đủ rộng để bao gồm tất cả các chủ đề cần thiết cho phân tích sống còn đa biến nhưng đồng thời cũng dễ hiểu.

Để thực hiện tất cả điều này, cần bổ sung cho việc trình bày các phương pháp với đầy đủ thông tin cơ bản. Giải thích chi tiết việc kiểm chứng và xử lý dữ liệu về các sự kiện thời gian, bởi vì về cơ bản tất cả các phương pháp đều sử dụng kiểm chứng để rút ra các ước tính hiệu quả. Cuối cùng, chúng ta thêm một ví dụ đã hoạt động cho thấy cách thực hiện phân tích khả năng sống sót thực tế với R.

Trong phần tiếp theo, chúng ta cung cấp một dữ liệu để phân tích sự sống còn và ý nghĩa của việc phân tích chúng. Tiếp theo, chúng ta mô tả các đặc điểm chung của các hàm sinh tồn, ước lượng cho các hàm sinh tồn và so sánh hai đường cong sinh tồn. Sau đó, chúng ta giới thiệu Mô hình nguy cơ theo tỷ lệ Cox. Nếu giả định rủi ro theo tỷ lệ không đúng, người ta cần sử dụng mô hình Cox phân tầng. Cuối cùng, chúng ta trình bày một phần về phân tích tỷ lệ sống thực tế bằng R. Bài báo kết thúc với phần tóm tắt ngắn gọn và kết luận.

2.3 Các hàm cơ bản trong package survival

Đầu tiên, chúng ta dùng hàm Surv[] từ package survival để tạo ra một đối tượng surv từ cột follow-up-time và event.

Kết quả của bước này tạo ra một đối tượng Surv bao gồm thông tin thời gian và có hay không sự kiện quan tâm [tử vong] được nhận thấy.

  • Surv[time, status] – dữ liệu được kiểm duyệt đúng.
  • Surv [time, endpoint == ‘death’] – dữ liệu được kiểm duyệt bên phải, trong đó biến trạng thái là một ký tự hoặc hệ số.
  • Surv[t1, t2, status] - quá trình đếm dữ liệu.
  • Surv [t1, ind, sype=‘left’] - kiểm duyệt bên trái.
  • Surv[time, fstat] - dữ liệu đa trạng thái, fstat là một hệ số.

Coxph [] mô hình mối nguy theo tỷ lệ của Cox

  • Coxph [Surv [time, status] ~ I, data = am1]mô hình cox tiêu chuẩn
  • Coxph [Surv [t1, t2, stat] ~ [age+ surgery]* transplant] – phụ thuộc vào thời gian
  • y

Chủ Đề