Phuong phap sống còn để đánh giá năm 2024

1 PHẦN MỞ ĐẦU

1.1 Lời nói đầu

Survival – Phân tích sự tồn tại _ Phân tích sống còn_ Phân tích sống sót_ Phân tích sự kiện

Phân tích sống sót (PTSS) hoặc phân tích sự kiện khi nhà nghiên cứu muốn tìm hiểu ảnh hưởng đến các biến kết cục (biến phụ thuộc) mang tính thời gian.

Khi so sánh 2 phương pháp điều trị cho các bệnh có tần số tử vong cao như bệnh AIDS, các bệnh ung thư… Nếu mô hình phân tích như phân tích hồi qui logistic, chỉ để ý đến biến kết cục (sống/chết hoặc khỏi bệnh/không khỏi bệnh) mà không quan tâm đến yếu tố thời gian thì đôi không tìm thấy sự khác biệt giữa 2 phương pháp điều trị vì tỉ lệ tử vong gần như nhau, nhưng thời gian dẫn đến tử vong ở 2 nhóm có thể khác nhau. Vì vậy chúng ta phải sử dụng mô hình PTSS thì mới thấy sự khác biệt này. Như vậy mô hình nghiên cứu mô tả kết cục là biến nhị phân (sống/chết) tuy quan trọng nhưng không chính xác.

Mô hình chính để thể hiện mối liên hệ giữa thời gian dẫn đến bệnh (hay không bệnh) và các yếu tố nguy cơ (risk factors) là mô hình có tên là “survival analysis – Phân tích sự sông sót”. Cụm từ “survival analysis” xuất phát từ nghiên cứu trong bảo hiểm, và giới nghiên cứu y khoa từ đó dùng cụm từ cho bộ môn của mình. Nhưng như nói trên, sống/chết không phải là biến duy nhất, vì trong thực tế chúng ta cũng có những biến cố có bệnh hay không bệnh, xảy ra hay không xảy ra. Ngoài ra, trong các bộ môn kĩ thuật, người ta dùng một cụm từ khác “reliability analysis – Phân tích độ tin cậy”, dể chỉ cho khái niệm survival analysis. Tuy nhiên trong đề tài này chúng tôi sẽ dùng cụm từ Phân tích sống còn.

1.2 Lý do chọn đề tài

Mô hình hóa dữ liệu thời gian đến sự kiện là một chủ đề quan trọng với nhiều ứng dụng trong các lĩnh vực khác nhau. Tập hợp các phương pháp để phân tích dữ liệu đó được gọi là phân tích sự tồn tại, phân tích lịch sử sự kiện hoặc phân tích thời lượng. Phân tích sống còn được áp dụng rộng rãi vì định nghĩa về một ‘sự kiện’ có thể rất đa dạng và các ví dụ bao gồm chết và sống, thành công và phá sản, tiếp tục hoặc hủy bỏ. Do đó, các lĩnh vực ứng dụng bao gồm từ y học và xã hội học đến tiếp thị và kinh tế. Trong bài tiểu luận này, chúng ta xem xét các vấn đề cơ bản về lý thuyết của phân tích sống còn bao gồm các công cụ ước tính cho các chức năng sinh tồn và rủi ro và cách thực hành trên R dựa trên package survival.

Trong thời đại ngày nay - Công nghiệp 4.0 là thời đại cho sự phát triển kinh tế xã hội và công nghệ kĩ thuật, việc ứng dụng của phân tích sống sót trong tài chính doanh nghiệp trở thành một vấn đề có ý nghĩa thời sự, đặc biệt trong bối cảnh sự phát triển đa ngành nghề một cách sâu rộng và nhanh chóng như hiện nay.

Thấy được tầm quan trọng cũng như tiềm năng khi phân tích sự tồn tại của package survival trong thời điểm hiện tại, chúng tôi mong muốn có thể kết hợp các ngôn ngữ lập trình để giải quyết vấn đề trong kinh tế xã hội hiện và mô hình này sẽ giúp ích cho việc phân tích các nguy cơ, sự sống sót có thể xảy ra từ đó có thể dễ dàng giải quyết được các vấn đề quan trọng

1.3 Mục đích của đề tài

Một ưu điểm cùa Phân tích sống còn là xử lý được các trường hợp đối tượng nghiên cứu bỏ cuộc giữa chừng (như mất dấu theo dõi, ngưng điều trị do tác dụng phụ của thuốc hoặc tử vong do bệnh lý khác…).

Trong mô hình phân tích này các đối tượng còn sống kể cả đối tượng bỏ cuộc được gọi là censored hoặc sự kiện chưa xảy ra. Các đối tượng tử vong hoặc hết sống được gọi là events hoặc sự kiện đã kết thúc. Mục tiêu suy luận đối với phân tích sống còn là khoảng thời gian giữa thời điểm bắt đầu và thời điểm sự kiện xảy ra. Trong nghiên cứu y học hiện nay, phân tích sống còn được sử dụng rộng rãi trong các nghiên cứu lâm sàng để đánh giá hiệu quả của một phương phương điều trị hoặc để đánh giá tình trạng sống còn của một số các biện pháp điều trị ung thư. Trong kinh tế xã hội, phân tích sống còn được dùng để phân tích rủi ro/ nguy cơ để đánh giá sự tồn tại, của một doanh nghiệp nào đó.

1.4 Đối tượng, phạm vi nghiên cứu

Đối tượng nghiên cứu

Phân tích sống còn tập trung mô tả cho một cá thể hay một nhóm cá thể nhất định. Một điểm xác định của một sự kiện được gọi là failure (như là xuất hiện bệnh, chữa khỏi bệnh, tử vong, tái phát sau khi đáp ứng với điều trị…) mà xảy ra sau một khoảng thời gian được gọi là failure time (thời gian dẫn đến sự kiện) (hoặc follow-up time (thời gian theo dõi) trong nghiên cứu thuần tập/nghiên cứu dựa vào dân số) trong suốt thời gian các cá thể được quan sát. Để xác định thời gian dẫn đến sự kiện, chúng ta cần xác định thời điểm bắt đầu (có thể là ngày nhận vào, ngày chẩn đoán…).

Phạm vi nghiên cứu

Trong bài báo này, chúng tôi xem xét các vấn đề cơ bản về lý thuyết của phân tích tỷ lệ sống sót bao gồm các công cụ ước tính cho các chức năng sinh tồn và rủi ro. Chúng tôi thảo luận chi tiết về Mô hình mối nguy theo tỷ lệ Cox và cả các phương pháp để kiểm tra giả định về mối nguy theo tỷ lệ (PH). Hơn nữa, chúng tôi thảo luận về các mô hình Cox phân tầng cho các trường hợp khi giả định PH không đúng. Phần thảo luận của chúng tôi được bổ sung bằng một ví dụ hoạt động sử dụng ngôn ngữ lập trình thống kê R để cho phép ứng dụng thực tế của phương pháp này. Phép ước tính thường được dùng để Phân tích sống còn được gọi là ước tính KaplanMeier. Phép ước tính này giúp ta tính được xác suất sống sót tích lũy tại các mốc thời gian khác nhau (sẽ minh họa trong các ví dụ sau). Nếu muốn so sánh sự khác biệt giữa 2 nhóm điều trị, dùng kiểm định log-rank bằng cách so sánh 2 hàm xác suất tích lũy của 2 nhóm

2.1 Thông tin về package survival

Package “survival” chứa các quy trình phân tích sự sống sót cốt lõi, bao gồm định nghĩa về các đối tượng Surv, đường cong Kaplan-Meier và Aalen-Johansen (đa trạng thái), mô hình Cox và mô hình thời gian thất bại tăng tốc theo tham số.

  • Phiên bản mới nhất: 3.5-5
  • Phiên bản R hỗ trợ: R(>3.5.0)
  • Nhóm tác giá: Terry M Therneau, Thomas Lumley, Atkinson Elizabeth, Crowson Cynthia
  • Người phụ trách chính: Terry M Therneau
  • Tài liệu hướng dẫn: https://cran.r-project.org/web/packages/survival/survival.pdf

2.2 Giới thiệu package survival

Phân tích sống còn được sử dụng phổ biến trong sinh học, y học, kỹ thuật, tiếp thị, khoa học xã hội hoặc khoa học. Các tên tương đồng với “Phân tích sống còn” như là phân tích lịch sử sự kiện, lý thuyết độ tin cậy hoặc phân tích thời gian.

Có hai phương pháp đóng góp quan trọng cho sự phát triển của lĩnh vực này. Đầu tiên là phương pháp của Kaplan và Meier, người đã giới thiệu một công cụ “Ước tính xác suất sống sót”. Thứ hai là từ Cox, người đã giới thiệu một mô hình được gọi là “Mô hình rủi ro theo tỷ lệ Cox” (CPHM), là một mô hình hồi quy. Thật đặc biệt khi cả hai mô hình này đều được sử dụng nhiều cho đến nay và luôn là lực chọn của mọi nhà khoa học khi phân tích về dữ liệu sống còn (survival data).

Trong những năm qua, nhiều báo cáo đã được viết về khảo sát phân tích tỷ lệ sống còn. Tuy nhiên, do sự phức tạp của các phương pháp, đặc biệt là đối với dữ liệu đa biến, các cuộc thảo luận dễ dẫn đến nhầm lẫn. Ngoài ra, ở cấp độ giới thiệu có sẵn các đánh giá, đây hoàn toàn là lý thuyết hoặc sử dụng các ngôn ngữ lập trình (như stata hoặc SAS) được sử dụng chủ yếu trong các thống kê sinh học.

Ngược lại, đánh giá của một số người đã kết hợp trình bày lý thuyết với thực tế sử dụng ngôn ngữ lập trình thống kê R. R là ngôn ngữ được sử dụng rộng rãi cho các vấn đề chung trong khoa học dữ liệu vì nó kết hợp các tính năng từ các mô hình lập trình khác nhau. Chúng ta hướng tới một cách trình bày toàn diện và đủ rộng để bao gồm tất cả các chủ đề cần thiết cho phân tích sống còn đa biến nhưng đồng thời cũng dễ hiểu.

Để thực hiện tất cả điều này, cần bổ sung cho việc trình bày các phương pháp với đầy đủ thông tin cơ bản. Giải thích chi tiết việc kiểm chứng và xử lý dữ liệu về các sự kiện thời gian, bởi vì về cơ bản tất cả các phương pháp đều sử dụng kiểm chứng để rút ra các ước tính hiệu quả. Cuối cùng, chúng ta thêm một ví dụ đã hoạt động cho thấy cách thực hiện phân tích khả năng sống sót thực tế với R.

Trong phần tiếp theo, chúng ta cung cấp một dữ liệu để phân tích sự sống còn và ý nghĩa của việc phân tích chúng. Tiếp theo, chúng ta mô tả các đặc điểm chung của các hàm sinh tồn, ước lượng cho các hàm sinh tồn và so sánh hai đường cong sinh tồn. Sau đó, chúng ta giới thiệu Mô hình nguy cơ theo tỷ lệ Cox. Nếu giả định rủi ro theo tỷ lệ không đúng, người ta cần sử dụng mô hình Cox phân tầng. Cuối cùng, chúng ta trình bày một phần về phân tích tỷ lệ sống thực tế bằng R. Bài báo kết thúc với phần tóm tắt ngắn gọn và kết luận.

2.3 Các hàm cơ bản trong package survival

Đầu tiên, chúng ta dùng hàm Surv() từ package survival để tạo ra một đối tượng surv từ cột follow-up-time và event.

Kết quả của bước này tạo ra một đối tượng Surv bao gồm thông tin thời gian và có hay không sự kiện quan tâm (tử vong) được nhận thấy.

  • Surv(time, status) – dữ liệu được kiểm duyệt đúng.
  • Surv (time, endpoint == ‘death’) – dữ liệu được kiểm duyệt bên phải, trong đó biến trạng thái là một ký tự hoặc hệ số.
  • Surv(t1, t2, status) - quá trình đếm dữ liệu.
  • Surv (t1, ind, sype=‘left’) - kiểm duyệt bên trái.
  • Surv(time, fstat) - dữ liệu đa trạng thái, fstat là một hệ số.

Coxph () mô hình mối nguy theo tỷ lệ của Cox

  • Coxph (Surv (time, status) ~ I, data = am1)mô hình cox tiêu chuẩn
  • Coxph (Surv (t1, t2, stat) ~ (age+ surgery)* transplant) – phụ thuộc vào thời gian
  • y <- Surv( t1, T2, stat)
  • Coxph (y ~ strata ( inst) * set + age + treat)

Mô hình phân tầng với đường cơ sở tỷ lệ riêng biệt cho mỗi tổ chức và các tác động cụ thể của tổ chức đối với giới tính .

  • Coxph ( y ~ ofset (x1) + x2 ) – trong một thuật ngữ đã biết, mà không ước tính hệ số cho nó.

Cox.zph tính toán kiểm tra các mối nguy theo tỷ lệ đối với mô hình Cox được trang bị.

  • Zfit <- cox.zph ( coxfit ) ; plot( zfit )

Survexp Tỷ lệ sống sót được dự đoán cho một nhóm đối tượng phù hợp với độ tuổi và giới tính, đưa ra một ma trận cơ sở về tỷ lệ rủi ro đã biết đối với dân số. Thông thường, đây là các bảng tỷ lệ tử vong của Hoa Kỳ, nhưng chúng tôi cũng đã sử dụng các bảng địa phương cho tỷ lệ đột quỵ.

  • survexp ( entry.dt , birth.dt , sex ) - Mặc định là người Mỹ da trắng, tỷ lệ sống sót trung bình theo nhóm
  • pred <- survexp (entry, birth, sex, futime, types= ‘individual’) Dữ liệu để nhập vào thử nghiệm một mẫu để so sánh nhóm nhất định với dân số đã biết.

Sau đó, chúng ta bắt đầu phân tích bằng cách sử dụng hàm survfit() để tạo ra một đối tượng survfit, phù hợp với các tính toán mặc định cho các ước tính Kaplan Meier (KM) của đường cong sống sót chung (cận biên)

Survfit Thể hiện với một đường cong sinh tồn,

  • survfit (Surv (time, status)) - Kaplan-Meier đơn giản
  • survfit (Surv (time, status) ~ rx + sex) bốn nhóm
  • fit <- corph (Surv (time, stat) ~ rx + sex)

survfit (fit. list (rx=1, sex= 2)) - dự đoán đường cong

survreg Mô hình sống còn tham số.

  • survreg (Surv(time, stat), ~ I, dist = ‘loglogistic’ ) Phù hợp với phân phối log-logistic

Data set creation

  • survSplit chia tập dữ liệu sinh tồn thành các phần thời gian rời rạc.
  • tmerge tạo tập dữ liệu sinh tồn với các biến đồng thời phụ thuộc vào thời gian và/hoặc nhiều sự kiện.
  • surv check kiểm tra độ tin cậy cho các bộ dữ liệu sinh tồn.

3 LÝ THUYẾT SURVIVAL ANALYSIS

3.1 Phân tích sống còn là gì

  • 0.5 - 0.75 trang A4

3.2 Dữ liệu trong phân tích sống còn

  • 0.5 - 0.75 trang A4

3.3 Các hàm và mô hình trong phân tích sống còn

  • giữ lại + trình bày đẹp lên
  • 0.5 - 0.75 trang A4

4 PHÂN TÍCH SỐNG CÒN TRÊN R

4.1 Cài đặt và sử dụng package survival

4.2 Dữ liệu “lung”

4.3 Đường cong sinh tồn

Biểu đồ Kaplan-Meier
Ước tính tỉ lệ sống sót
Ước tính thời gian sống sót trung bình
Bảng dữ liệu sống sot Kaplan-Meier
Log-Rank test so sánh các đường cong sống sót

4.4 Mô hình COX

4.5 Nguy cơ cạnh tranh

5 PHẦN KẾT LUẬN

5.1 Tóm tắt

Phân tích sống còn là một tập hợp các phương pháp thống kê để phân tích dữ liệu trong đó biến kết quả được quan tâm là thời gian cho đến khi một sự kiện xảy ra.

Dữ liệu được dùng trong phân tích sống còn thường thể hiện theo hai hàm liên quan:

  • Hàm sống sót đại diện cho xác suất mà một cá nhân sống sót từ thời điểm xuất phát đến một thời điểm nào đó ngoài thời gian t. Nó thường được ước tính bằng phương pháp Kaplan-Meier. logrank test có thể được sử dụng để kiểm tra sự khác biệt giữa các đường cong sống sót cho các nhóm, chẳng hạn như nhóm điều trị.
  • Hàm nguy cơ cung cấp khả năng xảy ra tức thời của một sự kiện tại một thời điểm, cho khả năng tồn tại cho đến thời điểm đó. Nó được sử dụng chủ yếu như một công cụ chẩn đoán hoặc xác định một mô hình toán học để phân tích tỷ lệ sống sót.

5.2 Ưu điểm của package survival

Lợi ích chính của phân tích sống còn là nó có thể giải quyết tốt hơn vấn đề kiểm chứng với các biến số chính như thời gian và khả năng xảy ra một sự kiện (có xảy ra hay không). Vì lý do này, có lẽ đây là kỹ thuật phù hợp nhất để trả lời các câu hỏi về thời gian diễn ra sự kiện trong nhiều ngành và lĩnh vực, đặc biệt là trong lĩnh vực y học.

Bằng công cụ hỗ trợ là ngôn ngữ lập trình R cùng package survival, thao tác phân tích sống còn trên dữ liệu trở nên nhanh chóng, gọn nhẹ. Chỉ với các hàm cơ bản như survfit(), Surv(), summary(), coxph(),… là chúng ta có thể phân tích gần như toàn bộ những vấn đề cần quan tâm về phân tích sống còn. Ngoài ra còn có nhiều package khác hỗ trợ trực quan hóa kết quả như “ggplot2”, “survminer”,… giúp việc đọc hiểu kết quả trở nên dễ dàng hơn bao giờ hết.

5.3 Hạn chế gặp phải khi phân tích sống còn trên R

Những vấn đề gặp phải khi dùng dữ liệu vào phân tích sống còn trên R:

Dữ liệu bị cắt xén là những số liệu không hoàn chỉnh. Vấn đề chủ yếu nằm ở đối tượng nghiên cứu, tùy các trường hợp khác nhau khiến cho bộ dữ liệu sẽ không được hoàn chỉnh, rất khó để có thể khắc phục điều này vì chúng ta không thể kiểm soát được hết các đối tượng nghiên cứu. Vấn đề này thường xuyên xảy ra ở các nghiên cứu và nếu các đối tượng càng nhiều thì tỷ lệ số liệu bị cắt xén sẽ càng cao.

Dữ liệu bị khuyết (missing value) N/A hay còn gọi là những giá trị bị thiếu. Đây là những dữ liệu không được điền hoặc không được cập nhật vào bộ dữ liệu, đây có thể là kết quả của một quá trình sai sót trong lúc nhập liệu. Đây cũng là lỗi thường xuyên gặp phải trong bộ dữ liệu dataset nhưng lỗi này ta có thể khắc phục được bằng cách loại bỏ missing value hoặc thay thế nó bằng một giá trị khác.

Số liệu dùng cho phân tích sống còn có 3 đặc điểm như sau:Biến phụ thuộc là khoảng thời gian từ thời điểm bắt đầu đến thời điểm một sự kiện xảy ra. Quan sát censored là các quan sát mà sự kiện quan tâm không xảy ra tại thời điểm phân tích số liệu. Các biến dự đoán hay giải thích có ảnh hưởng đến thời gian dẫn đến sự kiện mà chúng ta muốn đánh giá hoặc kiểm soát.

Nhưng trong thực tế, không có một con số cụ thể cho thời điểm bắt đầu hay kết thúc của sự kiện mà thay vào đó ta chỉ tự đặt ra một khoảng thời gian để quan sát sự kiện đó chứ không xác định được đó là khi nào.

Vì đây hầu hết là các quá trình nghiên cứu nên để có được kết quá chính xác thì chúng ta cần phải thực hiện nhiều quan sát. Vì một cuộc nghiên cứu sẽ cho ra nhiều kết quả khác nhau, nên để kết quả được chắc chắn thì ta phải thực hiện quan sát trên nhiều đối tượng từ đó mới có thẻ rút ra được kết luận đúng. Vậy nên quá trình này sẽ đem lại nhiều rắc rồi cho quá trình nghiên cứu

6 LIỆU THAM KHẢO

  • A package for survival analysis in R - Terry Therneau
  • Survival Analysis in R - Emily C. Zabor
  • Survival Analysis Part I: Basic concepts and first analyses. British Journal of Cancer - Clark TG, Bradburn MJ, Love SB and Altman DG

Survival plots of time-to-event outcomes in clinical trials: good practice and pitfalls - Pocock S, Clayton TC, Altman DG