Algoritmos de Aprendizado de Máquina Aplicados a Dados Censoriados para Previsão de Mortalidade de Pacientes com Doença Arterial Coronariana
Autores
7395 |
3217,754
|
|
7396 |
3217,754
|
Informações:
Publicações do PESC
A aprendizagem de máquina probabilística está sendo cada vez mais utilizada na área da saúde para processar dados e melhorar a eficácia dos processos de tomada de decisão dos profissionais. Pacientes recebem inferências precisas, aprimoradas por distribuições completas de probabilidade. Um aspecto crucial da análise de dados de saúde é estudar a morte por qualquer causa e identificar os fatores que mais a influenciam. No entanto, trabalhos anteriores tendiam a explorar insuficientemente informações sobre pacientes que sobreviveram ou não realizaram uma análise completa de aprendizado de máquina. Neste estudo, analisamos um conjunto de dados de pacientes com doença arterial coronariana que foram encaminhados para reabilitação cardíaca (CR), com o objetivo de prever a morte por qualquer causa. Para 88% dos pacientes, suas informações de morte foram censuradas, ou seja, só temos um limite inferior de seu tempo de morte, tornando difícil fazer previsões precisas. Para resolver esse problema, aplicamos algoritmos da literatura de análise de sobrevivência. Também usamos métodos de seleção de variáveis para reduzir o seu número em 92%, identificando apenas duas variáveis que melhor predizem a morte. Posteriormente, avaliamos um grupo diversificado de modelos e descobrimos que o modelo Survival Tree apresentou excelente desempenho e interpretabilidade, podendo ser utilizado por médicos apenas inspecionando um único diagrama. Além disso, desenvolvemos um novo algoritmo de clusterização para dados de sobrevivência, denominado SurvMixClust, para ajudar a modelar situações semelhantes ao nosso conjunto de dados e, ao mesmo tempo, encontrar grupos de pacientes com perfis de sobrevivência semelhantes.
Probabilistic machine learning is increasingly being used in healthcare to process data and improve the effectiveness of practitioners' decision-making processes. Patients receive precise inferences, enhanced by full probability distributions. One crucial aspect of the analysis of healthcare data is to study death from any cause and identify the factors that influence it the most. However, past works tended to insufficiently explore information about patients that survived or did not conduct a full machine-learning analysis. In this study, we analyzed a dataset of patients with coronary artery disease who were referred to cardiac rehabilitation (CR), aiming to predict death from any cause. For 88% of patients, their death information was censored, i.e., we only have a lower bound of their time of death, making it challenging to make accurate predictions. To address this issue, we applied algorithms from the survival analysis literature. We also used feature selection methods to reduce the number of features by 92%, identifying only two features that best predict death. Afterward, we evaluated a diverse group of models and found that the Survival Tree model had excellent performance and interoperability, being capable of being used by medical practitioners by just inspecting a single diagram. Additionally, we developed a novel clusterization algorithm for survival data, named SurvMixClust, to help model situations similar to our dataset while also finding groups of patients having similar survival profiles.