BI8-Modelado básico en R

Área: Bioestadística y paquetes de análisis estadístico Fecha: 22 a 26 de julio 2019
Duración:  20 horas Costo: $6,550.00 MN
Horario: 10:00 a 14:00 hrs. Sede: Ciudad de México. Instalaciones de INSP.

Docentes

Da clic sobre el docente para ver su cápsula
Descripción:

Requisitos y/o perfil de las alumnas y los alumnos

El curso está orientado hacia profesionales de la salud, así como al público en general con un fuerte interés en la creación de modelos de simulación epidemiológica; particularmente en modelos de Markov y su implementación en el software R. No se requiere previa experiencia de programación ni de modelado matemático. Conocimientos básicos de estadística (media, desviación estándar) son sugeridos.

Introducción al curso

Múltiples propuestas de política pública son imposibles de evaluar en la práctica: ¿cuánto cambiará la prevalencia de diabetes de implementarse un impuesto a las bebidas azucaradas?, ¿cuál estrategia de tamizaje reducirá en mayor medida la mortalidad general para el 2050?, ¿cuál es la cantidad necesaria de individuos a vacunar para lograr la inmunidad colectiva en una población con altas tasas de inmigración? Todas estas preguntas (y muchas más) son imposibles de responder mediante estudios epidemiológicos “tradicionales” ya sea por falta de recursos materiales, tiempo o cuestionamientos éticos. Los modelos de simulación apoyan la toma de decisiones generando información necesaria para múltiples escenarios hipotéticos.

Los modelos de Markov, en particular, han tenido un auge en epidemiología dada su facilidad conceptual. Actualmente PubMed contiene en sus registros más de 25 mil artículos que contienen la palabra Markov; de estos, aproximadamente 60% utilizan de cadenas de Markov. Las cadenas de Markov a tiempo discreto (DTMC por sus siglas en inglés) han sido implementadas para modelar: embarazo adolescente, acciones para reducir la incidencia de dengue, estudiar complicaciones de obesidad, simular acciones específicas de proteínas y describir la transmisión genética, entre otros. A pesar de su amplio uso para modelos de salud son pocos los cursos de epidemiología y/o bioestadística que cubren cadenas de Markov y, muchos menos, aquéllos que enseñan a simular dichos procesos.

Este curso cubre dicha deficiencia enseñando a las alumnas y los alumnos a plantear distintos modelos de política pública en salud como cadenas de Markov y simular dichos modelos mediante el software estadístico R. Éste software ha sido adoptado principalmente para la academia y la salud siendo éstas dos sus principales áreas de crecimiento; en particular es el preferido para el desarrollo de nuevos métodos estadísticos. R actualmente cuenta con más de dos millones de usuarios a nivel mundial, un repositorio especializado para ciencias de la vida y aproximadamente de 10 mil paquetes (conjuntos de herramientas) especializados. Por estas razones, R es el ecosistema ideal para la programación de modelos epidemiológicos; en particular, para la implementación de modelos de simulación (como las cadenas de Markov).

El propósito de este curso es dotar a las alumnas y los alumnos de las herramientas necesarias del software estadístico R así como la teoría requerida para realizar modelos básicos de epidemiología. Al finalizar el curso, podrán analizar una política de salud a fin de responder cualquier pregunta del estilo ¿qué pasaría si…?

Objetivo general

Proporcionar a las alumnas y los alumnos las herramientas necesarias para analizar un problema de salud pública, abstraer sus características, plantear un modelo de simulación asociado, programar dicho modelo en el software R y presentar sus resultados mediante un documento dinámico.

Objetivos específicos

  • Conocer las principales estructuras de la programación funcional incluyendo ciclos, condicionamientos y funciones.
  • Utilizar los paquetes del tidyverse para el análisis, lectura, limpieza y presentación de datos incluyendo ggplot para graficación, tidyr para limpieza.
  • Analizar un problema de salud pública, plantear un modelo de Markov a tiempo discreto asociado y escribir un programa de simulación para evaluar distintos escenarios de política pública.
  • Automatizar la creación de reportes para la presentación de resultados mediante documentos dinámicos.
  • Dotar de las herramientas suficientes para un curso de modelado avanzado.

Perfil de las egresadas y los egresados

Al finalizar el curso las alumnas y los alumnos serán capaces de leer código escrito en R, realizar análisis simples de bases de datos e implementar modelos básicos de simulación (específicamente cadenas de Markov a tiempo discreto) en dicho lenguaje y presentar los resultados mediante documentos dinámicos.


 

Metodología

El curso se imparte de manera presencial a lo largo de una semana (4 horas diarias). Las sesiones consisten en exposición del material por parte del docente (1 hora 50 minutos), ejercicios guiados grupales (55 minutos) así como ejercicios individuales (55 minutos). Se darán descansos de 10 minutos por cada hora y media de clase. Durante cada sesión serán asignadas tareas adicionales; éstas serán revisadas y discutidas de manera individual. Cada día se repartirán notas de lo visto en clase.

Contenido temático preliminar

  • Introducción al programa estadístico R.
    • Instalación de R y RStudio.
    • Operaciones elementales en R.
    • Estructuras de datos: listas, vectores, matrices, data-frames.
      • Opcional: Objetos de S.
    • Estructuras de control: condicionales y ciclos.
    • Funciones.
    • Simulación de números aleatorios.
  • Graficación.
    • Utilización de plot.
    • Introducción al paquete ggplot.
      • Gráficas más comunes: barras, puntos, histogramas, regresiones, mapas de calor, mapas.
      • Combinación de múltiples gráficos.
      • Opcional: Animaciones.
      • Opcional: Gráficos 3D.
  • Introducción al tidyverse.
    • Importación de datos en distintos formatos: txt, csv, Excel, Stata, etcétera.
    • Limpieza “clásica” de bases de datos mediante la función which.
    • Limpieza de bases de datos mediante tidyr y dplyr.
    • Opcional: Trabajo colaborativo mediante Github.
  • Introducción a cadenas de Markov
    • Teoría de las cadenas discretas de Markov (DTMC).
    • Planteamiento de procesos de salud pública mediante modelos de Markov para el análisis de política pública.
    • Simulación de cadenas de Markov en R mediante markovchain.
    • Programación de funciones para la simulación de modelos de Markov en R.
    • Opcional: Cadenas de Markov con vector de estados iniciales estocástico.
    • Opcional: Estimación de parámetros.
    • Opcional: Cadenas de Markov continuas (CTMC).
  • Generación de documentos dinámicos en R
    • Introducción a markdown para R.
    • Generación de documentos estáticos mediante rmarkdown.
    • Generación de documentos dinámicos.
    • Opcional: Graficación con plotly.
    • Opcional: Generación de dashboards.

Criterios de acreditación

Para acreditar el curso se requiere cumplir con un mínimo de asistencia del 80% de las sesiones (16 horas). La evaluación se realizará de la siguiente forma:

  • Ejercicios individuales en clase (60%).
  • Tareas (40%).
No hay traducción para la descripción de este curso / There is not description