BI8-Targeted Machine Learning for Big Data

Área: Bioestadística y paquetes de análisis estadístico Fecha: 16 a 19 de agosto, 2021
Duración:  20 horas Costo: $6,500.00 MN
Horario: Sesiones sincrónicas de Lunes a jueves horario por definir Sede: Virtual

Docentes

Da clic sobre el docente para ver su cápsula
Descripción:

LO QUE APRENDERÁS

Después de terminar este taller, los estudiantes podrán:

  1. Seguir el mapa del aprendizaje dirigido para traducir preguntas significativas de investigación en problemas realistas de estimación estadística y obtener la inferencia válida en términos de intervalos de confianza y valores-p.

  2. Evaluar de manera confiable el desempeño de un algoritmo de machine learning o comparar el desempeño de varios algoritmos aplicando esquemas de validación cruzada con el paquete origami R.

  3. Combinar algoritmos en un algoritmo mejorado de súper aprendiz utilizando el paquete sI3 R y explicar a los colegas, por qué esta combinación es mejor que seleccionar un algoritmo único.

  4. Estimar el efecto (causal potencialmente) de una intervención en una población usando el paquete tmle3 R.

REQUISITO INDISPENSABLE

Los alumnos invariablemente deben dominar el idioma inglés (entendimiento y lectura mínimo), toda vez que el material estará en ese idioma y los maestros es lengua nativa. La entrega de ejercicios será en ese idioma.

Habrá traducciones simultáneas solo en las sesiones sinrónicas.

PRESENTACIÓN DEL CURSO

Este taller le hará una presentación integral de la materia Aprendizaje dirigido para grandes datos (Targeted Learning for biga data) y del ecosistema del software “tlverse” correspondiente (https://github.com/tlverse). Targeted Learning o Aprendizaje Dirigido es un enfoque estadístico general que unifica los avances en la inferencia causal, teoría estadística y machine learning en un marco articulado para guiar planes de análisis estadísticos pre-especificados. Se enfatizarán los estimadores eficientes dirigidos de los efectos causales de una variedad de intervenciones (personalizadas, tratamiento versus control, exposiciones cambiantes).

Además de las sesiones de discusión, este taller incluirá actividades interactivas y ejercicios de programación en el “R” language con datos de salud pública. Después de este curso, los estudiantes podrán usar estas herramientas gratuitas para contestar científicamente, preguntas significativas relativas a la salud pública, medicina, economía y más.

Recomendamos que los participantes tengan conocimiento previo de (a través de cursos, experiencia laboral) estadística básica incluyendo los siguientes temas: variables de confusión “confounding”, distribuciones de probabilidad, intervalos de confianza, comprobación de hipótesis y regresión. Es esencial conocer el “R” language y este curso (https://www.coursera.org/learn/r-programming ) es un ejemplo del nivel de conocimiento que se espera.

METODOLOGÍA

El taller incluirá actividades que están al final de cada capítulo del Manual de Aprendizaje Dirigido. Los estudiantes tendrán acceso a estos materiales después del curso para que los puedan usar como referencia futura.

Description:

YOU WILL LEARN

After completing this workshop, students will be able to:

  1. Follow the roadmap of targeted learning to translate meaningful research questions into realistic statistical estimation problems, and obtain valid inference in terms of confidence intervals and p-values.
  2. Reliably assess the performance of a machine learning algorithm, or compare the performance of several algorithms by applying cross-validation schemes using the origami R package.
  3. Ensemble a combination of algorithms into an improved super learner algorithm using the sl3 R package, and explain why this combination is better than selecting a single algorithm to colleagues.

Estimate the (potentially causal) effect of an intervention on a population using the tmle3 R package.

REQUIREMENTS

We recommended participants already have prior knowledge of (through courses, job experience) basic statistics, including the following topics: confounding, probability distributions, confidence intervals, hypothesis testing, and regression. Familiarity with the “R” language will be essential, and this course (https://www.coursera.org/learn/r-programming) is an example of the level the familiarity that’s expected.

COURSE PRESENTATION

This workshop will provide a comprehensive introduction to the field of targeted learning for causal inference, and the corresponding “tlverse” software ecosystem (https://github.com/tlverse). Targeted Learning is a general statistical approach which unifies advances in causal inference, statistical theory, and machine learning into a cohesive framework to guide pre-specified statistical analysis plans. Emphasis will be placed on efficient targeted estimators of causal effects of a variety of interventions (personalized, treatment versus control, shifting exposures). 

In addition to discussion, this workshop will incorporate interactive activities and programming exercises in the “R” language with public health data. After this course, students will be able to use these free tools to answer scientifically meaningful questions in public health, medicine, economics, and more.

METODOLOGY

The workshop will include activities that are included at the end of each chapter of the Targeted Learning Handbook. Students will have access to these materials after the course, so they can use them as a reference in the future.

ACCREDITATION

Per confirm

Traducción / translate