01
| Área | Tema Específico | Objetivo | Dif. | Recursos | Proyecto / Validación | Criterio de Éxito |
|---|---|---|---|---|---|---|
| Python Científico |
NumPy: arrays n-dimensionales, broadcasting y operaciones vectorizadas
ndarray · dtype · reshape · broadcasting rules ·
np.einsum · slicing avanzado · operaciones in-place · comparación con loops Python |
Manipular datos numéricos a velocidad de C desde Python — NumPy es la capa sobre la que PyTorch, scikit-learn y prácticamente toda la ciencia de datos están construidos. | Fácil | Implementar regresión lineal desde cero con NumPy: multiplicación matricial, gradiente descendente y predicción; benchmark que demuestre la diferencia de velocidad vs loops Python puros. | PythonImplementación 100% con operaciones NumPy vectorizadas, sin loops Python en el training loop; speedup ≥50x sobre loop equivalente documentado con timeit; resultados idénticos a scikit-learn LinearRegression. |
|
| Matemáticas para ML |
Álgebra lineal aplicada: vectores, matrices, eigenvectors y SVD
Producto punto · transformaciones lineales · determinante · rango · eigenvalues/eigenvectors · SVD · PCA desde SVD · por qué importan los espacios de alta dimensión
NumPy (implementación práctica de las operaciones)
|
Entender la geometría detrás de los modelos: PCA reduce dimensiones porque proyecta sobre eigenvectors; las redes neuronales son composiciones de transformaciones lineales. La intuición matemática previene errores de arquitectura. | Medio | Implementar PCA desde cero con NumPy usando SVD; aplicarlo a un dataset de imágenes (MNIST); visualizar los primeros 10 componentes principales y reconstruir una imagen con k=50 componentes. | PythonPCA implementado con np.linalg.svd produce resultados idénticos a sklearn.decomposition.PCA; varianza explicada documentada por componente; reconstrucción visual coherente con k=50. |
|
| Matemáticas para ML |
Cálculo: derivadas parciales, regla de la cadena y gradiente descendente
Derivada e interpretación geométrica · gradiente · regla de la cadena · backpropagation intuitiva · learning rate · convexidad · saddle points
Álgebra lineal (el gradiente es un vector en el espacio de parámetros)
|
Comprender por qué el entrenamiento de redes neuronales funciona: el gradiente descendente es geometría diferencial aplicada, y sin esta intuición no se puede diagnosticar por qué un modelo no converge. | Medio | Implementar autodiferenciación escalar desde cero (micro-autograd estilo Karpathy): clase Value con +, *, tanh, backward pass y grafo computacional. Entrenar una red de 2 capas con este engine. |
PythonGradientes correctos verificados contra diferencias finitas (tolerancia 1e-5); red de 2 capas converge en el dataset XOR; grafo computacional visualizado con graphviz. | |
| Estadística |
Probabilidad y estadística: distribuciones, estimación y tests de hipótesis
Distribuciones (normal, Bernoulli, Poisson) · likelihood · MLE · Bayes theorem · p-value · intervalos de confianza · correlación vs causalidad · CLT
Álgebra lineal + Cálculo (fundamentos matemáticos compartidos)
|
Evaluar modelos con rigor estadístico y no caer en métricas engañosas: saber cuándo un modelo es realmente mejor o sólo tiene suerte con el split de test — habilidad crítica en equipos como Google y Netflix. | Medio | Análisis estadístico de resultados A/B de dos modelos de recomendación: calcular power del test, p-value con bootstrap, intervalo de confianza del lift y determinar si el resultado es significativo con n=1000 usuarios. | PythonBootstrap con scipy.stats; conclusión justificada estadísticamente; análisis de qué tamaño de muestra sería necesario para detectar un lift del 2%; sin confundir significancia estadística con relevancia práctica. |
|
| EDA y Datos |
Pandas, Polars y visualización: EDA sistemática de datasets reales
pandas I/O · groupby · merge · EDA checklist · distribuciones · outliers · correlaciones · matplotlib/seaborn · plotly interactivo · missing values strategy
NumPy (base de pandas) + Estadística (interpretación de distribuciones)
|
Conocer profundamente los datos antes de modelar — "garbage in, garbage out" es el axioma más citado en producción de ML y el 60-70% del tiempo real de un MLE se gasta en datos. | Fácil | EDA completa del dataset Titanic o House Prices (Kaggle): distribuciones de todas las columnas, matriz de correlación, análisis de missing values con estrategia de imputación justificada, 5 hipótesis de features nuevos. | PythonEDA en Jupyter Notebook con conclusiones escritas bajo cada gráfico; hipótesis de features justificadas con evidencia visual; missing values tratados con estrategia motivada por el tipo de dato, no por defecto. | |
| ML Clásico Intro |
scikit-learn: regresión, clasificación, validación y primeras métricas
LinearRegression · LogisticRegression · KNN · DecisionTree · train/val/test split · cross-validation · accuracy, precision, recall, F1, ROC-AUC · confusion matrix
EDA + Estadística (interpretación de métricas) + Álgebra lineal (geometría de clasificadores)
|
Resolver problemas de predicción con los algoritmos más utilizados en producción y evaluar los resultados con métricas que reflejen el objetivo real de negocio — no sólo accuracy. | Fácil | Pipeline completo en scikit-learn para un dataset de clasificación bancaria (fraud detection): EDA → preprocessing → 3 modelos comparados → evaluación con precision-recall curve → justificación del modelo ganador. | PythonJustificación de por qué ROC-AUC no es suficiente para fraude (dataset desbalanceado); precision-recall curve como métrica principal; elección del threshold de clasificación justificada por el costo del negocio. | |
| Entorno de Trabajo |
Git, entornos reproducibles y Jupyter disciplinado
Conventional Commits · venv / uv · pyproject.toml · nbstripout · papermill para parametrizar notebooks · nbconvert · DVC intro · pre-commit hooks
Python + EDA (los notebooks que se versionan)
|
Versionar experimentos y código de ML de forma reproducible — la queja más frecuente en equipos de ML es "el modelo de hace 3 meses ya no se puede reproducir", y este tema lo previene desde el día uno. | Fácil | Proyecto con 3 experimentos versionados con DVC: datos en S3, código en Git, métricas trackeadas; nbstripout en pre-commit elimina outputs de notebooks antes de commit; entorno reproducible en uv sync. |
Cualquier commit reproduce exactamente los mismos resultados con dvc repro; notebooks no tienen outputs en Git; colega puede clonar y reproducir el mejor experimento con 2 comandos. |
|
| Feature Engineering |
Feature engineering: encoding, scaling, imputación y selección
OneHotEncoding · OrdinalEncoding · target encoding · StandardScaler · RobustScaler · SimpleImputer · KNNImputer · VarianceThreshold · mutual_info · pipelines de sklearn
EDA (qué features existen) + scikit-learn básico (donde se aplican)
|
Construir pipelines de preprocesamiento reproducibles que transformen datos crudos en features que los modelos puedan aprender eficientemente — la etapa que más impacto tiene en el rendimiento final de cualquier modelo. | Medio | Pipeline completo con sklearn.Pipeline + ColumnTransformer que procesa columnas numéricas y categóricas diferenciadamente, sin data leakage; el mismo pipeline se serializa con joblib y sirve predicciones en producción. |
PythonSin data leakage (scaler ajustado sólo en train, no en val/test); pipeline serializado con joblib.dump y recargado produce predicciones idénticas; set_output(transform='pandas') para trazabilidad. |
|
| Competición y Portfolio |
Kaggle: competiciones reales, kernels y construcción de portfolio
Leaderboard strategy · public vs private LB · cross-validation local vs LB · ensembles básicos · aprender de top kernels · documentar aprendizajes
Todo el nivel Trainee — punto de síntesis práctico
|
Aplicar todo lo aprendido en competiciones con datos reales y sin respuesta conocida — la forma más efectiva de desarrollar intuición práctica para ML según MLEs de Airbnb, Netflix y Google. | Medio | Participar en 2 competiciones Kaggle (una tabular, una de texto o imagen); documentar en un post el análisis de errores del modelo y qué habría hecho diferente; alcanzar top 30% en al menos una. | PythonTop 30% en al menos una competición; post-mortem público con análisis de errores, qué features funcionaron y cuáles no, y lecciones sobre el gap LB público vs privado. |
02
| Área | Tema Específico | Objetivo | Dif. | Recursos | Proyecto / Validación | Criterio de Éxito |
|---|---|---|---|---|---|---|
| Ensemble Methods |
XGBoost, LightGBM y CatBoost: gradient boosting en producción
Gradient boosting intuición · parámetros clave (n_estimators, max_depth, learning_rate) · early stopping · feature importance · SHAP values · LightGBM vs XGBoost en velocidad
scikit-learn (ML clásico) + Feature Engineering (pipelines de preprocesamiento)
|
Dominar los algoritmos de mayor rendimiento en datos tabulares en 2026 — XGBoost/LightGBM ganan el 70% de las competiciones Kaggle tabulares y son el modelo de producción en Airbnb, Uber y MercadoLibre para pricing y fraud. | Medio | Modelo de churn prediction con LightGBM: early stopping, tuning de 5 hiperparámetros con Optuna, SHAP values para los top-10 features; comparar vs LogisticRegression en velocidad de inferencia y AUC-PR. | PythonEarly stopping evita overfitting verificado con curva train/val; SHAP waterfall plot para una predicción individual; LightGBM ≥5% mejor en AUC-PR que baseline; latencia de inferencia de 1000 registros <50ms. | |
| Hyperparameter Tuning |
Optuna: búsqueda bayesiana, pruning y estudios persistentes
TPE sampler · MedianPruner · study persistence en SQLite · visualizaciones de importancia de parámetros · integración con LightGBM, PyTorch · paralelización
Ensemble Methods (los modelos que se optimizan) + Git/reproducibilidad (estudios versionados)
|
Automatizar la búsqueda de hiperparámetros de forma eficiente con pruning que abandona trials malos temprano — lo que usa Spotify y Netflix en sus pipelines de entrenamiento automatizado. | Medio | Estudio Optuna con MedianPruner para el modelo de churn; persistir el estudio en SQLite para reanudar búsqueda; demostrar que el mejor trial supera el modelo del ejercicio anterior; visualizar importancia de hiperparámetros. | PythonPruning reduce el número de evaluaciones completas en ≥40%; estudio reanudable tras kill del proceso; mejora documentada vs tuning manual; gráfico de importancia de parámetros exportado. | |
| PyTorch Fundamentos |
PyTorch: tensores, autograd, módulos y training loop manual
torch.Tensor · autograd y grafo computacional · nn.Module · DataLoader · Dataset · optimizadores (Adam, AdamW) · learning rate schedulers · GPU con CUDACálculo (backprop que ejecuta autograd) + NumPy (transición natural a tensores) + Álgebra lineal (operaciones de red)
|
Implementar y entrenar redes neuronales con el framework dominante en investigación y producción de ML en 2026 — PyTorch tiene el 55%+ del mercado de producción y es el estándar en Google DeepMind, Meta AI y OpenAI. | Medio | Training loop completo en PyTorch para clasificación de imágenes (CIFAR-10): custom Dataset, DataLoader con augmentations, MLP de 3 capas, training loop con val loss y early stopping; mover a GPU con CUDA y medir speedup. | PythonTraining loop con gradient clipping; val loss monitorizada y early stopping funcional; GPU speedup ≥5x documentado; modelo guardado y recargado con state_dict() produciendo predicciones idénticas. |
|
| Deep Learning |
CNNs para computer vision: arquitecturas, transfer learning y fine-tuning
Convolución · pooling · BatchNorm · Dropout · ResNet · EfficientNet · torchvision · torchvision.transforms v2 · fine-tuning de capas específicas · gradcam
PyTorch (training loop) + Álgebra lineal (intuición de la convolución como producto punto)
|
Aplicar transfer learning para resolver problemas de visión con decenas de horas de entrenamiento en lugar de semanas — técnica que usa Netflix para clasificación de thumbnails y Airbnb para moderación de imágenes. | Medio | Fine-tuning de ResNet-50 preentrenado en ImageNet para un dataset de 5 clases custom; congelar las primeras capas, entrenar sólo el head, luego unfreezing progresivo; GradCAM para visualizar qué regiones activan la predicción. | PythonFine-tuning supera training from scratch en ≥15% de accuracy con mismo presupuesto de epochs; GradCAM muestra regiones semánticamente coherentes; sin data leakage en augmentations (sólo en train, no en val). | |
| NLP Fundamentos |
NLP clásico y embeddings: TF-IDF, Word2Vec y sentence-transformers
Tokenización · stop words · TF-IDF · n-gramas · Word2Vec / GloVe · sentence-transformers · similaridad coseno · búsqueda semántica · Bag of Words
Álgebra lineal (similaridad coseno, espacio vectorial) + PyTorch (embeddings como matrices)
|
Representar texto como vectores y resolver problemas de clasificación, búsqueda y clustering semántico — fundamento de los sistemas de búsqueda de Spotify, recomendaciones de Netflix y moderación de Meta. | Medio | Motor de búsqueda semántica sobre 10k artículos de Wikipedia: indexar embeddings de sentence-transformers en FAISS; comparar TF-IDF vs embeddings en calidad de resultados para queries ambiguas; latencia <100ms por query. | PythonBúsqueda semántica recupera documentos contextualmente relevantes que TF-IDF no encontraría; latencia P95 <100ms con FAISS IndexFlatIP; índice serializado y recargable sin re-embeddear. | |
| MLflow |
MLflow: experiment tracking, model registry y reproducibilidad
mlflow.log_param · mlflow.log_metric · artifact logging · Model Registry (Staging/Production) · mlflow.pytorch · comparación de runs · autologgingPyTorch (modelos a trackear) + XGBoost/LightGBM (experimentos clásicos) + Git (tracking complementario)
|
Trackear todos los experimentos para poder comparar, reproducir y promover modelos a producción — estándar creado por Databricks y adoptado por Airbnb, Shopify y cientos de equipos de ML. | Fácil | Refactorizar los experimentos anteriores para que todos loggeen a MLflow: parámetros, métricas por epoch, artefactos (curvas ROC, confusion matrix); promover el mejor modelo al Model Registry en estado "Production". | PythonCualquier run reproducible con mlflow.load_model(run_id); comparación de 10+ runs en MLflow UI visible; modelo en Registry con descripción, tags de versión y transition documentada. |
|
| Serving Básico |
APIs de modelos con FastAPI, Pydantic y Docker
Endpoint de inferencia · validación con Pydantic · async batch inference · health check · /metrics endpoint · imagen Docker <1GB · latencia de inferencia · warm-up
PyTorch (modelo a servir) + MLflow (modelo en registry) + Feature Engineering (pipeline de preprocessing)
|
Exponer modelos como APIs productizadas con validación de entrada, manejo de errores y containerización — la brecha más común entre un data scientist y un ML engineer según hiring managers de FAANG en 2025. | Medio | API FastAPI que carga el modelo de churn desde MLflow Registry, valida el input con Pydantic, infiere y retorna predicción + SHAP explanation; imagen Docker <1.5GB; latencia P95 <200ms; test de carga con Locust. | PythonInput inválido retorna 422 con mensaje claro; model warm-up en startup event; latencia P95 <200ms bajo 50 usuarios concurrentes; imagen Docker reproducible en cualquier máquina con Docker instalado. | |
| Evaluación Avanzada |
Evaluación robusta: calibración, fairness y análisis de errores
Calibration curve · Platt scaling · isotonic regression · fairness metrics (equalized odds, demographic parity) · error analysis slicing · Shapley values · modelo vs baseline
Estadística (interpretación correcta) + SHAP (ya introducido) + scikit-learn pipelines
|
Evaluar modelos como un ingeniero de producción, no como un competidor de Kaggle: calibración, sesgos por grupo demográfico y análisis sistemático de dónde falla el modelo — requisito en Meta AI y Google para cualquier modelo que toca usuarios. | Difícil | Auditoría del modelo de churn: calibration curve (¿el 70% predicho es realmente 70% de churn?); equalized odds por segmento de cliente; error analysis por valor de features; reporte ejecutivo de hallazgos. | PythonCalibration curve con Expected Calibration Error (ECE) <0.05 tras Platt scaling; fairness metrics para ≥2 grupos demográficos; los errores más costosos identificados por su impacto de negocio, no sólo por frecuencia. |
03
| Área | Tema Específico | Objetivo | Dif. | Recursos | Proyecto / Validación | Criterio de Éxito |
|---|---|---|---|---|---|---|
| Transformers |
Arquitectura Transformer: attention, positional encoding y BERT/GPT
Self-attention · multi-head attention · scaled dot-product · positional encoding · encoder-only (BERT) vs decoder-only (GPT) vs encoder-decoder (T5) · KV cache
PyTorch (módulos base) + NLP Fundamentos (embeddings que el Transformer procesa) + Álgebra lineal (attention como producto de matrices)
|
Comprender la arquitectura que domina el 95% del ML moderno — sin entender attention, es imposible elegir el modelo correcto, hacer fine-tuning efectivo o diagnosticar comportamientos inesperados en producción. | Difícil | Implementar un Transformer decoder-only (GPT estilo) desde cero en PyTorch: multi-head attention, positional encoding y training loop en un dataset de texto pequeño; demostrar que genera texto coherente tras 1000 steps. | PythonImplementación sin copiar código de HuggingFace; loss converge (perplexity baja) en el dataset de entrenamiento; KV cache implementado y demostrado que reduce latencia de inferencia en ≥3x. | |
| Hugging Face |
Hugging Face Transformers: inference, fine-tuning completo y Trainer API
AutoModel · AutoTokenizer · pipeline() · Trainer + TrainingArguments · datasets library · evaluate · Model Hub · tokenizer rápido vs lentoArquitectura Transformer + PyTorch (base del framework) + MLflow (tracking de fine-tuning)
|
Usar el ecosistema HuggingFace para acceder a 500k+ modelos pre-entrenados y fine-tunearlos eficientemente — estándar en Spotify (LLaMA fine-tuning para recomendaciones), Meta y prácticamente toda la industria en 2026. | Medio | Fine-tuning de BERT para clasificación de sentimiento en reviews de productos en español; Trainer API con evaluación cada epoch; modelo subido al HuggingFace Hub con model card completa y demo en Spaces. | PythonModelo en HF Hub con model card que documenta dataset, métricas y limitaciones; F1 ≥0.88 en test set; demo funcional en HuggingFace Spaces accesible públicamente; entrenamiento reproducible con seed fijado. | |
| Parameter-Efficient FT |
LoRA y QLoRA: fine-tuning eficiente de LLMs grandes
Low-Rank Adaptation · rank r y alpha · target modules · QLoRA con bitsandbytes 4-bit · PEFT library · merge de adaptadores · comparación vs full fine-tuning en VRAM y calidad
HuggingFace Transformers (modelo base) + Álgebra lineal (descomposición de matrices en LoRA) + GPU/CUDA
|
Fine-tunear modelos de 7B+ parámetros en una sola GPU consumer con QLoRA — técnica que usa Spotify para adaptar LLaMA a recomendaciones musicales y que hace viable el LLM fine-tuning sin infraestructura masiva. | Difícil | QLoRA fine-tuning de Mistral-7B en un dataset de instrucciones de dominio específico con una GPU de 24GB; comparar vs full fine-tuning en calidad (ROUGE, BLEU) y costo (VRAM, tiempo); merge del adaptador y publicación en HF Hub. | PythonQLoRA usa <16GB VRAM vs 80GB+ para full fine-tuning; calidad dentro del 5% de full fine-tuning en el benchmark elegido; adaptador mergeado correctamente y cargable sin PEFT instalado; training script reproducible. | |
| RAG |
RAG: Retrieval-Augmented Generation con LangChain o LlamaIndex
Chunking strategies · embedding models · FAISS / Chroma / Qdrant · reranking con cross-encoder · query transformation · HyDE · evaluación con RAGAS · hallucination detection
NLP Fundamentos (embeddings) + HuggingFace (LLM que genera) + Serving básico (API que expone el RAG)
|
Construir sistemas que aumenten LLMs con conocimiento privado y actualizado — el patrón de arquitectura de IA más usado en empresas en 2026 según surveys de LLMOps, desde startups hasta Google y Meta. | Difícil | RAG sobre documentación técnica interna (PDFs/Markdown): chunking semántico, embeddings con text-embedding-3-small, Qdrant como vector store, reranking con cross-encoder; evaluación con RAGAS (faithfulness >0.82, relevancy >0.80). |
PythonRAGAS faithfulness >0.82 en dataset de 50 preguntas; reranking mejora P@5 en ≥15% vs sin reranking; latencia P95 <3s end-to-end; pipeline de evaluación ejecutable en CI para detectar regresiones. | |
| Sistemas de Recomendación |
Recomendadores: collaborative filtering, embeddings y two-tower models
Matrix factorization · ALS · implicit feedback · BPR loss · two-tower (query + item tower) · in-batch negatives · ANN search (FAISS) · offline vs online metrics
Álgebra lineal (factorización de matrices) + PyTorch (two-tower con embeddings) + NLP Fundamentos (embeddings semánticos)
|
Diseñar y entrenar sistemas de recomendación end-to-end — el caso de uso de ML de mayor impacto económico en Spotify (Discover Weekly), Netflix (recomendación de contenido) y Airbnb (búsqueda de alojamientos). | Difícil | Two-tower model en PyTorch para recomendación de películas (MovieLens 25M): user tower + item tower entrenados con in-batch negatives; servir con FAISS ANN; medir Recall@10 vs ALS; latencia de retrieval <10ms para 1M items. | PythonTwo-tower supera ALS en Recall@10 en ≥8%; FAISS IndexIVFFlat con >0.95 recall@exact; latencia <10ms para retrieval; embeddings de usuario actualizables sin re-entrenar el modelo completo. | |
| MLOps Pipeline |
Kubeflow Pipelines o ZenML: pipelines ML reproducibles y CI/CD
DAG de pasos ML · containerización de componentes · artefactos versionados · pipeline caching · triggers automáticos · integración con MLflow · CI/CD para modelos
Docker (cada componente es un contenedor) + MLflow (tracking integrado) + Git (versionado del pipeline)
|
Automatizar el ciclo completo de entrenamiento-evaluación-despliegue para que un cambio de datos o código lance un nuevo modelo en producción sin intervención manual — práctica estándar en Google (TFX) y Airbnb. | Difícil | Pipeline ZenML de 5 pasos (ingest → preprocess → train → evaluate → deploy) para el modelo de churn; retrain automático si nuevos datos superan el 10% de drift; despliegue bloqueado si AUC-PR baja más del 2%. | PythonPipeline reproducible desde cualquier commit con zenml pipeline run; caching evita re-entrenar si datos no cambian; quality gate bloquea deploy con evidencia en MLflow; runs visibles en ZenML dashboard. |
|
| Model Serving |
Model serving: Ray Serve, TorchServe y batching dinámico
Ray Serve deployments · dynamic batching · réplicas automáticas · TorchServe handler personalizado · health checks · autoscaling basado en carga · GPU sharing
FastAPI básico (conceptos de API) + Docker + PyTorch (modelos a servir) + Sistemas de recomendación (serving de embeddings)
|
Servir modelos con frameworks diseñados para ML: batching dinámico que agrupa requests para maximizar el throughput de GPU — práctica que usa Airbnb con Ray Serve para sus modelos de recomendación de viajes. | Difícil | Servir el two-tower model con Ray Serve: dynamic batching con max_batch_size=64, autoscaling de 1 a 5 réplicas bajo carga, health check que verifica la carga del modelo; throughput ≥1000 req/s en prueba de carga. | PythonThroughput ≥1000 req/s con batching vs <200 sin batching (documentado); autoscaling reactivo en <60s; 0 requests fallidos durante el scale-up; latencia P99 <50ms con GPU. | |
| A/B Testing y Experimentación |
A/B testing para modelos: diseño, potencia estadística y análisis
Diseño del experimento · sample size · power analysis · p-value · CUPED (Controlled-experiment Using Pre-Experiment Data) · guardrail metrics · online vs offline metrics gap
Estadística (fundamentos de hipótesis) + Sistemas de Recomendación (modelo a probar) + Serving (infraestructura de experimentos)
|
Medir el impacto real de los modelos en métricas de negocio con rigor estadístico — Airbnb, Netflix y Spotify tienen plataformas enteras de experimentación porque saben que la mejora offline no siempre se traduce en mejora online. | Difícil | Diseñar un experimento A/B para el recomendador: calcular sample size para detectar 1% de lift en CTR con 80% de potencia; simular el análisis con datos sintéticos aplicando CUPED; detectar si existe heterogeneidad de tratamiento por segmento. | PythonCUPED reduce la varianza en ≥20% vs análisis simple (demostrado en simulación); análisis de heterogeneidad identifica al menos 1 segmento con efecto diferencial significativo; reporte con conclusión accionable para el negocio. | |
| Observabilidad de Modelos |
Model monitoring: data drift, concept drift y alertas en producción
Evidently AI · PSI (Population Stability Index) · KS test · feature drift · prediction drift · concept drift · alertas en Grafana · retraining triggers automáticos
Serving (modelo en producción) + Estadística (tests de distribución) + MLOps pipeline (trigger de retraining)
|
Detectar automáticamente cuando un modelo en producción está degradándose antes de que el negocio lo note — la causa más frecuente de pérdida de valor silenciosa en sistemas de ML según el ML Engineering Survey 2025. | Medio | Dashboard de monitoreo con Evidently: drift report semanal para las top-10 features, alerta si PSI >0.2 en alguna feature crítica, prediction drift detectado automáticamente; alert en Slack dispara pipeline de retraining. | PythonDrift simulado manualmente activa alerta en <24h; PSI calculado correctamente para variables categóricas y continuas; pipeline de retraining lanzado automáticamente sin intervención humana; historial de alertas en Grafana. |
04
| Área | Tema Específico | Objetivo | Dif. | Recursos | Proyecto / Validación | Criterio de Éxito |
|---|---|---|---|---|---|---|
| Distributed Training |
Entrenamiento distribuido: DDP, FSDP y DeepSpeed ZeRO
Data Parallelism ·
torch.distributed · DDP (DistributedDataParallel) · FSDP (Fully Sharded Data Parallel) · DeepSpeed ZeRO Stage 1/2/3 · gradient checkpointing · mixed precision (bf16/fp16)PyTorch (training loops avanzados) + LoRA/QLoRA (qué se entrena) + GPU/CUDA + Kubernetes (cluster donde corren los jobs)
|
Entrenar modelos de decenas de miles de millones de parámetros en múltiples GPUs eficientemente — habilidad que distingue a los MLEs de Airbnb (12B params en 8×A100) y Meta AI (LLaMA) del resto. | Experto | Fine-tuning de un modelo de 13B parámetros con FSDP + DeepSpeed ZeRO-3 en un cluster de 4 GPUs; documentar la reducción de VRAM por GPU, MFU (Model FLOPS Utilization) y throughput en tokens/s vs configuración de 1 GPU. | PythonMFU >40% (referencia: GPT-3 fue entrenado con ~45% MFU); VRAM por GPU reducida ≥4x con ZeRO-3 vs no sharding; training script fault-tolerant con checkpointing cada 500 steps; resultado equivalente al fine-tuning en 1 GPU. | |
| RLHF y Alignment |
RLHF, DPO e instruction tuning: alignment de LLMs
Instruction tuning (SFT) · RLHF con PPO · DPO (Direct Preference Optimization) · reward model · Constitutional AI · TRL library · dataset de preferencias · Alpaca / ShareGPT formats
HuggingFace Transformers + LoRA/QLoRA (efficiency del training) + Evaluación robusta (métricas de alineamiento)
|
Alinear LLMs para seguir instrucciones humanas con seguridad — el proceso que convirtió GPT-3 en ChatGPT, desarrollado por OpenAI y adoptado por Meta (LLaMA 2 Chat) y Anthropic para sus modelos de producción. | Experto | Pipeline DPO completo en TRL: SFT de LLaMA-3.1-8B sobre 10k instrucciones → dataset de preferencias con 3k comparaciones → DPO training → evaluación con MT-Bench y win-rate vs modelo base en 100 prompts. | PythonWin-rate del modelo DPO >65% vs modelo base en evaluación ciega (LLM-as-judge con GPT-4o); MT-Bench score ≥6.5/10; regression en tareas de seguimiento de instrucciones <5%; pipeline reproducible con TRL. | |
| LLM Inference |
vLLM, TGI y optimización de inferencia de LLMs: throughput y latencia
PagedAttention (vLLM) · continuous batching · speculative decoding · KV cache management · cuantización GPTQ/AWQ · flash attention 2 · tensor parallelism para serving
Transformers (KV cache) + Distributed Training (tensor parallelism) + Ray Serve (orquestación de serving)
|
Servir LLMs a escala con el throughput y la latencia que demanda producción — vLLM (Berkeley) es el estándar de facto que usa Spotify para sus modelos de recomendación y la mayoría de APIs de LLM. | Experto | Benchmark de serving de Mistral-7B: vLLM vs TGI vs TorchServe con 50 usuarios concurrentes; cuantizar el modelo a AWQ 4-bit y medir la degradación de calidad vs speedup; documentar costo por millón de tokens para cada configuración. | PythonvLLM ≥3x mayor throughput que TorchServe naive en test de carga; AWQ 4-bit reduce VRAM en ≥50% con <3% de degradación en MMLU; benchmark script reproducible con locust; costo por token documentado. |
|
| Optimización de Modelos |
Model compression: quantization, pruning, distillation y ONNX
Post-training quantization (PTQ) · Quantization-aware training (QAT) · structured vs unstructured pruning · knowledge distillation · ONNX export · TensorRT · latencia en edge/CPU
PyTorch avanzado + Evaluación robusta (medir degradación) + vLLM/serving (objetivo de optimización)
|
Reducir el tamaño y la latencia de modelos para deployment en infraestructura restringida — las técnicas que usa Google para sus modelos en Android y Meta para modelos en dispositivos móviles con latencia <10ms. | Experto | Comprimir el modelo de churn (o un ResNet): PTQ INT8 con ONNX Runtime, knowledge distillation desde el modelo grande, medir en CPU: accuracy, latencia P99 y tamaño del artefacto para cada técnica en tabla comparativa. | PythonINT8 ONNX ≥3x más rápido que PyTorch FP32 en CPU; degradación de accuracy <1.5%; distillation supera PTQ en quality-speed tradeoff documentado; artefacto ONNX serializable y deployable sin PyTorch instalado. | |
| LLM Evaluation |
Evaluación de LLMs: benchmarks, LLM-as-judge y red-teaming
MMLU · HumanEval · MT-Bench · LM Evaluation Harness · LLM-as-judge (GPT-4o) · red-teaming sistemático · jailbreaking categories · bias y toxicidad · TruthfulQA
RLHF/DPO (modelos a evaluar) + Evaluación robusta Junior (framework de evaluación extendido) + RAG (evaluación con RAGAS)
|
Evaluar LLMs con rigor para comunicar capacidades y limitaciones al negocio con honestidad — habilidad crítica en cualquier equipo que despliega modelos que tocan usuarios, exigida en OpenAI, Anthropic y Google DeepMind. | Experto | Evaluación completa del modelo DPO: MMLU, HumanEval, TruthfulQA con LM Eval Harness; red-teaming con 50 prompts adversariales clasificados por categoría OWASP LLM Top 10; model card con todas las métricas y limitaciones documentadas. | PythonEvaluación reproducible con LM Eval Harness en un script; red-team identifica al menos 2 categorías con tasa de fallo >20%; model card con métricas de fairness, conocimiento de corte y casos de uso no recomendados. | |
| ML System Design |
Diseño de sistemas ML: ranking, búsqueda y recomendación a escala
Candidate retrieval → ranking → reranking · multi-stage pipelines · feature freshness · cold start · online learning · embedding serving con ANN · trade-offs latencia/calidad
Sistemas de Recomendación (base) + vLLM/serving (infraestructura) + Feature Stores (Feast) + A/B Testing (medición de impacto)
|
Diseñar sistemas de recomendación y búsqueda que escalen a millones de usuarios con latencia <100ms — arquitectura multi-stage que usan Spotify (Discover Weekly), Netflix (homepage) y Airbnb (búsqueda de alojamientos). | Experto | Diseñar el sistema de recomendación de Spotify (Discover Weekly) a escala de 600M usuarios: retrieval (two-tower) → pre-ranking → ranking → reranking con diversity; documentar SLAs, feature freshness y estrategia de cold-start; ADR con arquitectura y alternativas. | Diagrama completo con todos los componentes y flujos; latencia SLA de <100ms para recomendación online justificado por etapas; estrategia de cold-start para nuevos usuarios/items; ADR con análisis de 2 alternativas de arquitectura descartadas. | |
| Responsible AI |
Responsible AI: interpretabilidad, bias audits y privacy-preserving ML
SHAP global · LIME · anchors · fairness metrics (demographic parity, equalized odds) · differential privacy (DP-SGD) · federated learning conceptos · model cards · EU AI Act compliance
Evaluación robusta Junior + LLM Evaluation (red-teaming) + Data Governance (DE roadmap — punto de contacto)
|
Construir y auditar sistemas de ML que sean explicables, justos y privacy-preserving — requisito legal bajo el EU AI Act 2026 para sistemas de "alto riesgo" y estándar ético en Google, Meta y Microsoft. | Difícil | Auditoría completa de un modelo de crédito: SHAP global, fairness audit por género y etnia, DP-SGD training con epsilon=1.0 y comparación de accuracy; model card con todas las limitaciones; clasificación EU AI Act del sistema. | PythonFairness audit con equalized odds para ≥2 grupos protegidos; DP-SGD con privacy budget documentado y trade-off de accuracy cuantificado; model card aprobable para sistema de crédito EU AI Act high-risk. | |
| GPU Infrastructure |
GPU infrastructure: Kubernetes + KubeRay, spot instances y cost optimization
KubeRay operator · Ray clusters elásticos · spot instance fault-tolerance · NVIDIA GPU Operator · priority queues · GPU time-sharing · costo por experimento · SageMaker vs self-managed
Kubernetes (orquestación) + Distributed Training (workloads GPU) + Ray Serve + FinOps (costo)
|
Operar infraestructura de GPU eficientemente para balancear velocidad de iteración con costo — un cluster de A100 mal configurado puede costar $50k/mes extra según benchmarks de Airbnb en su plataforma de ML con Ray. | Experto | Cluster KubeRay en AWS con spot instances para training y on-demand para serving; checkpointing cada 100 steps para tolerancia a interrupciones de spot; dashboard de costo por experimento; reducción ≥40% del bill de GPU vs on-demand puro. | PythonTraining reanuda desde checkpoint automáticamente tras interrupción de spot; costo por experimento visible en dashboard Grafana; reducción ≥40% documentada con factura AWS; 0 jobs perdidos en 30 días de operación. |
05
| Área | Tema Específico | Objetivo | Dif. | Recursos | Proyecto / Validación | Criterio de Éxito |
|---|---|---|---|---|---|---|
| Foundation Models |
Pre-training de LLMs: scaling laws, arquitecturas modernas y datos de entrenamiento
Chinchilla scaling laws · Llama 3 / Mistral / Qwen arquitecturas · tokenización (BPE, SentencePiece) · curación de datos de pre-training · deduplication · curriculum learning · Megatron-LM
Distributed Training (infraestructura base) + RLHF/DPO (pipeline post-training) + Data Engineering (pipelines de datos de training)
|
Entender y eventualmente dirigir el pre-training de modelos propios — habilidad que separa a los ingenieros de OpenAI, Google DeepMind y Meta AI del resto, y que muchas empresas large-scale necesitan para modelos de dominio específico. | Experto | Pre-training de un modelo de 1.3B parámetros desde cero sobre un corpus de dominio específico (código, legal o médico): diseñar el data mixture con Chinchilla scaling laws, tokenizer propio con SentencePiece, training con Megatron-LM en 8 GPUs. | PythonPerplexity en dominio objetivo supera LLaMA-3.1-8B en ≥15%; loss curve sin spikes anómalos; training cost documentado con estimación de cuánto costaría escalar a 7B con los mismos datos; data mixture justificado con ablation. | |
| Modelos Multimodales |
Modelos visión-lenguaje: CLIP, LLaVA y sistemas multimodales de producción
CLIP contrastive training · vision encoder + LLM connector · LLaVA architecture · image-text instruction tuning · multimodal RAG · visual grounding · Qwen-VL · Gemini-style architecture
Transformers (arquitectura base) + CNNs (vision encoder) + RLHF (alignment multimodal) + Foundation Models
|
Diseñar y operar sistemas que procesen imagen y texto conjuntamente — la dirección dominante de los modelos de producción en 2026 desde Google (Gemini) hasta Meta (Llama 3.2 Vision) y Airbnb (moderación de fotos). | Experto | Sistema de moderación de imágenes multimodal: CLIP para retrieval de imágenes similares a ejemplos de política + LLaVA para clasificación detallada con justificación en texto; pipeline en producción sirviendo 10k imágenes/día. | PythonPrecision@1 de CLIP retrieval >0.90 en dataset de evaluación de moderación; LLaVA justificación coherente con la predicción en >85% de casos evaluados por humano; latencia pipeline completo <2s P95. | |
| Agentes y Sistemas Autónomos |
Sistemas agenticos: tool use, multi-agent y producción con LangGraph
Function calling · tool use · ReAct · LangGraph state machines · multi-agent coordination · memory (short/long-term) · observabilidad de agentes · safety en entornos agenticos
RAG (recuperación de conocimiento) + LLM Evaluation (red-teaming de agentes) + LLM Inference (latencia de cada step) + Responsible AI
|
Arquitectar sistemas de agentes autónomos que ejecuten workflows complejos de forma confiable — el paradigma de IA más demandado en 2026 desde customer support hasta generación de código en GitHub Copilot y Devin. | Experto | Agente de análisis financiero con LangGraph: tools para consultar DBs, ejecutar código Python, buscar noticias y generar reportes; human-in-the-loop para decisiones de alto impacto; tasa de resolución autónoma >75% en dataset de eval de 100 tareas. | PythonTasa de resolución autónoma >75% en eval dataset; human-in-the-loop activa correctamente ante incertidumbre alta; 0 tool calls innecesarios (eficiencia del agente medida); traza completa del grafo disponible con OpenTelemetry. | |
| ML Platform Engineering |
ML Platform: self-serve experimentation, model catalog y paved roads
Internal ML platform · experimento self-serve para DS y MLE · model catalog con model cards · paved roads para fine-tuning · Backstage para ML · training job templates · developer experience
MLOps Pipeline + GPU Infrastructure + Model Registry (MLflow) + Feature Stores
|
Construir la plataforma de ML interna que permite a cualquier data scientist lanzar un experimento, fine-tunar un LLM y desplegar un modelo en producción sin intervención del equipo de plataforma — escalabilidad sub-lineal del impacto. | Experto | Template en la plataforma ML que provisiona: repo con pipeline ZenML, tracking MLflow, feature store conectado, model card template y endpoint de serving en Ray Serve; DS sin conocimiento de infra puede lanzar primer experimento en <1 día. | Tiempo de primer experimento de días a <1 día; adopción >75% de los equipos de DS/MLE sin soporte del platform team; developer NPS de la plataforma >35; 0 experimentos sin tracking (enforced por CI). | |
| AI Safety a Escala |
AI Safety en producción: red-teaming sistemático, guardrails y audit trails
Red-teaming con Garak / PyRIT · Constitutional AI (Anthropic) · guardrails con NVIDIA NeMo / Guardrails AI · prompt injection detection · model audit trails · EU AI Act high-risk compliance
LLM Evaluation (red-teaming Junior) + Responsible AI (fairness y privacy) + Agentes (nuevo surface de ataque) + Data Governance
|
Diseñar y operar programas de seguridad de IA a escala organizacional que garanticen que los sistemas de IA en producción son seguros, auditables y conformes con la regulación — requisito de cualquier empresa en mercados regulados en 2026. | Experto | Programa de red-teaming automatizado con Garak para todos los LLMs en producción: 500+ prompts por categoría OWASP LLM Top 10, guardrails NeMo Guardrails que bloquean ≥95% de intentos, audit trail en S3; mapa de compliance EU AI Act. | PythonRed-teaming corre en CI ante cada nuevo deploy de LLM; guardrails bloquean ≥95% de jailbreaks del test set; audit trail inmutable de todos los outputs almacenado; compliance EU AI Act documentado con evidencias técnicas. | |
| Research to Production |
Reproducir y productizar papers: de arXiv a sistema en producción
Critical reading de papers · reproducibilidad de resultados · delta de benchmark vs producción · RFC de implementación · ablation studies · comparación vs alternatives · productización incremental
Todo el nivel Senior — requiere comprensión profunda del stack para evaluar la viabilidad técnica de un paper
|
Transformar avances de investigación en sistemas productivos rentables — habilidad que distingue a los MLEs de labs de investigación como DeepMind y Meta AI que mueven la industria de una publicación a un producto. | Experto | Seleccionar un paper de los últimos 6 meses relevante para el negocio (recomendación, NLP, visión), reproducir sus resultados principales, identificar el gap con producción y proponer un RFC de implementación gradual con A/B test. | PythonResultados del paper reproducidos dentro del ±10% de los reportados; gap de producción identificado con al menos 3 factores concretos; RFC aprobado por el equipo con métricas de éxito y plan de rollout del 1% al 100%. | |
| Estrategia Técnica ML |
ML strategy: roadmap de 18 meses, build vs buy y OKRs de IA
Foundation model strategy · build vs fine-tune vs API · make vs buy decision framework · ML OKRs · ROI de iniciativas de IA · capacity planning de GPU · deuda técnica de ML · talent strategy
Todo el nivel Staff — punto de síntesis de la experiencia técnica y organizacional acumulada
|
Definir la dirección técnica de ML para toda la organización con impacto medible en el negocio — la diferencia entre un Staff que ejecuta y uno que construye ventaja competitiva duradera a través de la IA. | Experto | Documento de estrategia ML de 18 meses para una empresa de 500 personas: decisión build/fine-tune/API para los 5 casos de uso de IA prioritarios, OKRs por iniciativa, plan de GPU capacity, roadmap de deuda técnica y plan de hiring con perfiles. | Aprobado por CTO y VPs con tracking trimestral; decisiones build/buy documentadas con análisis de TCO y lock-in; OKRs con métricas de negocio, no sólo técnicas; capacity plan de GPU validado por Finance con casos Base/Optimista/Pesimista. | |
| Community & Research |
Open source, investigación original y thought leadership en ML
Contribuciones a PyTorch / HuggingFace / vLLM · publicación en NeurIPS / ICML / ICLR · engineering blog · mentoring · CFP de MLconf / PyData · reproducibility checklist
Todo el nivel Staff — impacto técnico acumulado que se amplifica externamente
|
Amplificar el impacto más allá de la organización construyendo reputación en la comunidad de ML que atrae talento de primera línea, genera influencia en el ecosistema y retroalimenta con los avances más recientes del campo. | Experto | Contribución aceptada a PyTorch, HuggingFace o vLLM (PR con impacto real); paper o workshop en NeurIPS, ICML o conferencia regional; post técnico con >2000 lecturas; 2 MLEs junior mentoreados a nivel SSR en <12 meses. | PythonPR mergeada en repo con >10k stars; paper o workshop aceptado con revisión ciega; mentorado alcanza SSR en <12 meses; post técnico indexado en Papers With Code o Hugging Face Daily Papers. |