Machine Learning Engineering — Career Path 2026

01

Nivel 1

Trainee

Cimentación matemática y práctica. Antes de entrenar un modelo, hay que comprender el álgebra lineal que mueve los tensores, el cálculo que guía los gradientes y la estadística que evalúa las predicciones. Sin estas bases, el machine learning es magia negra; con ellas, es ingeniería.

Área	Tema Específico	Objetivo	Dif.	Recursos	Proyecto / Validación	Criterio de Éxito
Python Científico	NumPy: arrays n-dimensionales, broadcasting y operaciones vectorizadas ndarray · dtype · reshape · broadcasting rules · `np.einsum` · slicing avanzado · operaciones in-place · comparación con loops Python	Manipular datos numéricos a velocidad de C desde Python — NumPy es la capa sobre la que PyTorch, scikit-learn y prácticamente toda la ciencia de datos están construidos.	Fácil	NumPy: Absolute Beginners Guide CS231n: NumPy Tutorial (Stanford)	Implementar regresión lineal desde cero con NumPy: multiplicación matricial, gradiente descendente y predicción; benchmark que demuestre la diferencia de velocidad vs loops Python puros.	PythonImplementación 100% con operaciones NumPy vectorizadas, sin loops Python en el training loop; speedup ≥50x sobre loop equivalente documentado con `timeit`; resultados idénticos a scikit-learn LinearRegression.
Matemáticas para ML	Álgebra lineal aplicada: vectores, matrices, eigenvectors y SVD Producto punto · transformaciones lineales · determinante · rango · eigenvalues/eigenvectors · SVD · PCA desde SVD · por qué importan los espacios de alta dimensión NumPy (implementación práctica de las operaciones)	Entender la geometría detrás de los modelos: PCA reduce dimensiones porque proyecta sobre eigenvectors; las redes neuronales son composiciones de transformaciones lineales. La intuición matemática previene errores de arquitectura.	Medio	3Blue1Brown: Essence of Linear Algebra Mathematics for Machine Learning (libro gratuito)	Implementar PCA desde cero con NumPy usando SVD; aplicarlo a un dataset de imágenes (MNIST); visualizar los primeros 10 componentes principales y reconstruir una imagen con k=50 componentes.	PythonPCA implementado con `np.linalg.svd` produce resultados idénticos a `sklearn.decomposition.PCA`; varianza explicada documentada por componente; reconstrucción visual coherente con k=50.
Matemáticas para ML	Cálculo: derivadas parciales, regla de la cadena y gradiente descendente Derivada e interpretación geométrica · gradiente · regla de la cadena · backpropagation intuitiva · learning rate · convexidad · saddle points Álgebra lineal (el gradiente es un vector en el espacio de parámetros)	Comprender por qué el entrenamiento de redes neuronales funciona: el gradiente descendente es geometría diferencial aplicada, y sin esta intuición no se puede diagnosticar por qué un modelo no converge.	Medio	Khan Academy: Multivariable Calculus Colah's Blog: Backpropagation (visual)	Implementar autodiferenciación escalar desde cero (micro-autograd estilo Karpathy): clase `Value` con `+`, `*`, `tanh`, backward pass y grafo computacional. Entrenar una red de 2 capas con este engine.	PythonGradientes correctos verificados contra diferencias finitas (tolerancia 1e-5); red de 2 capas converge en el dataset XOR; grafo computacional visualizado con graphviz.
Estadística	Probabilidad y estadística: distribuciones, estimación y tests de hipótesis Distribuciones (normal, Bernoulli, Poisson) · likelihood · MLE · Bayes theorem · p-value · intervalos de confianza · correlación vs causalidad · CLT Álgebra lineal + Cálculo (fundamentos matemáticos compartidos)	Evaluar modelos con rigor estadístico y no caer en métricas engañosas: saber cuándo un modelo es realmente mejor o sólo tiene suerte con el split de test — habilidad crítica en equipos como Google y Netflix.	Medio	Seeing Theory (Brown Univ. — visual) Introduction to Statistical Learning (ISLR)	Análisis estadístico de resultados A/B de dos modelos de recomendación: calcular power del test, p-value con bootstrap, intervalo de confianza del lift y determinar si el resultado es significativo con n=1000 usuarios.	PythonBootstrap con `scipy.stats`; conclusión justificada estadísticamente; análisis de qué tamaño de muestra sería necesario para detectar un lift del 2%; sin confundir significancia estadística con relevancia práctica.
EDA y Datos	Pandas, Polars y visualización: EDA sistemática de datasets reales pandas I/O · groupby · merge · EDA checklist · distribuciones · outliers · correlaciones · matplotlib/seaborn · plotly interactivo · missing values strategy NumPy (base de pandas) + Estadística (interpretación de distribuciones)	Conocer profundamente los datos antes de modelar — "garbage in, garbage out" es el axioma más citado en producción de ML y el 60-70% del tiempo real de un MLE se gasta en datos.	Fácil	pandas User Guide Kaggle: Pandas micro-course	EDA completa del dataset Titanic o House Prices (Kaggle): distribuciones de todas las columnas, matriz de correlación, análisis de missing values con estrategia de imputación justificada, 5 hipótesis de features nuevos.	PythonEDA en Jupyter Notebook con conclusiones escritas bajo cada gráfico; hipótesis de features justificadas con evidencia visual; missing values tratados con estrategia motivada por el tipo de dato, no por defecto.
ML Clásico Intro	scikit-learn: regresión, clasificación, validación y primeras métricas LinearRegression · LogisticRegression · KNN · DecisionTree · train/val/test split · cross-validation · accuracy, precision, recall, F1, ROC-AUC · confusion matrix EDA + Estadística (interpretación de métricas) + Álgebra lineal (geometría de clasificadores)	Resolver problemas de predicción con los algoritmos más utilizados en producción y evaluar los resultados con métricas que reflejen el objetivo real de negocio — no sólo accuracy.	Fácil	scikit-learn: Choosing the right estimator ISLR: Cap. 2-4 (fundamentos)	Pipeline completo en scikit-learn para un dataset de clasificación bancaria (fraud detection): EDA → preprocessing → 3 modelos comparados → evaluación con precision-recall curve → justificación del modelo ganador.	PythonJustificación de por qué ROC-AUC no es suficiente para fraude (dataset desbalanceado); precision-recall curve como métrica principal; elección del threshold de clasificación justificada por el costo del negocio.
Entorno de Trabajo	Git, entornos reproducibles y Jupyter disciplinado Conventional Commits · venv / uv · pyproject.toml · nbstripout · papermill para parametrizar notebooks · nbconvert · DVC intro · pre-commit hooks Python + EDA (los notebooks que se versionan)	Versionar experimentos y código de ML de forma reproducible — la queja más frecuente en equipos de ML es "el modelo de hace 3 meses ya no se puede reproducir", y este tema lo previene desde el día uno.	Fácil	DVC: Get Started nbstripout Docs	Proyecto con 3 experimentos versionados con DVC: datos en S3, código en Git, métricas trackeadas; nbstripout en pre-commit elimina outputs de notebooks antes de commit; entorno reproducible en `uv sync`.	Cualquier commit reproduce exactamente los mismos resultados con `dvc repro`; notebooks no tienen outputs en Git; colega puede clonar y reproducir el mejor experimento con 2 comandos.
Feature Engineering	Feature engineering: encoding, scaling, imputación y selección OneHotEncoding · OrdinalEncoding · target encoding · StandardScaler · RobustScaler · SimpleImputer · KNNImputer · VarianceThreshold · mutual_info · pipelines de sklearn EDA (qué features existen) + scikit-learn básico (donde se aplican)	Construir pipelines de preprocesamiento reproducibles que transformen datos crudos en features que los modelos puedan aprender eficientemente — la etapa que más impacto tiene en el rendimiento final de cualquier modelo.	Medio	scikit-learn: Pipelines y ColumnTransformer Feature-engine Docs	Pipeline completo con `sklearn.Pipeline` + `ColumnTransformer` que procesa columnas numéricas y categóricas diferenciadamente, sin data leakage; el mismo pipeline se serializa con joblib y sirve predicciones en producción.	PythonSin data leakage (scaler ajustado sólo en train, no en val/test); pipeline serializado con `joblib.dump` y recargado produce predicciones idénticas; `set_output(transform='pandas')` para trazabilidad.
Competición y Portfolio	Kaggle: competiciones reales, kernels y construcción de portfolio Leaderboard strategy · public vs private LB · cross-validation local vs LB · ensembles básicos · aprender de top kernels · documentar aprendizajes Todo el nivel Trainee — punto de síntesis práctico	Aplicar todo lo aprendido en competiciones con datos reales y sin respuesta conocida — la forma más efectiva de desarrollar intuición práctica para ML según MLEs de Airbnb, Netflix y Google.	Medio	Kaggle Competitions mlcontests.com (todas las competiciones)	Participar en 2 competiciones Kaggle (una tabular, una de texto o imagen); documentar en un post el análisis de errores del modelo y qué habría hecho diferente; alcanzar top 30% en al menos una.	PythonTop 30% en al menos una competición; post-mortem público con análisis de errores, qué features funcionaron y cuáles no, y lecciones sobre el gap LB público vs privado.

02

Nivel 2

Junior ML Engineer

Del notebook al modelo en producción. El Junior domina ensemble methods, empieza con deep learning en PyTorch, trackea sus experimentos con MLflow y expone sus modelos como APIs. La fiabilidad es el diferenciador: no sólo el modelo converge, sino que su comportamiento está documentado y es reproducible.

Área	Tema Específico	Objetivo	Dif.	Recursos	Proyecto / Validación	Criterio de Éxito
Ensemble Methods	XGBoost, LightGBM y CatBoost: gradient boosting en producción Gradient boosting intuición · parámetros clave (n_estimators, max_depth, learning_rate) · early stopping · feature importance · SHAP values · LightGBM vs XGBoost en velocidad scikit-learn (ML clásico) + Feature Engineering (pipelines de preprocesamiento)	Dominar los algoritmos de mayor rendimiento en datos tabulares en 2026 — XGBoost/LightGBM ganan el 70% de las competiciones Kaggle tabulares y son el modelo de producción en Airbnb, Uber y MercadoLibre para pricing y fraud.	Medio	LightGBM Docs SHAP Docs (interpretabilidad)	Modelo de churn prediction con LightGBM: early stopping, tuning de 5 hiperparámetros con Optuna, SHAP values para los top-10 features; comparar vs LogisticRegression en velocidad de inferencia y AUC-PR.	PythonEarly stopping evita overfitting verificado con curva train/val; SHAP waterfall plot para una predicción individual; LightGBM ≥5% mejor en AUC-PR que baseline; latencia de inferencia de 1000 registros <50ms.
Hyperparameter Tuning	Optuna: búsqueda bayesiana, pruning y estudios persistentes TPE sampler · MedianPruner · study persistence en SQLite · visualizaciones de importancia de parámetros · integración con LightGBM, PyTorch · paralelización Ensemble Methods (los modelos que se optimizan) + Git/reproducibilidad (estudios versionados)	Automatizar la búsqueda de hiperparámetros de forma eficiente con pruning que abandona trials malos temprano — lo que usa Spotify y Netflix en sus pipelines de entrenamiento automatizado.	Medio	Optuna Official Docs Optuna: TPE y pruning	Estudio Optuna con MedianPruner para el modelo de churn; persistir el estudio en SQLite para reanudar búsqueda; demostrar que el mejor trial supera el modelo del ejercicio anterior; visualizar importancia de hiperparámetros.	PythonPruning reduce el número de evaluaciones completas en ≥40%; estudio reanudable tras kill del proceso; mejora documentada vs tuning manual; gráfico de importancia de parámetros exportado.
PyTorch Fundamentos	PyTorch: tensores, autograd, módulos y training loop manual `torch.Tensor` · autograd y grafo computacional · `nn.Module` · `DataLoader` · `Dataset` · optimizadores (Adam, AdamW) · learning rate schedulers · GPU con CUDA Cálculo (backprop que ejecuta autograd) + NumPy (transición natural a tensores) + Álgebra lineal (operaciones de red)	Implementar y entrenar redes neuronales con el framework dominante en investigación y producción de ML en 2026 — PyTorch tiene el 55%+ del mercado de producción y es el estándar en Google DeepMind, Meta AI y OpenAI.	Medio	PyTorch: Learn the Basics (oficial) Karpathy: Neural Networks Zero to Hero	Training loop completo en PyTorch para clasificación de imágenes (CIFAR-10): custom Dataset, DataLoader con augmentations, MLP de 3 capas, training loop con val loss y early stopping; mover a GPU con CUDA y medir speedup.	PythonTraining loop con gradient clipping; val loss monitorizada y early stopping funcional; GPU speedup ≥5x documentado; modelo guardado y recargado con `state_dict()` produciendo predicciones idénticas.
Deep Learning	CNNs para computer vision: arquitecturas, transfer learning y fine-tuning Convolución · pooling · BatchNorm · Dropout · ResNet · EfficientNet · torchvision · torchvision.transforms v2 · fine-tuning de capas específicas · gradcam PyTorch (training loop) + Álgebra lineal (intuición de la convolución como producto punto)	Aplicar transfer learning para resolver problemas de visión con decenas de horas de entrenamiento en lugar de semanas — técnica que usa Netflix para clasificación de thumbnails y Airbnb para moderación de imágenes.	Medio	torchvision Docs CS231n: Convolutional Neural Networks (Stanford)	Fine-tuning de ResNet-50 preentrenado en ImageNet para un dataset de 5 clases custom; congelar las primeras capas, entrenar sólo el head, luego unfreezing progresivo; GradCAM para visualizar qué regiones activan la predicción.	PythonFine-tuning supera training from scratch en ≥15% de accuracy con mismo presupuesto de epochs; GradCAM muestra regiones semánticamente coherentes; sin data leakage en augmentations (sólo en train, no en val).
NLP Fundamentos	NLP clásico y embeddings: TF-IDF, Word2Vec y sentence-transformers Tokenización · stop words · TF-IDF · n-gramas · Word2Vec / GloVe · sentence-transformers · similaridad coseno · búsqueda semántica · Bag of Words Álgebra lineal (similaridad coseno, espacio vectorial) + PyTorch (embeddings como matrices)	Representar texto como vectores y resolver problemas de clasificación, búsqueda y clustering semántico — fundamento de los sistemas de búsqueda de Spotify, recomendaciones de Netflix y moderación de Meta.	Medio	sentence-transformers Docs NLTK Book (NLP fundamentos)	Motor de búsqueda semántica sobre 10k artículos de Wikipedia: indexar embeddings de sentence-transformers en FAISS; comparar TF-IDF vs embeddings en calidad de resultados para queries ambiguas; latencia <100ms por query.	PythonBúsqueda semántica recupera documentos contextualmente relevantes que TF-IDF no encontraría; latencia P95 <100ms con FAISS IndexFlatIP; índice serializado y recargable sin re-embeddear.
MLflow	MLflow: experiment tracking, model registry y reproducibilidad `mlflow.log_param` · `mlflow.log_metric` · artifact logging · Model Registry (Staging/Production) · `mlflow.pytorch` · comparación de runs · autologging PyTorch (modelos a trackear) + XGBoost/LightGBM (experimentos clásicos) + Git (tracking complementario)	Trackear todos los experimentos para poder comparar, reproducir y promover modelos a producción — estándar creado por Databricks y adoptado por Airbnb, Shopify y cientos de equipos de ML.	Fácil	MLflow Tracking Docs MLflow Model Registry	Refactorizar los experimentos anteriores para que todos loggeen a MLflow: parámetros, métricas por epoch, artefactos (curvas ROC, confusion matrix); promover el mejor modelo al Model Registry en estado "Production".	PythonCualquier run reproducible con `mlflow.load_model(run_id)`; comparación de 10+ runs en MLflow UI visible; modelo en Registry con descripción, tags de versión y transition documentada.
Serving Básico	APIs de modelos con FastAPI, Pydantic y Docker Endpoint de inferencia · validación con Pydantic · async batch inference · health check · /metrics endpoint · imagen Docker <1GB · latencia de inferencia · warm-up PyTorch (modelo a servir) + MLflow (modelo en registry) + Feature Engineering (pipeline de preprocessing)	Exponer modelos como APIs productizadas con validación de entrada, manejo de errores y containerización — la brecha más común entre un data scientist y un ML engineer según hiring managers de FAANG en 2025.	Medio	FastAPI Official Tutorial TestDriven.io: FastAPI + ML	API FastAPI que carga el modelo de churn desde MLflow Registry, valida el input con Pydantic, infiere y retorna predicción + SHAP explanation; imagen Docker <1.5GB; latencia P95 <200ms; test de carga con Locust.	PythonInput inválido retorna 422 con mensaje claro; model warm-up en startup event; latencia P95 <200ms bajo 50 usuarios concurrentes; imagen Docker reproducible en cualquier máquina con Docker instalado.
Evaluación Avanzada	Evaluación robusta: calibración, fairness y análisis de errores Calibration curve · Platt scaling · isotonic regression · fairness metrics (equalized odds, demographic parity) · error analysis slicing · Shapley values · modelo vs baseline Estadística (interpretación correcta) + SHAP (ya introducido) + scikit-learn pipelines	Evaluar modelos como un ingeniero de producción, no como un competidor de Kaggle: calibración, sesgos por grupo demográfico y análisis sistemático de dónde falla el modelo — requisito en Meta AI y Google para cualquier modelo que toca usuarios.	Difícil	Fairlearn Docs (Microsoft) sklearn: Calibration of classifiers	Auditoría del modelo de churn: calibration curve (¿el 70% predicho es realmente 70% de churn?); equalized odds por segmento de cliente; error analysis por valor de features; reporte ejecutivo de hallazgos.	PythonCalibration curve con Expected Calibration Error (ECE) <0.05 tras Platt scaling; fairness metrics para ≥2 grupos demográficos; los errores más costosos identificados por su impacto de negocio, no sólo por frecuencia.

03

Nivel 3

Semi-Senior (SSR) ML Engineer

Autonomía técnica y dominio de LLMs. El SSR introduce Transformers y Hugging Face en su stack, fine-tunea modelos de lenguaje con LoRA/QLoRA, diseña sistemas de recomendación end-to-end y construye pipelines MLOps reproducibles. Ya no sólo entrena modelos: los lleva a producción con observabilidad real.

Área	Tema Específico	Objetivo	Dif.	Recursos	Proyecto / Validación	Criterio de Éxito
Transformers	Arquitectura Transformer: attention, positional encoding y BERT/GPT Self-attention · multi-head attention · scaled dot-product · positional encoding · encoder-only (BERT) vs decoder-only (GPT) vs encoder-decoder (T5) · KV cache PyTorch (módulos base) + NLP Fundamentos (embeddings que el Transformer procesa) + Álgebra lineal (attention como producto de matrices)	Comprender la arquitectura que domina el 95% del ML moderno — sin entender attention, es imposible elegir el modelo correcto, hacer fine-tuning efectivo o diagnosticar comportamientos inesperados en producción.	Difícil	The Annotated Transformer (Harvard NLP) Karpathy: Let's build GPT from scratch	Implementar un Transformer decoder-only (GPT estilo) desde cero en PyTorch: multi-head attention, positional encoding y training loop en un dataset de texto pequeño; demostrar que genera texto coherente tras 1000 steps.	PythonImplementación sin copiar código de HuggingFace; loss converge (perplexity baja) en el dataset de entrenamiento; KV cache implementado y demostrado que reduce latencia de inferencia en ≥3x.
Hugging Face	Hugging Face Transformers: inference, fine-tuning completo y Trainer API `AutoModel` · `AutoTokenizer` · `pipeline()` · `Trainer` + `TrainingArguments` · `datasets` library · `evaluate` · Model Hub · tokenizer rápido vs lento Arquitectura Transformer + PyTorch (base del framework) + MLflow (tracking de fine-tuning)	Usar el ecosistema HuggingFace para acceder a 500k+ modelos pre-entrenados y fine-tunearlos eficientemente — estándar en Spotify (LLaMA fine-tuning para recomendaciones), Meta y prácticamente toda la industria en 2026.	Medio	HuggingFace Transformers Docs HuggingFace NLP Course (gratuito)	Fine-tuning de BERT para clasificación de sentimiento en reviews de productos en español; Trainer API con evaluación cada epoch; modelo subido al HuggingFace Hub con model card completa y demo en Spaces.	PythonModelo en HF Hub con model card que documenta dataset, métricas y limitaciones; F1 ≥0.88 en test set; demo funcional en HuggingFace Spaces accesible públicamente; entrenamiento reproducible con seed fijado.
Parameter-Efficient FT	LoRA y QLoRA: fine-tuning eficiente de LLMs grandes Low-Rank Adaptation · rank r y alpha · target modules · QLoRA con bitsandbytes 4-bit · PEFT library · merge de adaptadores · comparación vs full fine-tuning en VRAM y calidad HuggingFace Transformers (modelo base) + Álgebra lineal (descomposición de matrices en LoRA) + GPU/CUDA	Fine-tunear modelos de 7B+ parámetros en una sola GPU consumer con QLoRA — técnica que usa Spotify para adaptar LLaMA a recomendaciones musicales y que hace viable el LLM fine-tuning sin infraestructura masiva.	Difícil	PEFT Docs (HuggingFace) QLoRA Paper (Dettmers et al., 2023)	QLoRA fine-tuning de Mistral-7B en un dataset de instrucciones de dominio específico con una GPU de 24GB; comparar vs full fine-tuning en calidad (ROUGE, BLEU) y costo (VRAM, tiempo); merge del adaptador y publicación en HF Hub.	PythonQLoRA usa <16GB VRAM vs 80GB+ para full fine-tuning; calidad dentro del 5% de full fine-tuning en el benchmark elegido; adaptador mergeado correctamente y cargable sin PEFT instalado; training script reproducible.
RAG	RAG: Retrieval-Augmented Generation con LangChain o LlamaIndex Chunking strategies · embedding models · FAISS / Chroma / Qdrant · reranking con cross-encoder · query transformation · HyDE · evaluación con RAGAS · hallucination detection NLP Fundamentos (embeddings) + HuggingFace (LLM que genera) + Serving básico (API que expone el RAG)	Construir sistemas que aumenten LLMs con conocimiento privado y actualizado — el patrón de arquitectura de IA más usado en empresas en 2026 según surveys de LLMOps, desde startups hasta Google y Meta.	Difícil	LlamaIndex Docs RAGAS: RAG Evaluation Framework	RAG sobre documentación técnica interna (PDFs/Markdown): chunking semántico, embeddings con `text-embedding-3-small`, Qdrant como vector store, reranking con cross-encoder; evaluación con RAGAS (faithfulness >0.82, relevancy >0.80).	PythonRAGAS faithfulness >0.82 en dataset de 50 preguntas; reranking mejora P@5 en ≥15% vs sin reranking; latencia P95 <3s end-to-end; pipeline de evaluación ejecutable en CI para detectar regresiones.
Sistemas de Recomendación	Recomendadores: collaborative filtering, embeddings y two-tower models Matrix factorization · ALS · implicit feedback · BPR loss · two-tower (query + item tower) · in-batch negatives · ANN search (FAISS) · offline vs online metrics Álgebra lineal (factorización de matrices) + PyTorch (two-tower con embeddings) + NLP Fundamentos (embeddings semánticos)	Diseñar y entrenar sistemas de recomendación end-to-end — el caso de uso de ML de mayor impacto económico en Spotify (Discover Weekly), Netflix (recomendación de contenido) y Airbnb (búsqueda de alojamientos).	Difícil	ACM RecSys Papers implicit: ALS para collaborative filtering	Two-tower model en PyTorch para recomendación de películas (MovieLens 25M): user tower + item tower entrenados con in-batch negatives; servir con FAISS ANN; medir Recall@10 vs ALS; latencia de retrieval <10ms para 1M items.	PythonTwo-tower supera ALS en Recall@10 en ≥8%; FAISS IndexIVFFlat con >0.95 recall@exact; latencia <10ms para retrieval; embeddings de usuario actualizables sin re-entrenar el modelo completo.
MLOps Pipeline	Kubeflow Pipelines o ZenML: pipelines ML reproducibles y CI/CD DAG de pasos ML · containerización de componentes · artefactos versionados · pipeline caching · triggers automáticos · integración con MLflow · CI/CD para modelos Docker (cada componente es un contenedor) + MLflow (tracking integrado) + Git (versionado del pipeline)	Automatizar el ciclo completo de entrenamiento-evaluación-despliegue para que un cambio de datos o código lance un nuevo modelo en producción sin intervención manual — práctica estándar en Google (TFX) y Airbnb.	Difícil	ZenML Docs Kubeflow Pipelines Docs	Pipeline ZenML de 5 pasos (ingest → preprocess → train → evaluate → deploy) para el modelo de churn; retrain automático si nuevos datos superan el 10% de drift; despliegue bloqueado si AUC-PR baja más del 2%.	PythonPipeline reproducible desde cualquier commit con `zenml pipeline run`; caching evita re-entrenar si datos no cambian; quality gate bloquea deploy con evidencia en MLflow; runs visibles en ZenML dashboard.
Model Serving	Model serving: Ray Serve, TorchServe y batching dinámico Ray Serve deployments · dynamic batching · réplicas automáticas · TorchServe handler personalizado · health checks · autoscaling basado en carga · GPU sharing FastAPI básico (conceptos de API) + Docker + PyTorch (modelos a servir) + Sistemas de recomendación (serving de embeddings)	Servir modelos con frameworks diseñados para ML: batching dinámico que agrupa requests para maximizar el throughput de GPU — práctica que usa Airbnb con Ray Serve para sus modelos de recomendación de viajes.	Difícil	Ray Serve Docs TorchServe Docs	Servir el two-tower model con Ray Serve: dynamic batching con max_batch_size=64, autoscaling de 1 a 5 réplicas bajo carga, health check que verifica la carga del modelo; throughput ≥1000 req/s en prueba de carga.	PythonThroughput ≥1000 req/s con batching vs <200 sin batching (documentado); autoscaling reactivo en <60s; 0 requests fallidos durante el scale-up; latencia P99 <50ms con GPU.
A/B Testing y Experimentación	A/B testing para modelos: diseño, potencia estadística y análisis Diseño del experimento · sample size · power analysis · p-value · CUPED (Controlled-experiment Using Pre-Experiment Data) · guardrail metrics · online vs offline metrics gap Estadística (fundamentos de hipótesis) + Sistemas de Recomendación (modelo a probar) + Serving (infraestructura de experimentos)	Medir el impacto real de los modelos en métricas de negocio con rigor estadístico — Airbnb, Netflix y Spotify tienen plataformas enteras de experimentación porque saben que la mejora offline no siempre se traduce en mejora online.	Difícil	CUPED Paper (Microsoft Research) Trustworthy Online Controlled Experiments	Diseñar un experimento A/B para el recomendador: calcular sample size para detectar 1% de lift en CTR con 80% de potencia; simular el análisis con datos sintéticos aplicando CUPED; detectar si existe heterogeneidad de tratamiento por segmento.	PythonCUPED reduce la varianza en ≥20% vs análisis simple (demostrado en simulación); análisis de heterogeneidad identifica al menos 1 segmento con efecto diferencial significativo; reporte con conclusión accionable para el negocio.
Observabilidad de Modelos	Model monitoring: data drift, concept drift y alertas en producción Evidently AI · PSI (Population Stability Index) · KS test · feature drift · prediction drift · concept drift · alertas en Grafana · retraining triggers automáticos Serving (modelo en producción) + Estadística (tests de distribución) + MLOps pipeline (trigger de retraining)	Detectar automáticamente cuando un modelo en producción está degradándose antes de que el negocio lo note — la causa más frecuente de pérdida de valor silenciosa en sistemas de ML según el ML Engineering Survey 2025.	Medio	Evidently AI Docs Arize: ML Monitoring Guide	Dashboard de monitoreo con Evidently: drift report semanal para las top-10 features, alerta si PSI >0.2 en alguna feature crítica, prediction drift detectado automáticamente; alert en Slack dispara pipeline de retraining.	PythonDrift simulado manualmente activa alerta en <24h; PSI calculado correctamente para variables categóricas y continuas; pipeline de retraining lanzado automáticamente sin intervención humana; historial de alertas en Grafana.

04

Nivel 4

Senior ML Engineer

Arquitecto de sistemas de ML a escala. El Senior diseña para el entrenamiento distribuido, optimiza modelos para inferencia en producción, implementa RLHF y evalúa modelos con rigor de safety. Su impacto se mide en la confianza que el negocio tiene en los sistemas de IA — no en el número de modelos desplegados.

Área	Tema Específico	Objetivo	Dif.	Recursos	Proyecto / Validación	Criterio de Éxito
Distributed Training	Entrenamiento distribuido: DDP, FSDP y DeepSpeed ZeRO Data Parallelism · `torch.distributed` · DDP (DistributedDataParallel) · FSDP (Fully Sharded Data Parallel) · DeepSpeed ZeRO Stage 1/2/3 · gradient checkpointing · mixed precision (bf16/fp16) PyTorch (training loops avanzados) + LoRA/QLoRA (qué se entrena) + GPU/CUDA + Kubernetes (cluster donde corren los jobs)	Entrenar modelos de decenas de miles de millones de parámetros en múltiples GPUs eficientemente — habilidad que distingue a los MLEs de Airbnb (12B params en 8×A100) y Meta AI (LLaMA) del resto.	Experto	PyTorch FSDP Docs DeepSpeed ZeRO Tutorial	Fine-tuning de un modelo de 13B parámetros con FSDP + DeepSpeed ZeRO-3 en un cluster de 4 GPUs; documentar la reducción de VRAM por GPU, MFU (Model FLOPS Utilization) y throughput en tokens/s vs configuración de 1 GPU.	PythonMFU >40% (referencia: GPT-3 fue entrenado con ~45% MFU); VRAM por GPU reducida ≥4x con ZeRO-3 vs no sharding; training script fault-tolerant con checkpointing cada 500 steps; resultado equivalente al fine-tuning en 1 GPU.
RLHF y Alignment	RLHF, DPO e instruction tuning: alignment de LLMs Instruction tuning (SFT) · RLHF con PPO · DPO (Direct Preference Optimization) · reward model · Constitutional AI · TRL library · dataset de preferencias · Alpaca / ShareGPT formats HuggingFace Transformers + LoRA/QLoRA (efficiency del training) + Evaluación robusta (métricas de alineamiento)	Alinear LLMs para seguir instrucciones humanas con seguridad — el proceso que convirtió GPT-3 en ChatGPT, desarrollado por OpenAI y adoptado por Meta (LLaMA 2 Chat) y Anthropic para sus modelos de producción.	Experto	TRL: Transformer Reinforcement Learning DPO Paper (Rafailov et al., 2023)	Pipeline DPO completo en TRL: SFT de LLaMA-3.1-8B sobre 10k instrucciones → dataset de preferencias con 3k comparaciones → DPO training → evaluación con MT-Bench y win-rate vs modelo base en 100 prompts.	PythonWin-rate del modelo DPO >65% vs modelo base en evaluación ciega (LLM-as-judge con GPT-4o); MT-Bench score ≥6.5/10; regression en tareas de seguimiento de instrucciones <5%; pipeline reproducible con TRL.
LLM Inference	vLLM, TGI y optimización de inferencia de LLMs: throughput y latencia PagedAttention (vLLM) · continuous batching · speculative decoding · KV cache management · cuantización GPTQ/AWQ · flash attention 2 · tensor parallelism para serving Transformers (KV cache) + Distributed Training (tensor parallelism) + Ray Serve (orquestación de serving)	Servir LLMs a escala con el throughput y la latencia que demanda producción — vLLM (Berkeley) es el estándar de facto que usa Spotify para sus modelos de recomendación y la mayoría de APIs de LLM.	Experto	vLLM Docs vLLM Paper: Efficient LLM Serving (PagedAttention)	Benchmark de serving de Mistral-7B: vLLM vs TGI vs TorchServe con 50 usuarios concurrentes; cuantizar el modelo a AWQ 4-bit y medir la degradación de calidad vs speedup; documentar costo por millón de tokens para cada configuración.	PythonvLLM ≥3x mayor throughput que TorchServe naive en test de carga; AWQ 4-bit reduce VRAM en ≥50% con <3% de degradación en MMLU; benchmark script reproducible con `locust`; costo por token documentado.
Optimización de Modelos	Model compression: quantization, pruning, distillation y ONNX Post-training quantization (PTQ) · Quantization-aware training (QAT) · structured vs unstructured pruning · knowledge distillation · ONNX export · TensorRT · latencia en edge/CPU PyTorch avanzado + Evaluación robusta (medir degradación) + vLLM/serving (objetivo de optimización)	Reducir el tamaño y la latencia de modelos para deployment en infraestructura restringida — las técnicas que usa Google para sus modelos en Android y Meta para modelos en dispositivos móviles con latencia <10ms.	Experto	PyTorch Quantization Docs ONNX Runtime Docs	Comprimir el modelo de churn (o un ResNet): PTQ INT8 con ONNX Runtime, knowledge distillation desde el modelo grande, medir en CPU: accuracy, latencia P99 y tamaño del artefacto para cada técnica en tabla comparativa.	PythonINT8 ONNX ≥3x más rápido que PyTorch FP32 en CPU; degradación de accuracy <1.5%; distillation supera PTQ en quality-speed tradeoff documentado; artefacto ONNX serializable y deployable sin PyTorch instalado.
LLM Evaluation	Evaluación de LLMs: benchmarks, LLM-as-judge y red-teaming MMLU · HumanEval · MT-Bench · LM Evaluation Harness · LLM-as-judge (GPT-4o) · red-teaming sistemático · jailbreaking categories · bias y toxicidad · TruthfulQA RLHF/DPO (modelos a evaluar) + Evaluación robusta Junior (framework de evaluación extendido) + RAG (evaluación con RAGAS)	Evaluar LLMs con rigor para comunicar capacidades y limitaciones al negocio con honestidad — habilidad crítica en cualquier equipo que despliega modelos que tocan usuarios, exigida en OpenAI, Anthropic y Google DeepMind.	Experto	LM Evaluation Harness (EleutherAI) OpenAI Evals Framework	Evaluación completa del modelo DPO: MMLU, HumanEval, TruthfulQA con LM Eval Harness; red-teaming con 50 prompts adversariales clasificados por categoría OWASP LLM Top 10; model card con todas las métricas y limitaciones documentadas.	PythonEvaluación reproducible con LM Eval Harness en un script; red-team identifica al menos 2 categorías con tasa de fallo >20%; model card con métricas de fairness, conocimiento de corte y casos de uso no recomendados.
ML System Design	Diseño de sistemas ML: ranking, búsqueda y recomendación a escala Candidate retrieval → ranking → reranking · multi-stage pipelines · feature freshness · cold start · online learning · embedding serving con ANN · trade-offs latencia/calidad Sistemas de Recomendación (base) + vLLM/serving (infraestructura) + Feature Stores (Feast) + A/B Testing (medición de impacto)	Diseñar sistemas de recomendación y búsqueda que escalen a millones de usuarios con latencia <100ms — arquitectura multi-stage que usan Spotify (Discover Weekly), Netflix (homepage) y Airbnb (búsqueda de alojamientos).	Experto	Recsys at Netflix: ML Platform Architecture Eugene Yan: System Design for Discovery	Diseñar el sistema de recomendación de Spotify (Discover Weekly) a escala de 600M usuarios: retrieval (two-tower) → pre-ranking → ranking → reranking con diversity; documentar SLAs, feature freshness y estrategia de cold-start; ADR con arquitectura y alternativas.	Diagrama completo con todos los componentes y flujos; latencia SLA de <100ms para recomendación online justificado por etapas; estrategia de cold-start para nuevos usuarios/items; ADR con análisis de 2 alternativas de arquitectura descartadas.
Responsible AI	Responsible AI: interpretabilidad, bias audits y privacy-preserving ML SHAP global · LIME · anchors · fairness metrics (demographic parity, equalized odds) · differential privacy (DP-SGD) · federated learning conceptos · model cards · EU AI Act compliance Evaluación robusta Junior + LLM Evaluation (red-teaming) + Data Governance (DE roadmap — punto de contacto)	Construir y auditar sistemas de ML que sean explicables, justos y privacy-preserving — requisito legal bajo el EU AI Act 2026 para sistemas de "alto riesgo" y estándar ético en Google, Meta y Microsoft.	Difícil	TensorFlow Responsible AI Toolkit EU AI Act 2024	Auditoría completa de un modelo de crédito: SHAP global, fairness audit por género y etnia, DP-SGD training con epsilon=1.0 y comparación de accuracy; model card con todas las limitaciones; clasificación EU AI Act del sistema.	PythonFairness audit con equalized odds para ≥2 grupos protegidos; DP-SGD con privacy budget documentado y trade-off de accuracy cuantificado; model card aprobable para sistema de crédito EU AI Act high-risk.
GPU Infrastructure	GPU infrastructure: Kubernetes + KubeRay, spot instances y cost optimization KubeRay operator · Ray clusters elásticos · spot instance fault-tolerance · NVIDIA GPU Operator · priority queues · GPU time-sharing · costo por experimento · SageMaker vs self-managed Kubernetes (orquestación) + Distributed Training (workloads GPU) + Ray Serve + FinOps (costo)	Operar infraestructura de GPU eficientemente para balancear velocidad de iteración con costo — un cluster de A100 mal configurado puede costar $50k/mes extra según benchmarks de Airbnb en su plataforma de ML con Ray.	Experto	KubeRay Docs Run:ai: GPU on Kubernetes Guide	Cluster KubeRay en AWS con spot instances para training y on-demand para serving; checkpointing cada 100 steps para tolerancia a interrupciones de spot; dashboard de costo por experimento; reducción ≥40% del bill de GPU vs on-demand puro.	PythonTraining reanuda desde checkpoint automáticamente tras interrupción de spot; costo por experimento visible en dashboard Grafana; reducción ≥40% documentada con factura AWS; 0 jobs perdidos en 30 días de operación.

05

Nivel 5

Staff / Principal ML Engineer

Influencia multiplicadora y arquitectura de plataformas de IA. El Staff Engineer define cómo toda la organización construye, evalúa y despliega modelos: foundation models propios, plataformas de ML self-serve, multimodalidad, seguridad de IA a escala y estrategia técnica de 18 meses alineada con el negocio.

Área	Tema Específico	Objetivo	Dif.	Recursos	Proyecto / Validación	Criterio de Éxito
Foundation Models	Pre-training de LLMs: scaling laws, arquitecturas modernas y datos de entrenamiento Chinchilla scaling laws · Llama 3 / Mistral / Qwen arquitecturas · tokenización (BPE, SentencePiece) · curación de datos de pre-training · deduplication · curriculum learning · Megatron-LM Distributed Training (infraestructura base) + RLHF/DPO (pipeline post-training) + Data Engineering (pipelines de datos de training)	Entender y eventualmente dirigir el pre-training de modelos propios — habilidad que separa a los ingenieros de OpenAI, Google DeepMind y Meta AI del resto, y que muchas empresas large-scale necesitan para modelos de dominio específico.	Experto	Chinchilla Scaling Laws (DeepMind, 2022) LLaMA 3 Architecture (Meta AI)	Pre-training de un modelo de 1.3B parámetros desde cero sobre un corpus de dominio específico (código, legal o médico): diseñar el data mixture con Chinchilla scaling laws, tokenizer propio con SentencePiece, training con Megatron-LM en 8 GPUs.	PythonPerplexity en dominio objetivo supera LLaMA-3.1-8B en ≥15%; loss curve sin spikes anómalos; training cost documentado con estimación de cuánto costaría escalar a 7B con los mismos datos; data mixture justificado con ablation.
Modelos Multimodales	Modelos visión-lenguaje: CLIP, LLaVA y sistemas multimodales de producción CLIP contrastive training · vision encoder + LLM connector · LLaVA architecture · image-text instruction tuning · multimodal RAG · visual grounding · Qwen-VL · Gemini-style architecture Transformers (arquitectura base) + CNNs (vision encoder) + RLHF (alignment multimodal) + Foundation Models	Diseñar y operar sistemas que procesen imagen y texto conjuntamente — la dirección dominante de los modelos de producción en 2026 desde Google (Gemini) hasta Meta (Llama 3.2 Vision) y Airbnb (moderación de fotos).	Experto	LLaVA: Visual Instruction Tuning OpenAI CLIP Paper	Sistema de moderación de imágenes multimodal: CLIP para retrieval de imágenes similares a ejemplos de política + LLaVA para clasificación detallada con justificación en texto; pipeline en producción sirviendo 10k imágenes/día.	PythonPrecision@1 de CLIP retrieval >0.90 en dataset de evaluación de moderación; LLaVA justificación coherente con la predicción en >85% de casos evaluados por humano; latencia pipeline completo <2s P95.
Agentes y Sistemas Autónomos	Sistemas agenticos: tool use, multi-agent y producción con LangGraph Function calling · tool use · ReAct · LangGraph state machines · multi-agent coordination · memory (short/long-term) · observabilidad de agentes · safety en entornos agenticos RAG (recuperación de conocimiento) + LLM Evaluation (red-teaming de agentes) + LLM Inference (latencia de cada step) + Responsible AI	Arquitectar sistemas de agentes autónomos que ejecuten workflows complejos de forma confiable — el paradigma de IA más demandado en 2026 desde customer support hasta generación de código en GitHub Copilot y Devin.	Experto	LangGraph Docs PydanticAI Docs	Agente de análisis financiero con LangGraph: tools para consultar DBs, ejecutar código Python, buscar noticias y generar reportes; human-in-the-loop para decisiones de alto impacto; tasa de resolución autónoma >75% en dataset de eval de 100 tareas.	PythonTasa de resolución autónoma >75% en eval dataset; human-in-the-loop activa correctamente ante incertidumbre alta; 0 tool calls innecesarios (eficiencia del agente medida); traza completa del grafo disponible con OpenTelemetry.
ML Platform Engineering	ML Platform: self-serve experimentation, model catalog y paved roads Internal ML platform · experimento self-serve para DS y MLE · model catalog con model cards · paved roads para fine-tuning · Backstage para ML · training job templates · developer experience MLOps Pipeline + GPU Infrastructure + Model Registry (MLflow) + Feature Stores	Construir la plataforma de ML interna que permite a cualquier data scientist lanzar un experimento, fine-tunar un LLM y desplegar un modelo en producción sin intervención del equipo de plataforma — escalabilidad sub-lineal del impacto.	Experto	Spotify: Unified Experimentation Platform Netflix: Metaflow	Template en la plataforma ML que provisiona: repo con pipeline ZenML, tracking MLflow, feature store conectado, model card template y endpoint de serving en Ray Serve; DS sin conocimiento de infra puede lanzar primer experimento en <1 día.	Tiempo de primer experimento de días a <1 día; adopción >75% de los equipos de DS/MLE sin soporte del platform team; developer NPS de la plataforma >35; 0 experimentos sin tracking (enforced por CI).
AI Safety a Escala	AI Safety en producción: red-teaming sistemático, guardrails y audit trails Red-teaming con Garak / PyRIT · Constitutional AI (Anthropic) · guardrails con NVIDIA NeMo / Guardrails AI · prompt injection detection · model audit trails · EU AI Act high-risk compliance LLM Evaluation (red-teaming Junior) + Responsible AI (fairness y privacy) + Agentes (nuevo surface de ataque) + Data Governance	Diseñar y operar programas de seguridad de IA a escala organizacional que garanticen que los sistemas de IA en producción son seguros, auditables y conformes con la regulación — requisito de cualquier empresa en mercados regulados en 2026.	Experto	Garak: LLM Vulnerability Scanner (NVIDIA) PyRIT: Red Teaming LLMs (Microsoft)	Programa de red-teaming automatizado con Garak para todos los LLMs en producción: 500+ prompts por categoría OWASP LLM Top 10, guardrails NeMo Guardrails que bloquean ≥95% de intentos, audit trail en S3; mapa de compliance EU AI Act.	PythonRed-teaming corre en CI ante cada nuevo deploy de LLM; guardrails bloquean ≥95% de jailbreaks del test set; audit trail inmutable de todos los outputs almacenado; compliance EU AI Act documentado con evidencias técnicas.
Research to Production	Reproducir y productizar papers: de arXiv a sistema en producción Critical reading de papers · reproducibilidad de resultados · delta de benchmark vs producción · RFC de implementación · ablation studies · comparación vs alternatives · productización incremental Todo el nivel Senior — requiere comprensión profunda del stack para evaluar la viabilidad técnica de un paper	Transformar avances de investigación en sistemas productivos rentables — habilidad que distingue a los MLEs de labs de investigación como DeepMind y Meta AI que mueven la industria de una publicación a un producto.	Experto	Papers With Code Distill.pub (explicaciones visuales de papers)	Seleccionar un paper de los últimos 6 meses relevante para el negocio (recomendación, NLP, visión), reproducir sus resultados principales, identificar el gap con producción y proponer un RFC de implementación gradual con A/B test.	PythonResultados del paper reproducidos dentro del ±10% de los reportados; gap de producción identificado con al menos 3 factores concretos; RFC aprobado por el equipo con métricas de éxito y plan de rollout del 1% al 100%.
Estrategia Técnica ML	ML strategy: roadmap de 18 meses, build vs buy y OKRs de IA Foundation model strategy · build vs fine-tune vs API · make vs buy decision framework · ML OKRs · ROI de iniciativas de IA · capacity planning de GPU · deuda técnica de ML · talent strategy Todo el nivel Staff — punto de síntesis de la experiencia técnica y organizacional acumulada	Definir la dirección técnica de ML para toda la organización con impacto medible en el negocio — la diferencia entre un Staff que ejecuta y uno que construye ventaja competitiva duradera a través de la IA.	Experto	The Staff Engineer's Path — T. Reilly Will Larson: Staff Engineer Resources	Documento de estrategia ML de 18 meses para una empresa de 500 personas: decisión build/fine-tune/API para los 5 casos de uso de IA prioritarios, OKRs por iniciativa, plan de GPU capacity, roadmap de deuda técnica y plan de hiring con perfiles.	Aprobado por CTO y VPs con tracking trimestral; decisiones build/buy documentadas con análisis de TCO y lock-in; OKRs con métricas de negocio, no sólo técnicas; capacity plan de GPU validado por Finance con casos Base/Optimista/Pesimista.
Community & Research	Open source, investigación original y thought leadership en ML Contribuciones a PyTorch / HuggingFace / vLLM · publicación en NeurIPS / ICML / ICLR · engineering blog · mentoring · CFP de MLconf / PyData · reproducibility checklist Todo el nivel Staff — impacto técnico acumulado que se amplifica externamente	Amplificar el impacto más allá de la organización construyendo reputación en la comunidad de ML que atrae talento de primera línea, genera influencia en el ecosistema y retroalimenta con los avances más recientes del campo.	Experto	NeurIPS 2026 CFP HuggingFace Hub: Contributing	Contribución aceptada a PyTorch, HuggingFace o vLLM (PR con impacto real); paper o workshop en NeurIPS, ICML o conferencia regional; post técnico con >2000 lecturas; 2 MLEs junior mentoreados a nivel SSR en <12 meses.	PythonPR mergeada en repo con >10k stars; paper o workshop aceptado con revisión ciega; mentorado alcanza SSR en <12 meses; post técnico indexado en Papers With Code o Hugging Face Daily Papers.

Machine Learning Engineering Career Path

Trainee

Junior ML Engineer

Semi-Senior (SSR) ML Engineer

Senior ML Engineer

Staff / Principal ML Engineer

Machine Learning
Engineering Career Path