Industry Standards 2026 · Google DeepMind · Meta AI · OpenAI · Airbnb · Spotify · Netflix · Databricks · Hugging Face

Machine Learning
Engineering Career Path

Matrices de competencia granulares por seniority. Basadas en estándares de Google DeepMind, Meta AI Research, OpenAI, Airbnb (Ray), Spotify (vLLM + LoRA), Netflix (recomendación a escala), Databricks (MLflow) y Hugging Face.

Python Los temas marcados con esta etiqueta tienen proyectos prácticos con código Python como componente central.
01
ÁreaTema EspecíficoObjetivoDif.RecursosProyecto / ValidaciónCriterio de Éxito
Python Científico
NumPy: arrays n-dimensionales, broadcasting y operaciones vectorizadas
ndarray · dtype · reshape · broadcasting rules · np.einsum · slicing avanzado · operaciones in-place · comparación con loops Python
Manipular datos numéricos a velocidad de C desde Python — NumPy es la capa sobre la que PyTorch, scikit-learn y prácticamente toda la ciencia de datos están construidos. Fácil Implementar regresión lineal desde cero con NumPy: multiplicación matricial, gradiente descendente y predicción; benchmark que demuestre la diferencia de velocidad vs loops Python puros. PythonImplementación 100% con operaciones NumPy vectorizadas, sin loops Python en el training loop; speedup ≥50x sobre loop equivalente documentado con timeit; resultados idénticos a scikit-learn LinearRegression.
Matemáticas para ML
Álgebra lineal aplicada: vectores, matrices, eigenvectors y SVD
Producto punto · transformaciones lineales · determinante · rango · eigenvalues/eigenvectors · SVD · PCA desde SVD · por qué importan los espacios de alta dimensión
NumPy (implementación práctica de las operaciones)
Entender la geometría detrás de los modelos: PCA reduce dimensiones porque proyecta sobre eigenvectors; las redes neuronales son composiciones de transformaciones lineales. La intuición matemática previene errores de arquitectura. Medio Implementar PCA desde cero con NumPy usando SVD; aplicarlo a un dataset de imágenes (MNIST); visualizar los primeros 10 componentes principales y reconstruir una imagen con k=50 componentes. PythonPCA implementado con np.linalg.svd produce resultados idénticos a sklearn.decomposition.PCA; varianza explicada documentada por componente; reconstrucción visual coherente con k=50.
Matemáticas para ML
Cálculo: derivadas parciales, regla de la cadena y gradiente descendente
Derivada e interpretación geométrica · gradiente · regla de la cadena · backpropagation intuitiva · learning rate · convexidad · saddle points
Álgebra lineal (el gradiente es un vector en el espacio de parámetros)
Comprender por qué el entrenamiento de redes neuronales funciona: el gradiente descendente es geometría diferencial aplicada, y sin esta intuición no se puede diagnosticar por qué un modelo no converge. Medio Implementar autodiferenciación escalar desde cero (micro-autograd estilo Karpathy): clase Value con +, *, tanh, backward pass y grafo computacional. Entrenar una red de 2 capas con este engine. PythonGradientes correctos verificados contra diferencias finitas (tolerancia 1e-5); red de 2 capas converge en el dataset XOR; grafo computacional visualizado con graphviz.
Estadística
Probabilidad y estadística: distribuciones, estimación y tests de hipótesis
Distribuciones (normal, Bernoulli, Poisson) · likelihood · MLE · Bayes theorem · p-value · intervalos de confianza · correlación vs causalidad · CLT
Álgebra lineal + Cálculo (fundamentos matemáticos compartidos)
Evaluar modelos con rigor estadístico y no caer en métricas engañosas: saber cuándo un modelo es realmente mejor o sólo tiene suerte con el split de test — habilidad crítica en equipos como Google y Netflix. Medio Análisis estadístico de resultados A/B de dos modelos de recomendación: calcular power del test, p-value con bootstrap, intervalo de confianza del lift y determinar si el resultado es significativo con n=1000 usuarios. PythonBootstrap con scipy.stats; conclusión justificada estadísticamente; análisis de qué tamaño de muestra sería necesario para detectar un lift del 2%; sin confundir significancia estadística con relevancia práctica.
EDA y Datos
Pandas, Polars y visualización: EDA sistemática de datasets reales
pandas I/O · groupby · merge · EDA checklist · distribuciones · outliers · correlaciones · matplotlib/seaborn · plotly interactivo · missing values strategy
NumPy (base de pandas) + Estadística (interpretación de distribuciones)
Conocer profundamente los datos antes de modelar — "garbage in, garbage out" es el axioma más citado en producción de ML y el 60-70% del tiempo real de un MLE se gasta en datos. Fácil EDA completa del dataset Titanic o House Prices (Kaggle): distribuciones de todas las columnas, matriz de correlación, análisis de missing values con estrategia de imputación justificada, 5 hipótesis de features nuevos. PythonEDA en Jupyter Notebook con conclusiones escritas bajo cada gráfico; hipótesis de features justificadas con evidencia visual; missing values tratados con estrategia motivada por el tipo de dato, no por defecto.
ML Clásico Intro
scikit-learn: regresión, clasificación, validación y primeras métricas
LinearRegression · LogisticRegression · KNN · DecisionTree · train/val/test split · cross-validation · accuracy, precision, recall, F1, ROC-AUC · confusion matrix
EDA + Estadística (interpretación de métricas) + Álgebra lineal (geometría de clasificadores)
Resolver problemas de predicción con los algoritmos más utilizados en producción y evaluar los resultados con métricas que reflejen el objetivo real de negocio — no sólo accuracy. Fácil Pipeline completo en scikit-learn para un dataset de clasificación bancaria (fraud detection): EDA → preprocessing → 3 modelos comparados → evaluación con precision-recall curve → justificación del modelo ganador. PythonJustificación de por qué ROC-AUC no es suficiente para fraude (dataset desbalanceado); precision-recall curve como métrica principal; elección del threshold de clasificación justificada por el costo del negocio.
Entorno de Trabajo
Git, entornos reproducibles y Jupyter disciplinado
Conventional Commits · venv / uv · pyproject.toml · nbstripout · papermill para parametrizar notebooks · nbconvert · DVC intro · pre-commit hooks
Python + EDA (los notebooks que se versionan)
Versionar experimentos y código de ML de forma reproducible — la queja más frecuente en equipos de ML es "el modelo de hace 3 meses ya no se puede reproducir", y este tema lo previene desde el día uno. Fácil Proyecto con 3 experimentos versionados con DVC: datos en S3, código en Git, métricas trackeadas; nbstripout en pre-commit elimina outputs de notebooks antes de commit; entorno reproducible en uv sync. Cualquier commit reproduce exactamente los mismos resultados con dvc repro; notebooks no tienen outputs en Git; colega puede clonar y reproducir el mejor experimento con 2 comandos.
Feature Engineering
Feature engineering: encoding, scaling, imputación y selección
OneHotEncoding · OrdinalEncoding · target encoding · StandardScaler · RobustScaler · SimpleImputer · KNNImputer · VarianceThreshold · mutual_info · pipelines de sklearn
EDA (qué features existen) + scikit-learn básico (donde se aplican)
Construir pipelines de preprocesamiento reproducibles que transformen datos crudos en features que los modelos puedan aprender eficientemente — la etapa que más impacto tiene en el rendimiento final de cualquier modelo. Medio Pipeline completo con sklearn.Pipeline + ColumnTransformer que procesa columnas numéricas y categóricas diferenciadamente, sin data leakage; el mismo pipeline se serializa con joblib y sirve predicciones en producción. PythonSin data leakage (scaler ajustado sólo en train, no en val/test); pipeline serializado con joblib.dump y recargado produce predicciones idénticas; set_output(transform='pandas') para trazabilidad.
Competición y Portfolio
Kaggle: competiciones reales, kernels y construcción de portfolio
Leaderboard strategy · public vs private LB · cross-validation local vs LB · ensembles básicos · aprender de top kernels · documentar aprendizajes
Todo el nivel Trainee — punto de síntesis práctico
Aplicar todo lo aprendido en competiciones con datos reales y sin respuesta conocida — la forma más efectiva de desarrollar intuición práctica para ML según MLEs de Airbnb, Netflix y Google. Medio Participar en 2 competiciones Kaggle (una tabular, una de texto o imagen); documentar en un post el análisis de errores del modelo y qué habría hecho diferente; alcanzar top 30% en al menos una. PythonTop 30% en al menos una competición; post-mortem público con análisis de errores, qué features funcionaron y cuáles no, y lecciones sobre el gap LB público vs privado.
02
ÁreaTema EspecíficoObjetivoDif.RecursosProyecto / ValidaciónCriterio de Éxito
Ensemble Methods
XGBoost, LightGBM y CatBoost: gradient boosting en producción
Gradient boosting intuición · parámetros clave (n_estimators, max_depth, learning_rate) · early stopping · feature importance · SHAP values · LightGBM vs XGBoost en velocidad
scikit-learn (ML clásico) + Feature Engineering (pipelines de preprocesamiento)
Dominar los algoritmos de mayor rendimiento en datos tabulares en 2026 — XGBoost/LightGBM ganan el 70% de las competiciones Kaggle tabulares y son el modelo de producción en Airbnb, Uber y MercadoLibre para pricing y fraud. Medio Modelo de churn prediction con LightGBM: early stopping, tuning de 5 hiperparámetros con Optuna, SHAP values para los top-10 features; comparar vs LogisticRegression en velocidad de inferencia y AUC-PR. PythonEarly stopping evita overfitting verificado con curva train/val; SHAP waterfall plot para una predicción individual; LightGBM ≥5% mejor en AUC-PR que baseline; latencia de inferencia de 1000 registros <50ms.
Hyperparameter Tuning
Optuna: búsqueda bayesiana, pruning y estudios persistentes
TPE sampler · MedianPruner · study persistence en SQLite · visualizaciones de importancia de parámetros · integración con LightGBM, PyTorch · paralelización
Ensemble Methods (los modelos que se optimizan) + Git/reproducibilidad (estudios versionados)
Automatizar la búsqueda de hiperparámetros de forma eficiente con pruning que abandona trials malos temprano — lo que usa Spotify y Netflix en sus pipelines de entrenamiento automatizado. Medio Estudio Optuna con MedianPruner para el modelo de churn; persistir el estudio en SQLite para reanudar búsqueda; demostrar que el mejor trial supera el modelo del ejercicio anterior; visualizar importancia de hiperparámetros. PythonPruning reduce el número de evaluaciones completas en ≥40%; estudio reanudable tras kill del proceso; mejora documentada vs tuning manual; gráfico de importancia de parámetros exportado.
PyTorch Fundamentos
PyTorch: tensores, autograd, módulos y training loop manual
torch.Tensor · autograd y grafo computacional · nn.Module · DataLoader · Dataset · optimizadores (Adam, AdamW) · learning rate schedulers · GPU con CUDA
Cálculo (backprop que ejecuta autograd) + NumPy (transición natural a tensores) + Álgebra lineal (operaciones de red)
Implementar y entrenar redes neuronales con el framework dominante en investigación y producción de ML en 2026 — PyTorch tiene el 55%+ del mercado de producción y es el estándar en Google DeepMind, Meta AI y OpenAI. Medio Training loop completo en PyTorch para clasificación de imágenes (CIFAR-10): custom Dataset, DataLoader con augmentations, MLP de 3 capas, training loop con val loss y early stopping; mover a GPU con CUDA y medir speedup. PythonTraining loop con gradient clipping; val loss monitorizada y early stopping funcional; GPU speedup ≥5x documentado; modelo guardado y recargado con state_dict() produciendo predicciones idénticas.
Deep Learning
CNNs para computer vision: arquitecturas, transfer learning y fine-tuning
Convolución · pooling · BatchNorm · Dropout · ResNet · EfficientNet · torchvision · torchvision.transforms v2 · fine-tuning de capas específicas · gradcam
PyTorch (training loop) + Álgebra lineal (intuición de la convolución como producto punto)
Aplicar transfer learning para resolver problemas de visión con decenas de horas de entrenamiento en lugar de semanas — técnica que usa Netflix para clasificación de thumbnails y Airbnb para moderación de imágenes. Medio Fine-tuning de ResNet-50 preentrenado en ImageNet para un dataset de 5 clases custom; congelar las primeras capas, entrenar sólo el head, luego unfreezing progresivo; GradCAM para visualizar qué regiones activan la predicción. PythonFine-tuning supera training from scratch en ≥15% de accuracy con mismo presupuesto de epochs; GradCAM muestra regiones semánticamente coherentes; sin data leakage en augmentations (sólo en train, no en val).
NLP Fundamentos
NLP clásico y embeddings: TF-IDF, Word2Vec y sentence-transformers
Tokenización · stop words · TF-IDF · n-gramas · Word2Vec / GloVe · sentence-transformers · similaridad coseno · búsqueda semántica · Bag of Words
Álgebra lineal (similaridad coseno, espacio vectorial) + PyTorch (embeddings como matrices)
Representar texto como vectores y resolver problemas de clasificación, búsqueda y clustering semántico — fundamento de los sistemas de búsqueda de Spotify, recomendaciones de Netflix y moderación de Meta. Medio Motor de búsqueda semántica sobre 10k artículos de Wikipedia: indexar embeddings de sentence-transformers en FAISS; comparar TF-IDF vs embeddings en calidad de resultados para queries ambiguas; latencia <100ms por query. PythonBúsqueda semántica recupera documentos contextualmente relevantes que TF-IDF no encontraría; latencia P95 <100ms con FAISS IndexFlatIP; índice serializado y recargable sin re-embeddear.
MLflow
MLflow: experiment tracking, model registry y reproducibilidad
mlflow.log_param · mlflow.log_metric · artifact logging · Model Registry (Staging/Production) · mlflow.pytorch · comparación de runs · autologging
PyTorch (modelos a trackear) + XGBoost/LightGBM (experimentos clásicos) + Git (tracking complementario)
Trackear todos los experimentos para poder comparar, reproducir y promover modelos a producción — estándar creado por Databricks y adoptado por Airbnb, Shopify y cientos de equipos de ML. Fácil Refactorizar los experimentos anteriores para que todos loggeen a MLflow: parámetros, métricas por epoch, artefactos (curvas ROC, confusion matrix); promover el mejor modelo al Model Registry en estado "Production". PythonCualquier run reproducible con mlflow.load_model(run_id); comparación de 10+ runs en MLflow UI visible; modelo en Registry con descripción, tags de versión y transition documentada.
Serving Básico
APIs de modelos con FastAPI, Pydantic y Docker
Endpoint de inferencia · validación con Pydantic · async batch inference · health check · /metrics endpoint · imagen Docker <1GB · latencia de inferencia · warm-up
PyTorch (modelo a servir) + MLflow (modelo en registry) + Feature Engineering (pipeline de preprocessing)
Exponer modelos como APIs productizadas con validación de entrada, manejo de errores y containerización — la brecha más común entre un data scientist y un ML engineer según hiring managers de FAANG en 2025. Medio API FastAPI que carga el modelo de churn desde MLflow Registry, valida el input con Pydantic, infiere y retorna predicción + SHAP explanation; imagen Docker <1.5GB; latencia P95 <200ms; test de carga con Locust. PythonInput inválido retorna 422 con mensaje claro; model warm-up en startup event; latencia P95 <200ms bajo 50 usuarios concurrentes; imagen Docker reproducible en cualquier máquina con Docker instalado.
Evaluación Avanzada
Evaluación robusta: calibración, fairness y análisis de errores
Calibration curve · Platt scaling · isotonic regression · fairness metrics (equalized odds, demographic parity) · error analysis slicing · Shapley values · modelo vs baseline
Estadística (interpretación correcta) + SHAP (ya introducido) + scikit-learn pipelines
Evaluar modelos como un ingeniero de producción, no como un competidor de Kaggle: calibración, sesgos por grupo demográfico y análisis sistemático de dónde falla el modelo — requisito en Meta AI y Google para cualquier modelo que toca usuarios. Difícil Auditoría del modelo de churn: calibration curve (¿el 70% predicho es realmente 70% de churn?); equalized odds por segmento de cliente; error analysis por valor de features; reporte ejecutivo de hallazgos. PythonCalibration curve con Expected Calibration Error (ECE) <0.05 tras Platt scaling; fairness metrics para ≥2 grupos demográficos; los errores más costosos identificados por su impacto de negocio, no sólo por frecuencia.
03
ÁreaTema EspecíficoObjetivoDif.RecursosProyecto / ValidaciónCriterio de Éxito
Transformers
Arquitectura Transformer: attention, positional encoding y BERT/GPT
Self-attention · multi-head attention · scaled dot-product · positional encoding · encoder-only (BERT) vs decoder-only (GPT) vs encoder-decoder (T5) · KV cache
PyTorch (módulos base) + NLP Fundamentos (embeddings que el Transformer procesa) + Álgebra lineal (attention como producto de matrices)
Comprender la arquitectura que domina el 95% del ML moderno — sin entender attention, es imposible elegir el modelo correcto, hacer fine-tuning efectivo o diagnosticar comportamientos inesperados en producción. Difícil Implementar un Transformer decoder-only (GPT estilo) desde cero en PyTorch: multi-head attention, positional encoding y training loop en un dataset de texto pequeño; demostrar que genera texto coherente tras 1000 steps. PythonImplementación sin copiar código de HuggingFace; loss converge (perplexity baja) en el dataset de entrenamiento; KV cache implementado y demostrado que reduce latencia de inferencia en ≥3x.
Hugging Face
Hugging Face Transformers: inference, fine-tuning completo y Trainer API
AutoModel · AutoTokenizer · pipeline() · Trainer + TrainingArguments · datasets library · evaluate · Model Hub · tokenizer rápido vs lento
Arquitectura Transformer + PyTorch (base del framework) + MLflow (tracking de fine-tuning)
Usar el ecosistema HuggingFace para acceder a 500k+ modelos pre-entrenados y fine-tunearlos eficientemente — estándar en Spotify (LLaMA fine-tuning para recomendaciones), Meta y prácticamente toda la industria en 2026. Medio Fine-tuning de BERT para clasificación de sentimiento en reviews de productos en español; Trainer API con evaluación cada epoch; modelo subido al HuggingFace Hub con model card completa y demo en Spaces. PythonModelo en HF Hub con model card que documenta dataset, métricas y limitaciones; F1 ≥0.88 en test set; demo funcional en HuggingFace Spaces accesible públicamente; entrenamiento reproducible con seed fijado.
Parameter-Efficient FT
LoRA y QLoRA: fine-tuning eficiente de LLMs grandes
Low-Rank Adaptation · rank r y alpha · target modules · QLoRA con bitsandbytes 4-bit · PEFT library · merge de adaptadores · comparación vs full fine-tuning en VRAM y calidad
HuggingFace Transformers (modelo base) + Álgebra lineal (descomposición de matrices en LoRA) + GPU/CUDA
Fine-tunear modelos de 7B+ parámetros en una sola GPU consumer con QLoRA — técnica que usa Spotify para adaptar LLaMA a recomendaciones musicales y que hace viable el LLM fine-tuning sin infraestructura masiva. Difícil QLoRA fine-tuning de Mistral-7B en un dataset de instrucciones de dominio específico con una GPU de 24GB; comparar vs full fine-tuning en calidad (ROUGE, BLEU) y costo (VRAM, tiempo); merge del adaptador y publicación en HF Hub. PythonQLoRA usa <16GB VRAM vs 80GB+ para full fine-tuning; calidad dentro del 5% de full fine-tuning en el benchmark elegido; adaptador mergeado correctamente y cargable sin PEFT instalado; training script reproducible.
RAG
RAG: Retrieval-Augmented Generation con LangChain o LlamaIndex
Chunking strategies · embedding models · FAISS / Chroma / Qdrant · reranking con cross-encoder · query transformation · HyDE · evaluación con RAGAS · hallucination detection
NLP Fundamentos (embeddings) + HuggingFace (LLM que genera) + Serving básico (API que expone el RAG)
Construir sistemas que aumenten LLMs con conocimiento privado y actualizado — el patrón de arquitectura de IA más usado en empresas en 2026 según surveys de LLMOps, desde startups hasta Google y Meta. Difícil RAG sobre documentación técnica interna (PDFs/Markdown): chunking semántico, embeddings con text-embedding-3-small, Qdrant como vector store, reranking con cross-encoder; evaluación con RAGAS (faithfulness >0.82, relevancy >0.80). PythonRAGAS faithfulness >0.82 en dataset de 50 preguntas; reranking mejora P@5 en ≥15% vs sin reranking; latencia P95 <3s end-to-end; pipeline de evaluación ejecutable en CI para detectar regresiones.
Sistemas de Recomendación
Recomendadores: collaborative filtering, embeddings y two-tower models
Matrix factorization · ALS · implicit feedback · BPR loss · two-tower (query + item tower) · in-batch negatives · ANN search (FAISS) · offline vs online metrics
Álgebra lineal (factorización de matrices) + PyTorch (two-tower con embeddings) + NLP Fundamentos (embeddings semánticos)
Diseñar y entrenar sistemas de recomendación end-to-end — el caso de uso de ML de mayor impacto económico en Spotify (Discover Weekly), Netflix (recomendación de contenido) y Airbnb (búsqueda de alojamientos). Difícil Two-tower model en PyTorch para recomendación de películas (MovieLens 25M): user tower + item tower entrenados con in-batch negatives; servir con FAISS ANN; medir Recall@10 vs ALS; latencia de retrieval <10ms para 1M items. PythonTwo-tower supera ALS en Recall@10 en ≥8%; FAISS IndexIVFFlat con >0.95 recall@exact; latencia <10ms para retrieval; embeddings de usuario actualizables sin re-entrenar el modelo completo.
MLOps Pipeline
Kubeflow Pipelines o ZenML: pipelines ML reproducibles y CI/CD
DAG de pasos ML · containerización de componentes · artefactos versionados · pipeline caching · triggers automáticos · integración con MLflow · CI/CD para modelos
Docker (cada componente es un contenedor) + MLflow (tracking integrado) + Git (versionado del pipeline)
Automatizar el ciclo completo de entrenamiento-evaluación-despliegue para que un cambio de datos o código lance un nuevo modelo en producción sin intervención manual — práctica estándar en Google (TFX) y Airbnb. Difícil Pipeline ZenML de 5 pasos (ingest → preprocess → train → evaluate → deploy) para el modelo de churn; retrain automático si nuevos datos superan el 10% de drift; despliegue bloqueado si AUC-PR baja más del 2%. PythonPipeline reproducible desde cualquier commit con zenml pipeline run; caching evita re-entrenar si datos no cambian; quality gate bloquea deploy con evidencia en MLflow; runs visibles en ZenML dashboard.
Model Serving
Model serving: Ray Serve, TorchServe y batching dinámico
Ray Serve deployments · dynamic batching · réplicas automáticas · TorchServe handler personalizado · health checks · autoscaling basado en carga · GPU sharing
FastAPI básico (conceptos de API) + Docker + PyTorch (modelos a servir) + Sistemas de recomendación (serving de embeddings)
Servir modelos con frameworks diseñados para ML: batching dinámico que agrupa requests para maximizar el throughput de GPU — práctica que usa Airbnb con Ray Serve para sus modelos de recomendación de viajes. Difícil Servir el two-tower model con Ray Serve: dynamic batching con max_batch_size=64, autoscaling de 1 a 5 réplicas bajo carga, health check que verifica la carga del modelo; throughput ≥1000 req/s en prueba de carga. PythonThroughput ≥1000 req/s con batching vs <200 sin batching (documentado); autoscaling reactivo en <60s; 0 requests fallidos durante el scale-up; latencia P99 <50ms con GPU.
A/B Testing y Experimentación
A/B testing para modelos: diseño, potencia estadística y análisis
Diseño del experimento · sample size · power analysis · p-value · CUPED (Controlled-experiment Using Pre-Experiment Data) · guardrail metrics · online vs offline metrics gap
Estadística (fundamentos de hipótesis) + Sistemas de Recomendación (modelo a probar) + Serving (infraestructura de experimentos)
Medir el impacto real de los modelos en métricas de negocio con rigor estadístico — Airbnb, Netflix y Spotify tienen plataformas enteras de experimentación porque saben que la mejora offline no siempre se traduce en mejora online. Difícil Diseñar un experimento A/B para el recomendador: calcular sample size para detectar 1% de lift en CTR con 80% de potencia; simular el análisis con datos sintéticos aplicando CUPED; detectar si existe heterogeneidad de tratamiento por segmento. PythonCUPED reduce la varianza en ≥20% vs análisis simple (demostrado en simulación); análisis de heterogeneidad identifica al menos 1 segmento con efecto diferencial significativo; reporte con conclusión accionable para el negocio.
Observabilidad de Modelos
Model monitoring: data drift, concept drift y alertas en producción
Evidently AI · PSI (Population Stability Index) · KS test · feature drift · prediction drift · concept drift · alertas en Grafana · retraining triggers automáticos
Serving (modelo en producción) + Estadística (tests de distribución) + MLOps pipeline (trigger de retraining)
Detectar automáticamente cuando un modelo en producción está degradándose antes de que el negocio lo note — la causa más frecuente de pérdida de valor silenciosa en sistemas de ML según el ML Engineering Survey 2025. Medio Dashboard de monitoreo con Evidently: drift report semanal para las top-10 features, alerta si PSI >0.2 en alguna feature crítica, prediction drift detectado automáticamente; alert en Slack dispara pipeline de retraining. PythonDrift simulado manualmente activa alerta en <24h; PSI calculado correctamente para variables categóricas y continuas; pipeline de retraining lanzado automáticamente sin intervención humana; historial de alertas en Grafana.
04
ÁreaTema EspecíficoObjetivoDif.RecursosProyecto / ValidaciónCriterio de Éxito
Distributed Training
Entrenamiento distribuido: DDP, FSDP y DeepSpeed ZeRO
Data Parallelism · torch.distributed · DDP (DistributedDataParallel) · FSDP (Fully Sharded Data Parallel) · DeepSpeed ZeRO Stage 1/2/3 · gradient checkpointing · mixed precision (bf16/fp16)
PyTorch (training loops avanzados) + LoRA/QLoRA (qué se entrena) + GPU/CUDA + Kubernetes (cluster donde corren los jobs)
Entrenar modelos de decenas de miles de millones de parámetros en múltiples GPUs eficientemente — habilidad que distingue a los MLEs de Airbnb (12B params en 8×A100) y Meta AI (LLaMA) del resto. Experto Fine-tuning de un modelo de 13B parámetros con FSDP + DeepSpeed ZeRO-3 en un cluster de 4 GPUs; documentar la reducción de VRAM por GPU, MFU (Model FLOPS Utilization) y throughput en tokens/s vs configuración de 1 GPU. PythonMFU >40% (referencia: GPT-3 fue entrenado con ~45% MFU); VRAM por GPU reducida ≥4x con ZeRO-3 vs no sharding; training script fault-tolerant con checkpointing cada 500 steps; resultado equivalente al fine-tuning en 1 GPU.
RLHF y Alignment
RLHF, DPO e instruction tuning: alignment de LLMs
Instruction tuning (SFT) · RLHF con PPO · DPO (Direct Preference Optimization) · reward model · Constitutional AI · TRL library · dataset de preferencias · Alpaca / ShareGPT formats
HuggingFace Transformers + LoRA/QLoRA (efficiency del training) + Evaluación robusta (métricas de alineamiento)
Alinear LLMs para seguir instrucciones humanas con seguridad — el proceso que convirtió GPT-3 en ChatGPT, desarrollado por OpenAI y adoptado por Meta (LLaMA 2 Chat) y Anthropic para sus modelos de producción. Experto Pipeline DPO completo en TRL: SFT de LLaMA-3.1-8B sobre 10k instrucciones → dataset de preferencias con 3k comparaciones → DPO training → evaluación con MT-Bench y win-rate vs modelo base en 100 prompts. PythonWin-rate del modelo DPO >65% vs modelo base en evaluación ciega (LLM-as-judge con GPT-4o); MT-Bench score ≥6.5/10; regression en tareas de seguimiento de instrucciones <5%; pipeline reproducible con TRL.
LLM Inference
vLLM, TGI y optimización de inferencia de LLMs: throughput y latencia
PagedAttention (vLLM) · continuous batching · speculative decoding · KV cache management · cuantización GPTQ/AWQ · flash attention 2 · tensor parallelism para serving
Transformers (KV cache) + Distributed Training (tensor parallelism) + Ray Serve (orquestación de serving)
Servir LLMs a escala con el throughput y la latencia que demanda producción — vLLM (Berkeley) es el estándar de facto que usa Spotify para sus modelos de recomendación y la mayoría de APIs de LLM. Experto Benchmark de serving de Mistral-7B: vLLM vs TGI vs TorchServe con 50 usuarios concurrentes; cuantizar el modelo a AWQ 4-bit y medir la degradación de calidad vs speedup; documentar costo por millón de tokens para cada configuración. PythonvLLM ≥3x mayor throughput que TorchServe naive en test de carga; AWQ 4-bit reduce VRAM en ≥50% con <3% de degradación en MMLU; benchmark script reproducible con locust; costo por token documentado.
Optimización de Modelos
Model compression: quantization, pruning, distillation y ONNX
Post-training quantization (PTQ) · Quantization-aware training (QAT) · structured vs unstructured pruning · knowledge distillation · ONNX export · TensorRT · latencia en edge/CPU
PyTorch avanzado + Evaluación robusta (medir degradación) + vLLM/serving (objetivo de optimización)
Reducir el tamaño y la latencia de modelos para deployment en infraestructura restringida — las técnicas que usa Google para sus modelos en Android y Meta para modelos en dispositivos móviles con latencia <10ms. Experto Comprimir el modelo de churn (o un ResNet): PTQ INT8 con ONNX Runtime, knowledge distillation desde el modelo grande, medir en CPU: accuracy, latencia P99 y tamaño del artefacto para cada técnica en tabla comparativa. PythonINT8 ONNX ≥3x más rápido que PyTorch FP32 en CPU; degradación de accuracy <1.5%; distillation supera PTQ en quality-speed tradeoff documentado; artefacto ONNX serializable y deployable sin PyTorch instalado.
LLM Evaluation
Evaluación de LLMs: benchmarks, LLM-as-judge y red-teaming
MMLU · HumanEval · MT-Bench · LM Evaluation Harness · LLM-as-judge (GPT-4o) · red-teaming sistemático · jailbreaking categories · bias y toxicidad · TruthfulQA
RLHF/DPO (modelos a evaluar) + Evaluación robusta Junior (framework de evaluación extendido) + RAG (evaluación con RAGAS)
Evaluar LLMs con rigor para comunicar capacidades y limitaciones al negocio con honestidad — habilidad crítica en cualquier equipo que despliega modelos que tocan usuarios, exigida en OpenAI, Anthropic y Google DeepMind. Experto Evaluación completa del modelo DPO: MMLU, HumanEval, TruthfulQA con LM Eval Harness; red-teaming con 50 prompts adversariales clasificados por categoría OWASP LLM Top 10; model card con todas las métricas y limitaciones documentadas. PythonEvaluación reproducible con LM Eval Harness en un script; red-team identifica al menos 2 categorías con tasa de fallo >20%; model card con métricas de fairness, conocimiento de corte y casos de uso no recomendados.
ML System Design
Diseño de sistemas ML: ranking, búsqueda y recomendación a escala
Candidate retrieval → ranking → reranking · multi-stage pipelines · feature freshness · cold start · online learning · embedding serving con ANN · trade-offs latencia/calidad
Sistemas de Recomendación (base) + vLLM/serving (infraestructura) + Feature Stores (Feast) + A/B Testing (medición de impacto)
Diseñar sistemas de recomendación y búsqueda que escalen a millones de usuarios con latencia <100ms — arquitectura multi-stage que usan Spotify (Discover Weekly), Netflix (homepage) y Airbnb (búsqueda de alojamientos). Experto Diseñar el sistema de recomendación de Spotify (Discover Weekly) a escala de 600M usuarios: retrieval (two-tower) → pre-ranking → ranking → reranking con diversity; documentar SLAs, feature freshness y estrategia de cold-start; ADR con arquitectura y alternativas. Diagrama completo con todos los componentes y flujos; latencia SLA de <100ms para recomendación online justificado por etapas; estrategia de cold-start para nuevos usuarios/items; ADR con análisis de 2 alternativas de arquitectura descartadas.
Responsible AI
Responsible AI: interpretabilidad, bias audits y privacy-preserving ML
SHAP global · LIME · anchors · fairness metrics (demographic parity, equalized odds) · differential privacy (DP-SGD) · federated learning conceptos · model cards · EU AI Act compliance
Evaluación robusta Junior + LLM Evaluation (red-teaming) + Data Governance (DE roadmap — punto de contacto)
Construir y auditar sistemas de ML que sean explicables, justos y privacy-preserving — requisito legal bajo el EU AI Act 2026 para sistemas de "alto riesgo" y estándar ético en Google, Meta y Microsoft. Difícil Auditoría completa de un modelo de crédito: SHAP global, fairness audit por género y etnia, DP-SGD training con epsilon=1.0 y comparación de accuracy; model card con todas las limitaciones; clasificación EU AI Act del sistema. PythonFairness audit con equalized odds para ≥2 grupos protegidos; DP-SGD con privacy budget documentado y trade-off de accuracy cuantificado; model card aprobable para sistema de crédito EU AI Act high-risk.
GPU Infrastructure
GPU infrastructure: Kubernetes + KubeRay, spot instances y cost optimization
KubeRay operator · Ray clusters elásticos · spot instance fault-tolerance · NVIDIA GPU Operator · priority queues · GPU time-sharing · costo por experimento · SageMaker vs self-managed
Kubernetes (orquestación) + Distributed Training (workloads GPU) + Ray Serve + FinOps (costo)
Operar infraestructura de GPU eficientemente para balancear velocidad de iteración con costo — un cluster de A100 mal configurado puede costar $50k/mes extra según benchmarks de Airbnb en su plataforma de ML con Ray. Experto Cluster KubeRay en AWS con spot instances para training y on-demand para serving; checkpointing cada 100 steps para tolerancia a interrupciones de spot; dashboard de costo por experimento; reducción ≥40% del bill de GPU vs on-demand puro. PythonTraining reanuda desde checkpoint automáticamente tras interrupción de spot; costo por experimento visible en dashboard Grafana; reducción ≥40% documentada con factura AWS; 0 jobs perdidos en 30 días de operación.
05
ÁreaTema EspecíficoObjetivoDif.RecursosProyecto / ValidaciónCriterio de Éxito
Foundation Models
Pre-training de LLMs: scaling laws, arquitecturas modernas y datos de entrenamiento
Chinchilla scaling laws · Llama 3 / Mistral / Qwen arquitecturas · tokenización (BPE, SentencePiece) · curación de datos de pre-training · deduplication · curriculum learning · Megatron-LM
Distributed Training (infraestructura base) + RLHF/DPO (pipeline post-training) + Data Engineering (pipelines de datos de training)
Entender y eventualmente dirigir el pre-training de modelos propios — habilidad que separa a los ingenieros de OpenAI, Google DeepMind y Meta AI del resto, y que muchas empresas large-scale necesitan para modelos de dominio específico. Experto Pre-training de un modelo de 1.3B parámetros desde cero sobre un corpus de dominio específico (código, legal o médico): diseñar el data mixture con Chinchilla scaling laws, tokenizer propio con SentencePiece, training con Megatron-LM en 8 GPUs. PythonPerplexity en dominio objetivo supera LLaMA-3.1-8B en ≥15%; loss curve sin spikes anómalos; training cost documentado con estimación de cuánto costaría escalar a 7B con los mismos datos; data mixture justificado con ablation.
Modelos Multimodales
Modelos visión-lenguaje: CLIP, LLaVA y sistemas multimodales de producción
CLIP contrastive training · vision encoder + LLM connector · LLaVA architecture · image-text instruction tuning · multimodal RAG · visual grounding · Qwen-VL · Gemini-style architecture
Transformers (arquitectura base) + CNNs (vision encoder) + RLHF (alignment multimodal) + Foundation Models
Diseñar y operar sistemas que procesen imagen y texto conjuntamente — la dirección dominante de los modelos de producción en 2026 desde Google (Gemini) hasta Meta (Llama 3.2 Vision) y Airbnb (moderación de fotos). Experto Sistema de moderación de imágenes multimodal: CLIP para retrieval de imágenes similares a ejemplos de política + LLaVA para clasificación detallada con justificación en texto; pipeline en producción sirviendo 10k imágenes/día. PythonPrecision@1 de CLIP retrieval >0.90 en dataset de evaluación de moderación; LLaVA justificación coherente con la predicción en >85% de casos evaluados por humano; latencia pipeline completo <2s P95.
Agentes y Sistemas Autónomos
Sistemas agenticos: tool use, multi-agent y producción con LangGraph
Function calling · tool use · ReAct · LangGraph state machines · multi-agent coordination · memory (short/long-term) · observabilidad de agentes · safety en entornos agenticos
RAG (recuperación de conocimiento) + LLM Evaluation (red-teaming de agentes) + LLM Inference (latencia de cada step) + Responsible AI
Arquitectar sistemas de agentes autónomos que ejecuten workflows complejos de forma confiable — el paradigma de IA más demandado en 2026 desde customer support hasta generación de código en GitHub Copilot y Devin. Experto Agente de análisis financiero con LangGraph: tools para consultar DBs, ejecutar código Python, buscar noticias y generar reportes; human-in-the-loop para decisiones de alto impacto; tasa de resolución autónoma >75% en dataset de eval de 100 tareas. PythonTasa de resolución autónoma >75% en eval dataset; human-in-the-loop activa correctamente ante incertidumbre alta; 0 tool calls innecesarios (eficiencia del agente medida); traza completa del grafo disponible con OpenTelemetry.
ML Platform Engineering
ML Platform: self-serve experimentation, model catalog y paved roads
Internal ML platform · experimento self-serve para DS y MLE · model catalog con model cards · paved roads para fine-tuning · Backstage para ML · training job templates · developer experience
MLOps Pipeline + GPU Infrastructure + Model Registry (MLflow) + Feature Stores
Construir la plataforma de ML interna que permite a cualquier data scientist lanzar un experimento, fine-tunar un LLM y desplegar un modelo en producción sin intervención del equipo de plataforma — escalabilidad sub-lineal del impacto. Experto Template en la plataforma ML que provisiona: repo con pipeline ZenML, tracking MLflow, feature store conectado, model card template y endpoint de serving en Ray Serve; DS sin conocimiento de infra puede lanzar primer experimento en <1 día. Tiempo de primer experimento de días a <1 día; adopción >75% de los equipos de DS/MLE sin soporte del platform team; developer NPS de la plataforma >35; 0 experimentos sin tracking (enforced por CI).
AI Safety a Escala
AI Safety en producción: red-teaming sistemático, guardrails y audit trails
Red-teaming con Garak / PyRIT · Constitutional AI (Anthropic) · guardrails con NVIDIA NeMo / Guardrails AI · prompt injection detection · model audit trails · EU AI Act high-risk compliance
LLM Evaluation (red-teaming Junior) + Responsible AI (fairness y privacy) + Agentes (nuevo surface de ataque) + Data Governance
Diseñar y operar programas de seguridad de IA a escala organizacional que garanticen que los sistemas de IA en producción son seguros, auditables y conformes con la regulación — requisito de cualquier empresa en mercados regulados en 2026. Experto Programa de red-teaming automatizado con Garak para todos los LLMs en producción: 500+ prompts por categoría OWASP LLM Top 10, guardrails NeMo Guardrails que bloquean ≥95% de intentos, audit trail en S3; mapa de compliance EU AI Act. PythonRed-teaming corre en CI ante cada nuevo deploy de LLM; guardrails bloquean ≥95% de jailbreaks del test set; audit trail inmutable de todos los outputs almacenado; compliance EU AI Act documentado con evidencias técnicas.
Research to Production
Reproducir y productizar papers: de arXiv a sistema en producción
Critical reading de papers · reproducibilidad de resultados · delta de benchmark vs producción · RFC de implementación · ablation studies · comparación vs alternatives · productización incremental
Todo el nivel Senior — requiere comprensión profunda del stack para evaluar la viabilidad técnica de un paper
Transformar avances de investigación en sistemas productivos rentables — habilidad que distingue a los MLEs de labs de investigación como DeepMind y Meta AI que mueven la industria de una publicación a un producto. Experto Seleccionar un paper de los últimos 6 meses relevante para el negocio (recomendación, NLP, visión), reproducir sus resultados principales, identificar el gap con producción y proponer un RFC de implementación gradual con A/B test. PythonResultados del paper reproducidos dentro del ±10% de los reportados; gap de producción identificado con al menos 3 factores concretos; RFC aprobado por el equipo con métricas de éxito y plan de rollout del 1% al 100%.
Estrategia Técnica ML
ML strategy: roadmap de 18 meses, build vs buy y OKRs de IA
Foundation model strategy · build vs fine-tune vs API · make vs buy decision framework · ML OKRs · ROI de iniciativas de IA · capacity planning de GPU · deuda técnica de ML · talent strategy
Todo el nivel Staff — punto de síntesis de la experiencia técnica y organizacional acumulada
Definir la dirección técnica de ML para toda la organización con impacto medible en el negocio — la diferencia entre un Staff que ejecuta y uno que construye ventaja competitiva duradera a través de la IA. Experto Documento de estrategia ML de 18 meses para una empresa de 500 personas: decisión build/fine-tune/API para los 5 casos de uso de IA prioritarios, OKRs por iniciativa, plan de GPU capacity, roadmap de deuda técnica y plan de hiring con perfiles. Aprobado por CTO y VPs con tracking trimestral; decisiones build/buy documentadas con análisis de TCO y lock-in; OKRs con métricas de negocio, no sólo técnicas; capacity plan de GPU validado por Finance con casos Base/Optimista/Pesimista.
Community & Research
Open source, investigación original y thought leadership en ML
Contribuciones a PyTorch / HuggingFace / vLLM · publicación en NeurIPS / ICML / ICLR · engineering blog · mentoring · CFP de MLconf / PyData · reproducibility checklist
Todo el nivel Staff — impacto técnico acumulado que se amplifica externamente
Amplificar el impacto más allá de la organización construyendo reputación en la comunidad de ML que atrae talento de primera línea, genera influencia en el ecosistema y retroalimenta con los avances más recientes del campo. Experto Contribución aceptada a PyTorch, HuggingFace o vLLM (PR con impacto real); paper o workshop en NeurIPS, ICML o conferencia regional; post técnico con >2000 lecturas; 2 MLEs junior mentoreados a nivel SSR en <12 meses. PythonPR mergeada en repo con >10k stars; paper o workshop aceptado con revisión ciega; mentorado alcanza SSR en <12 meses; post técnico indexado en Papers With Code o Hugging Face Daily Papers.