Job Openings
MLOps Engineer
About the job MLOps Engineer
Si disfrutas optimizando entornos de producción, asegurando escalabilidad, confiabilidad y trabajando con tecnologías de vanguardia en observabilidad, Agentes IA y Machine Learning, ¡te queremos en nuestro equipo!
¿Qué harás como MLOps?
- Diseñar, desplegar y gestionar infraestructuras cloud escalables en AWS, GCP o Azure, optimizadas para entornos de datos y ML.
- Automatizar procesos mediante Terraform, Ansible, Helm y Kubernetes.
- Implementar pipelines de CI/CD para la entrega continua de modelos, agentes y soluciones de observabilidad.
- Administrar contenedores y orquestación con Docker y Kubernetes (EKS), integrando servicios de datos, IA y backend.
- Desarrollar y mantener pipelines de entrenamiento, validación e inferencia reproducibles (Airflow, MLflow, DVC, Spark).
- Gestionar y optimizar sistemas de monitoreo y logging con Prometheus, Grafana, ELK/EFK o OpenTelemetry.
- Garantizar la seguridad, resiliencia y disponibilidad de las plataformas en la nube.
- Integrar el ciclo completo Data ML Deployment Monitoring, colaborando con equipos de Data, AI y DevOps.
- Colaborar con equipos de Machine Learning para empaquetar y desplegar modelos y agentes IA en producción.
- (Plus avanzado) Participar en el diseño de pipelines híbridos que integren ML tradicional, IA generativa y agentes basados en LLM (LangGraph, LangChain, CrewAI).
Lo que necesitamos de ti
- Formación en Ingeniería Informática, Software, Telecomunicaciones o áreas afines.
- +3 años de experiencia en automatización, despliegue o administración de infraestructura en la nube.
- Experiencia sólida en infraestructura como código (Terraform, Helm, Ansible) y automatización de despliegues.
- Conocimiento profundo de Linux, redes, y administración de sistemas distribuidos.
- Experiencia práctica con CI/CD (GitLab CI, Jenkins, ArgoCD, FluxCD).
- Conocimientos en contenedores y orquestación (Docker, Kubernetes).
- Experiencia en MLflow, DVC o Vertex AI para gestión de modelos y datasets.
- Conocimiento en monitorización, logging y observabilidad (Prometheus, Grafana, ELK, OpenTelemetry).
- Familiaridad con bases de datos SQL y NoSQL (PostgreSQL, TimescaleDB, MongoDB).
- Habilidad para resolver incidencias en sistemas productivos de alto tráfico, optimizando disponibilidad y costos.
- Habilidades de comunicación y colaboración para trabajar con equipos multidisciplinarios (Data, ML, Backend, Infra).
Si además tienes ¡Suma puntos extra!
- Experiencia con Kafka, Redpanda o Benthos en sistemas de mensajería o streaming.
- Conocimientos en serverless y arquitecturas event-driven (AWS Lambda, SNS/SQS).
- Experiencia con observabilidad avanzada y métricas de rendimiento de modelos y sistemas.
- Conocimientos en SRE (Site Reliability Engineering).
- Experiencia con MLOps de última generación (Kubeflow, MLflow).
- Familiaridad con prácticas para despliegues automatizados.
- Conocimientos en infraestructura para IA generativa (GPU, containers optimizados, RAG serving).
- Nivel de inglés técnico avanzado, tanto oral como escrito, para comunicación con equipos y partners internacionales.