Job Openings MLOps Engineer

About the job MLOps Engineer

Si disfrutas optimizando entornos de producción, asegurando escalabilidad, confiabilidad y trabajando con tecnologías de vanguardia en observabilidad, Agentes IA y Machine Learning, ¡te queremos en nuestro equipo!

¿Qué harás como MLOps?

  • Diseñar, desplegar y gestionar infraestructuras cloud escalables en AWS, GCP o Azure, optimizadas para entornos de datos y ML.
  • Automatizar procesos mediante Terraform, Ansible, Helm y Kubernetes.
  • Implementar pipelines de CI/CD para la entrega continua de modelos, agentes y soluciones de observabilidad.
  • Administrar contenedores y orquestación con Docker y Kubernetes (EKS), integrando servicios de datos, IA y backend.
  • Desarrollar y mantener pipelines de entrenamiento, validación e inferencia reproducibles (Airflow, MLflow, DVC, Spark).
  • Gestionar y optimizar sistemas de monitoreo y logging con Prometheus, Grafana, ELK/EFK o OpenTelemetry.
  • Garantizar la seguridad, resiliencia y disponibilidad de las plataformas en la nube.
  • Integrar el ciclo completo Data ML Deployment Monitoring, colaborando con equipos de Data, AI y DevOps.
  • Colaborar con equipos de Machine Learning para empaquetar y desplegar modelos y agentes IA en producción.
  • (Plus avanzado) Participar en el diseño de pipelines híbridos que integren ML tradicional, IA generativa y agentes basados en LLM (LangGraph, LangChain, CrewAI).

Lo que necesitamos de ti

  • Formación en Ingeniería Informática, Software, Telecomunicaciones o áreas afines.
  • +3 años de experiencia en automatización, despliegue o administración de infraestructura en la nube.
  • Experiencia sólida en infraestructura como código (Terraform, Helm, Ansible) y automatización de despliegues.
  • Conocimiento profundo de Linux, redes, y administración de sistemas distribuidos.
  • Experiencia práctica con CI/CD (GitLab CI, Jenkins, ArgoCD, FluxCD).
  • Conocimientos en contenedores y orquestación (Docker, Kubernetes).
  • Experiencia en MLflow, DVC o Vertex AI para gestión de modelos y datasets.
  • Conocimiento en monitorización, logging y observabilidad (Prometheus, Grafana, ELK, OpenTelemetry).
  • Familiaridad con bases de datos SQL y NoSQL (PostgreSQL, TimescaleDB, MongoDB).
  • Habilidad para resolver incidencias en sistemas productivos de alto tráfico, optimizando disponibilidad y costos.
  • Habilidades de comunicación y colaboración para trabajar con equipos multidisciplinarios (Data, ML, Backend, Infra).

Si además tienes ¡Suma puntos extra!

  • Experiencia con Kafka, Redpanda o Benthos en sistemas de mensajería o streaming.
  • Conocimientos en serverless y arquitecturas event-driven (AWS Lambda, SNS/SQS).
  • Experiencia con observabilidad avanzada y métricas de rendimiento de modelos y sistemas.
  • Conocimientos en SRE (Site Reliability Engineering).
  • Experiencia con MLOps de última generación (Kubeflow, MLflow).
  • Familiaridad con prácticas para despliegues automatizados.
  • Conocimientos en infraestructura para IA generativa (GPU, containers optimizados, RAG serving).
  • Nivel de inglés técnico avanzado, tanto oral como escrito, para comunicación con equipos y partners internacionales.