Location Dublin

Country Irlande

Category

Type À temps plein

Experience Senior

Language Anglais

Une durabilité qui signifie des affaires

Qui nous sommes :

Le spécialiste des logiciels de durabilité, AMCS, a son siège en Irlande, avec des bureaux en Europe, aux États-Unis et en Australasie. Avec plus de 1 300 employés hautement qualifiés dans 22 pays, nous sommes spécialisés dans la fourniture de solutions technologiques pour faciliter un avenir neutre en carbone.

Ce que nous faisons :

Nos solutions SaaS innovantes augmentent l’efficacité et renforcent la durabilité dans les secteurs gourmands en ressources. Plus de 5 000 clients dans 23 pays bénéficient déjà de notre logiciel Performance Sustainability, garantissant que nous proposons des solutions pratiques pour améliorer la rentabilité et la résilience environnementale à travers le monde.

Notre peuple

AMCS offre aux membres de l’équipe bien plus qu’un emploi, mais aussi une opportunité de tracer une carrière au sein d’une entreprise en pleine croissance, évoluant et innovant de nouvelles façons de travailler qui ont un impact positif sur le monde qui nous entoure. AMCS a été fondée en Irlande et conserve ses racines locales et sa mentalité de « start-up » avec une culture de connexion. Connexion à notre travail, Nos clients, nos collègues et notre communauté créent un environnement de travail favorisant l’ouverture, la collaboration et la créativité.

Description du poste :

Nous recherchons un Tech Lead DevOps/SRE hautement qualifié et motivé pour rejoindre notre équipe d’ingénierie dynamique. Le candidat idéal aura une compréhension approfondie des technologies cloud, une solide formation technique et une passion pour l’excellence opérationnelle. En tant que Tech Lead, vous mentorez et guiderez non seulement nos ingénieurs DevOps, mais participerez également à des forums architecturaux et de prise de décision clés concernant nos processus d’infrastructure et de développement d’applications, veillant à ce que l’accent soit toujours mis sur la fiabilité de nos systèmes et sur une expérience client positive. Vous collaborerez avec des équipes interfonctionnelles pour garantir la fiabilité, la scalabilité et la sécurité de nos systèmes et infrastructures.

Responsabilités clés :

Construisez des SLI, SLO et SLA : Collaborer avec les équipes de développement et d’affaires pour définir des indicateurs et des objectifs reflétant une véritable expérience client
Intervention en cas d’incident : Dirigez lors d’incidents complexes et améliorez continuellement la rapidité avec laquelle nous détectons, diagnostiquons et résolvons les problèmes — affinant les alertes, les outils et les pratiques d’astreinte pour raccourcir MTTD et MTTR au fil du temps.
Pile de surveillance et d’observabilité Evolve : Améliorer constamment la pile d’observabilité (Prometheus, Grafana, Mimir, Loki, Tempo, OpenTelemetry) avec un objectif centré sur le client rendant nos opérations plus efficaces
Pilotez RCA et Post-mortem : Effectuez des analyses de causes profondes sans faute et des analyses post-mortems qui transforment les incidents en améliorations durables, fermant ainsi la boucle du développeur et des opérations
Haute disponibilité et performances : Assurez-vous que la disponibilité et la réactivité de la plateforme répondent aux attentes des clients. Identifier et éliminer les goulets d’étranglement de performance avant qu’ils n’impactent le client
IA pour les opérations : Appliquer des capacités d’IA/LLM au triage des incidents, à l’analyse des logs/traces, à l’exécution du runbook et à la détection d’anomalies afin de raccourcir le MTTR et de réduire la charge en appel.
Optimisation du coût : Des charges de travail de taille adéquate, éliminez le gaspillage et concevez une mise à l’échelle rentable sur nos plateformes cloud (Azure, AWS, GCP) et l’infrastructure de conteneurs (Docker, Kubernetes).

Réduction de la fatigue : Construire des processus automatisés pour réduire la corvée au sein du SRE, comme la remise en question des modes de défaillance connus afin que la plateforme se répare elle-même lorsque c’est possible, en ne remontant vers les humains que lorsque le jugement est réellement nécessaire.
Supervision architecturale : Participer aux processus de conception architecturale et de prise de décision, en veillant à ce que les choix de conception soient alignés avec les objectifs organisationnels et les meilleures pratiques.

À quoi ressemble le succès :

Alerte à haute fréquence : Les alertes sont précises et exploitables — quand quelque chose se déclenche, cela compte, et l’équipe y fait confiance. Le bruit est activement réduit plutôt que toléré.
Moins d’incidents de production : Le nombre et la gravité des incidents impactant les clients diminuent au fil du temps, car les modes de défaillance récurrents sont abordés à la racine plutôt que contournés.
Boucle de rétroaction produit–SRE serrée : Un retour continu et bidirectionnel entre l’ingénierie produit et le SRE — les préoccupations de fiabilité façonnent ce qui est construit, et les apprentissages opérationnels se réintègrent dans les décisions produit.
Réduction du travail : Les ingénieurs passent moins de temps sur des tâches opérationnelles répétitives et plus de temps sur des améliorations qui s’accumulent — mesurées par ce qui est automatisé, éliminé ou réparé par lui-même.

Qualifications :

Formation : Licence en informatique, ingénierie ou dans un domaine connexe (ou expérience équivalente).
Expérience : 5+ ans d’expérience en DevOps, ingénierie de fiabilité de site (SRE) ou domaines connexes, avec au moins 2 ans dans un rôle de direction ou de mentorat.
Technologies cloud : Compréhension approfondie des fournisseurs cloud (Azure, AWS, GCP) et expérience pratique de l’architecture cloud.
Conception architecturale : Expérience avérée dans la supervision architecturale, avec une forte capacité à prendre des décisions éclairées qui favorisent la performance et l’évolutivité du système.
Conteneur : Expérience éprouvée avec les plateformes d’orchestration de conteneurs, en particulier Kubernetes.
Scénario : Maîtrise des langages de script tels que PowerShell, Python ou Bash.
Surveillance et enregistrement : Familiarité avec des outils de surveillance et de journalisation comme Prometheus, Grafana et la pile Grafana.
Outils d’automatisation : Expérience avec des outils d’automatisation tels qu’Ansible, Terraform ou Chef.
Compétences relationnelles : De solides qualités de leadership, d’excellentes compétences en communication et un état d’esprit collaboratif.

Qualifications préférées :

Expérience avec les pipelines CI/CD et les outils pertinents (Azure DevOps, Jenkins, GitLab CI, CircleCI, etc.).
La certification Kubernetes (CKA, CKAD) et/ou les certifications cloud (Azure, AWS, GCP) sont très recherchées.
Connaissance des meilleures pratiques de sécurité et des normes de conformité dans les environnements cloud.
Familiarité avec les méthodologies Agile et les outils de gestion de projet.

#LI-JA1

Site Reliability Engineering Technical Lead