Location Limerick

Country Irland

Category Entwicklung und Produktmanagement

Type Vollzeit

Experience Senior

Language Englisch

Nachhaltigkeit, die Geschäft bedeutet

Wer wir sind:

Der Spezialist für Nachhaltigkeitssoftware, AMCS, hat seinen Hauptsitz in Irland und Niederlassungen in Europa, den USA und Australasien. Mit über 1.300 hochqualifizierten Mitarbeitern in 22 Ländern sind wir darauf spezialisiert, technologische Lösungen zu liefern, um eine klimaneutrale Zukunft zu ermöglichen.

Was wir tun:

Unsere innovativen SaaS-Lösungen steigern die Effizienz und fördern die Nachhaltigkeit in ressourcenintensiven Branchen. Über 5.000 Kunden in 23 Ländern profitieren bereits von unserer Performance Sustainability Software, die sicherstellt, dass wir praktische Lösungen für bessere Rentabilität und ökologische Resilienz weltweit liefern.

Unser Volk

AMCS bietet Teammitgliedern mehr als nur einen Job, sondern auch die Möglichkeit, eine Karriere bei einem Unternehmen zu gestalten, das wächst, sich weiterentwickelt und neue Arbeitsweisen entwickelt, die einen positiven Einfluss auf die Welt um uns herum haben. AMCS wurde in Irland gegründet und hält an diesen lokalen Wurzeln und der 'Start-up'-Mentalität fest mit einer Kultur der Verbundenheit. Verbindung zu unserer Arbeit, Unsere Kunden, unsere Kollegen und unsere Gemeinschaft schaffen ein Arbeitsumfeld, das Offenheit, Zusammenarbeit und Kreativität fördert.

Stellenbeschreibung:

Wir suchen einen hochqualifizierten und motivierten DevOps/SRE Tech Lead, der unser dynamisches Engineering-Team verstärkt. Der ideale Kandidat verfügt über ein tiefes Verständnis von Cloud-Technologien, einen soliden technischen Hintergrund und eine Leidenschaft für operative Exzellenz. Als Tech Lead betreuen und begleiten Sie nicht nur unsere DevOps-Ingenieure, sondern nehmen auch an architektonischen und wichtigen Entscheidungsforen bezüglich unserer Infrastruktur- und Anwendungsentwicklungsprozesse teil, wobei der Fokus stets auf der Zuverlässigkeit unserer Systeme liegt und der Fokus auf eine positive Kundenerfahrung liegt. Sie arbeiten mit funktionsübergreifenden Teams zusammen, um die Zuverlässigkeit, Skalierbarkeit und Sicherheit unserer Systeme und Infrastruktur sicherzustellen.

Wichtige Aufgaben:

Erstellen Sie SLIs, SLOs und SLAs: Arbeiten Sie mit Entwicklungs- und Geschäftsteams zusammen, um Indikatoren und Ziele zu definieren, die das echte Kundenerlebnis widerspiegeln
Reaktion auf Vorfälle: Führen Sie durch komplexe Vorfälle und verbessern Sie kontinuierlich, wie schnell wir Probleme erkennen, diagnostizieren und lösen – indem wir Alarm-, Werkzeug- und Bereitschaftspraxis schärfen, um MTTD und MTTR im Laufe der Zeit zu verkürzen.
Entwickeln Sie den Monitoring- und Observability-Stack: Den Observability-Stack (Prometheus, Grafana, Mimir, Loki, Tempo, OpenTelemetry) kontinuierlich mit einer kundenorientierten Linse zu verbessern, die unsere Abläufe effektiver macht
Drive-RCAs und Postmortems: Führe schuldlose Ursachenanalysen und Postmortems durch, die Vorfälle in dauerhafte Verbesserungen verwandeln und die Entwickler- und Betriebsschleife schließen
Hohe Verfügbarkeit & Leistung: Stellen Sie sicher, dass die Verfügbarkeit und Responsivität der Plattform den Kundenerwartungen entsprechen. Identifizieren und beseitigen Sie Leistungsengpässe, bevor sie den Kunden beeinträchtigen
KI für Operationen: Wenden Sie KI/LLM-Fähigkeiten auf Vorfalltriage, Log-/Trace-Analyse, Runbook-Ausführung und Anomalieerkennung an, um MTTR zu verkürzen und die On-Call-Last zu reduzieren.
Kostenoptimierung: Workloads richtig dimensioniert, Verschwendung eliminieren und für kosteneffiziente Skalierung über unsere Cloud-Plattformen (Azure, AWS, GCP) und Container-Infrastruktur (Docker, Kubernetes) hinweg entwerfen.

Arbeitsverringerung: Entwickeln Sie automatisierte Prozesse, um den Aufwand innerhalb der SRE zu reduzieren, wie etwa die Behebung bekannter Fehlermodi, damit sich die Plattform wo möglich selbst heilt, und nur dann zu Menschen eskaliert, wenn wirklich ein Urteil erforderlich ist.
Architektonische Aufsicht: Beteiligen Sie sich an architektonischen Design- und Entscheidungsprozessen und stellen Sie sicher, dass Designentscheidungen mit den Zielen und Best Practices der Organisation übereinstimmen.

Wie Erfolg aussieht:

Hochsignalwarnung: Warnungen sind genau und umsetzbar – wenn etwas ausgelöst wird, ist es wichtig, und das Team vertraut darauf. Lärm wird aktiv reduziert und nicht toleriert.
Weniger Produktionsvorfälle: Zahl und Schwere von kundenbetreffenden Vorfällen gehen im Laufe der Zeit zurück, da wiederkehrende Fehlerarten an der Wurzel angegangen werden und nicht umgangen werden.
Enge Produkt-SRE-Rückkopplungsschleife: Kontinuierliches, zweiseitiges Feedback zwischen Produktentwicklung und SRE – Zuverlässigkeitsfragen prägen das, was gebaut wird, und operative Erkenntnisse fließen in Produktentscheidungen zurück.
Weniger Arbeit: Ingenieure verbringen weniger Zeit mit repetitiver operativer Arbeit und mehr Zeit mit Verbesserungen, die sich zusammensetzen – gemessen daran, was automatisiert, eliminiert oder sich selbst entfernt wird.

Qualifikationen:

Ausbildung: Bachelor-Abschluss in Informatik, Ingenieurwesen oder einem verwandten Fachgebiet (oder gleichwertige Erfahrung).
Erfahrung: 5+ Jahre Erfahrung in DevOps, Site Reliability Engineering (SRE) oder verwandten Bereichen, davon mindestens 2 Jahre in einer Führungs- oder Mentoring-Rolle.
Cloud-Technologien: Tiefes Verständnis von Cloud-Anbietern (Azure, AWS, GCP) und praktische Erfahrung mit Cloud-Architektur.
Architektonisches Design: Nachgewiesene Erfahrung in der architektonischen Aufsicht sowie eine starke Fähigkeit, fundierte Entscheidungen zu treffen, die Systemleistung und Skalierbarkeit vorantreiben.
Containerisierung: Nachgewiesene Erfahrung mit Container-Orchestrierungsplattformen, insbesondere Kubernetes.
Skripting: Kenntnisse in Skriptsprachen wie PowerShell, Python oder Bash.
Überwachung und Protokollierung: Vertrautheit mit Überwachungs- und Logging-Tools wie Prometheus, Grafana und dem Grafana-Stack.
Automatisierungstools: Erfahrung mit Automatisierungstools wie Ansible, Terraform oder Chef.
Soft Skills: Starke Führungsqualitäten, ausgezeichnete Kommunikationsfähigkeiten und eine kooperative Einstellung.

Bevorzugte Qualifikationen:

Erfahrung mit CI/CD-Pipelines und relevanten Tools (Azure DevOps, Jenkins, GitLab CI, CircleCI usw.).
Kubernetes-Zertifizierungen (CKA, CKAD) und/oder Cloud-Zertifizierungen (Azure, AWS, GCP) sind sehr wünschenswert.
Wissen über Sicherheits-Best Practices und Compliance-Standards in Cloud-Umgebungen.
Vertrautheit mit agilen Methoden und Projektmanagement-Tools.

#LI-JA1