Role Description
Als Site Reliability Engineer in unserem Platform Squad wirst du eine Schlüsselrolle dabei spielen, Flips Infrastruktur schnell, belastbar und bereit für Skalierung zu halten. Du wirst die Reliability-Kultur, Tools und Praktiken gestalten, die es unseren Engineering-Teams ermöglichen, mit Vertrauen zu veröffentlichen – im großen Maßstab und ohne Kompromisse bei der Verfügbarkeit. Diese Rolle ist perfekt für einen Engineer mit Leidenschaft für den Aufbau von Hochdurchsatz- und hochverfügbaren Systemen, der mitgestalten möchte, wie eine schnell wachsende SaaS-Plattform im Produktivbetrieb läuft.
-
Skalierung ermöglichen: Erweitere und optimiere unsere Cloud-Infrastruktur auf Azure und unsere Kubernetes-Cluster – ausgelegt auf hohen Durchsatz und höchste Verfügbarkeit – um das schnelle weltweite Wachstum von Flip zu unterstützen.
-
Resilienz & Sicherheit gewährleisten: Entwirf und implementiere Zero-Downtime-Deployments, Rollback-Mechanismen und Disaster-Recovery-Strategien, die unsere Plattform rund um die Uhr verfügbar halten.
-
Observability schaffen: Entwickle unseren LGTM-Stack (Loki, Grafana, Tempo, Mimir) weiter, um jedem Team die nötige Sichtbarkeit zu geben – und nutze ihn, um unsere SLOs zu definieren und zu optimieren.
-
Alles automatisieren: Entwirf, entwickle und optimiere Infrastructure as Code mit Pulumi in Go, um manuellen Aufwand (Toil) zu eliminieren und unsere Plattform für Engineering-Teams als Self-Service bereitzustellen.
-
Reliability-Praktiken vorantreiben: Fördere CI/CD Best Practices, Incident Management, Post-Mortems und Developer Experience in der gesamten Engineering-Organisation.
-
Unsere Roadmap gestalten: Arbeite mit deinem Squad und dem Engineering-Leadership zusammen, um die Richtung der Plattform zu definieren – von skalierbaren Hochdurchsatz-Systemen und Kostenoptimierung bis hin zu Security Posture und Compliance.
Qualifications
-
1–3 Jahre Hands-on-Erfahrung als Site Reliability Engineer (SRE), Platform Engineer, DevOps Engineer, Infrastructure Engineer, Cloud Engineer oder Backend Engineer mit starkem Infrastruktur-Fokus.
-
Erfahrung im Betrieb und in der Skalierung von Cloud-Infrastrukturen (Azure, GCP, AWS).
-
Tiefe Kenntnisse in Kubernetes und Container-Orchestrierung in Produktionsumgebungen.
-
Hands-on-Erfahrung mit modernen Observability-Stacks (z. B. Prometheus, Mimir, Loki, ELK) und vertraut mit der Definition und dem Betrieb von SLOs und Error Budgets.
-
Fundierte Software-Entwicklungskenntnisse in Go (bevorzugt, da unser IaC auf Pulumi in Go läuft), Python oder Kotlin.
-
Hands-on-Erfahrung mit Infrastructure as Code (z. B. Pulumi, OpenTofu, Terraform) und Konfigurations-Tools (z. B. Ansible, Chef).
-
Ein kollaboratives Mindset, starke Kommunikationsfähigkeiten und verhandlungssicheres Englisch.
-
Bereitschaft zur Teilnahme an On-Call-Rotationen (Rufbereitschaft), um die Zuverlässigkeit unserer Plattform zu gewährleisten.
Requirements
-
Erfahrung im Aufbau und Betrieb von Hochdurchsatz- und hochverfügbaren Systemen im Produktivbetrieb.
-
Speziell Erfahrung mit Azure Kubernetes Service (AKS).
-
Erfahrung mit Kubernetes Gateway API und Envoy Gateway.
-
Vertrautheit mit GitOps-Workflows und CI/CD-Pipeline-Design.
-
Kenntnisse in Service-Mesh-Technologien (z. B. Linkerd, Istio).
-
Erfahrung mit Kubernetes Operators (z. B. Strimzi, CNPG).
-
Erfahrung mit dem Betrieb von High-Availability PostgreSQL.
Benefits
-
Wir sind remote-first und geben dir damit die Flexibilität, von zu Hause aus zu arbeiten.
-
Wir übernehmen die Kosten für deine E-Gym-Wellpass-Mitgliedschaft und bieten Job-Rad Leasing an.
-
Dich erwarten hoch motivierte und engagierte Menschen in einer lockeren Arbeitsatmosphäre.
-
Du gestaltest Flip aktiv mit und bist Enabler des rasanten Wachstumsprozesses eines jungen Tech-Unternehmens.
-
Freu dich auf regelmäßige Teamevents und Culture Days.
-
Bei Flip kannst du auch im europäischen Ausland arbeiten.