Site Reliability Engineer - KI-Agents

Kraken

Anstellung: Vollzeit
Ort: Schweiz

DIE ZUKUNFT DES OFFENEN FINANZWESENS AUFBAUEN Payward - das Mutterunternehmen hinter Kraken, NinjaTrader, Breakout, xStocks, Payward Services und CF Benchmarks - hat in den letzten 15 Jahren eine der modernsten und global zugänglichsten Finanzinfrastrukturplattformen der Branche aufgebaut, um ein offenes, globales Finanzsystem voranzutreiben. Bevor Sie sich bewerben, ermutigen wir Sie, unsere Kulturseite https://www.kraken.com/culture zu erkunden, um zu verstehen, was uns antreibt und wie wir arbeiten. DAS TEAM Gegründet im Jahr 2011 ist Kraken eine der ältesten Kryptoplattformen der Welt, die von über 10 Millionen Einzelpersonen und Institutionen auf der ganzen Welt vertraut wird. Es bietet Spot-Trading, Margin, Futures, Staking und OTC-Dienstleistungen an, mit Produkten, die sowohl für individuelle Anleger als auch für institutionelle Kunden entwickelt wurden. Das AI-Infrastrukturteam ist Teil der Data-Organisation und verantwortlich für den Aufbau, den Betrieb und die Skalierung der Systeme, die KI-Agents in der Produktion unterstützen - sowohl interne Tools als auch extern zugängliche Produkte. Durch die enge Zusammenarbeit mit den KI- und Agent-System-Teams stellt diese Gruppe sicher, dass die Orchestrierung, die Ausführung und die Modell-Service-Schichten, die agente Workflows untermauern, zuverlässig, beobachtbar und für die Skalierung ausgelegt sind. Dieses Team arbeitet an der Schnittstelle zwischen Dateninfrastruktur und angewandter KI - einem Bereich, der sich schnell bewegt und Ingenieure erfordert, die Produktionsdisziplin in aufstrebender Technologie mitbringen. Sie werden mit den Teams Data Engineering, ML und produktorientierten Teams zusammenarbeiten, um die Agent-Infrastruktur zu stärken und sicherzustellen, dass sie den Standards entspricht, die unsere Nutzer erwarten. Wichtig ist, dass dies ein Plattform-Engineering-Team ist. Neben dem Betrieb von Infrastrukturen ist das Team verantwortlich für den Aufbau von APIs, SDKs und Plattformfunktionen, die es den KI-, Daten- und Engineering-Teams ermöglichen, Agent-Infrastruktur als Dienst sicher und effizient zu nutzen. Der Erfolg in dieser Rolle erfordert, über Infrastruktur-Betrieb hinauszudenken und sich auf die Erfahrung der Entwickler, die Plattform-Adoption und die langfristige Skalierbarkeit zu konzentrieren. DIE GELEGENHEIT - Entwerfen, aufbauen und betreiben Sie die Infrastrukturschicht, die KI-Agent-Workflows in der Produktion unterstützt - Stellen Sie die Zuverlässigkeit, Skalierbarkeit und Beobachtbarkeit von agentischen Systemen in internen und externen Produkten sicher - Entwerfen und entwickeln Sie Plattformdienste, APIs, SDKs und Selbstbedienungsfunktionen, die es den Engineering-Teams ermöglichen, KI-Infrastruktur und Agent-Plattformdienste leicht zu nutzen - Verwalten und warten Sie die Compute-, Orchestrierungs- und Service-Infrastruktur, die die Modellinferenz und die Agent-Ausführung antreibt - Implementieren Sie robuste Überwachungs-, Alarm- und Reaktionsverfahren auf Vorfälle, die auf KI/ML-Workloads zugeschnitten sind - Nutzen Sie Infrastructure-as-Code-Tools (IaC) wie Terraform, um Cloud-(AWS)-Infrastrukturkomponenten zu provisionieren und zu verwalten - Bauen und warten Sie CI/CD-Pipelines, die eine schnelle, zuverlässige Bereitstellung von KI-Diensten und Agent-Workflows unterstützen - Definieren und implementieren Sie Schutzmechanismen, Fehlerbehandlung und Wiederherstellungsmuster, die speziell für agentische und LLM-gesteuerte Systeme entwickelt wurden - Arbeiten Sie mit KI- und Data-Engineering-Teams zusammen, um experimentelle Agent-Prototypen in gehärtete Produktionsysteme umzusetzen - Verwalten Sie containerisierte Workloads mit Kubernetes, um eine effiziente Bereitstellung, Skalierung und Orchestrierung von KI-Diensten sicherzustellen - Implementieren Sie Zugriffskontrollen und Sicherheitsbest Practices in KI-Infrastruktur-Umgebungen - Dokumentieren Sie Architektur, Runbooks und Best Practices, um Wissensaustausch innerhalb des Teams zu unterstützen WAS SIE MITBRINGEN - 5+ Jahre Erfahrung als Site Reliability Engineer, Infrastructure Engineer, Platform Engineer oder ähnliche Rolle in einer Produktionsumgebung - Praktische Erfahrung bei der Unterstützung von ML-Infrastruktur, Modell-Service oder MLOps-Workflows in der Produktion - Erfahrung beim Aufbau von Entwicklerplattformen, internen Tools, APIs oder SDKs, die von Engineering-Teams im großen Maßstab genutzt werden - Solides Verständnis von Plattform-Engineering-Prinzipien, einschließlich Entwicklererfahrung, Selbstbedienungsinfrastruktur und API-getriebener Plattformdesign - Kenntnisse von Infrastructure-as-Code-Tools, insbesondere Terraform - Erfahrung mit Containerisierung und Orchestrierung, insbesondere Kubernetes und Docker - Solides Verständnis von Cloud-Infrastruktur, vorzugsweise AWS - Starke Skriptkenntnisse (bash/shell) und Kenntnisse in mindestens einer Programmiersprache (Python bevorzugt) - Erfahrung bei der Gestaltung und dem Betrieb von Überwachungs-, Alarm- und Reaktionsverfahren auf Vorfälle - Erfahrung bei der Implementierung von Reaktionsverfahren auf Vorfälle und der Teilnahme an On-Call-Rotationen - Starke Kooperationsfähigkeit bei der Arbeit mit Daten-, KI- und Engineering-Teams - Hohe Eigenverantwortung in einer schnellen, hochriskanten Produktionsumgebung NETTE ZUHAVES - Erfahrung beim Aufbau oder Betreiben von Infrastruktur für agentenbasierte oder LLM-gesteuerte Systeme - Vertrautheit mit Agent-Orchestrierungsframeworks (z. B. LangGraph, CrewAI oder ähnlich) - Hintergrund in Dateninfrastruktur, einschließlich Vertrautheit mit Airflow, Kafka, Spark oder Data-Lake-Tooling - Erfahrung mit CI/CD-Pipelines und Deployment-Automatisierung für AI/ML-Workloads - Kenntnisse von Evaluationsframeworks und Modellleistungsüberwachung im großen Maßstab - Erfahrung bei der Arbeit in schnellen 0→1-Umgebungen oder Plattform-Entwicklungsteams - Erf

Automatisch aus dem Original übersetzt.

Ausgeschrieben heute

Diese Stelle erscheint auch auf