نحن نبحث عن مهندس موثوقية موقع أول (SRE) للمساعدة في تصميم وتوسيع وتأمين البنية الأساسية لمنصتنا سريعة النمو.
ستعمل عبر جميع الأنظمة الحرجة — من التطبيقات والواجهات البرمجية الموجهة للعملاء إلى المنصات الداخلية وخدمات البيانات — مما يضمن التوفر والأداء وكفاءة التكاليف على نطاق واسع.
ستكون عملياً مع Kubernetes والمراقبة والـ GitOps والأتمتة والبنية الأساسية السحابية، مع التعاون الوثيق مع فرق التطبيقات والمنصات والبيانات لتقديم بيئة موثوقة وقابلة للشفاء ذاتياً.
هذا الدور مثالي لمهندس يزدهر في الأنظمة الموزعة المعقدة ويحب أتمتة كل شيء ويمكنه الموازنة بين السرعة والاستقرار وكفاءة التكاليف في الإنتاج.
متطلبات التعليم والخبرة
درجة البكالوريوس في علوم الحاسب أو الهندسة أو مجال ذي صلة — أو خبرة عملية معادلة.
تصميم ونشر مراقبة وصيانة أحمال العمل الإنتاجية عبر مجموعات Kubernetes (EKS/AKS/GKE).
بناء أنظمة قابلة للشفاء ذاتياً وقابلة للتوسع تقلل التدخل اليدوي وتضمن التوفر.
تصميم وتشغيل منصات قواعد بيانات وتخزين موثوقة (SQL و NoSQL ومتاجر الكائنات) ضمن بيئات Kubernetes.
تنفيذ استراتيجيات النسخ الاحتياطي واستعادة الكوارث والتكرار والفشل للوفاء بأهداف RPO/RTO.
استكشاف الأخطاء واستعادة Kubernetes Persistent Volumes (StorageClasses و CSI drivers و PVC issues).
تحسين أداء التخزين والتكاليف من خلال استراتيجيات متعددة المستويات وفصل البيانات الساخنة/الباردة وسياسات دورة حياة S3/الإزاحة.
تأمين وتوسيع منصات تخزين الكائنات (مثل MinIO/S3-compatible) لخطوط معالجة البيانات عالية الإنتاجية.
إدارة تخزين الكتل (EBS/io2/gp3) والأنظمة الملفات المشتركة (EFS و NFS) لتحقيق المرونة والتوازن في التكاليف.
التعاون مع الفرق لتحسين الشبكات وتحكم حركة الدخول/الخروج و service mesh للاتصالات الآمنة.
موثوقية المنصة والبنية الأساسية
تصميم ونشر مراقبة وصيانة أحمال العمل الإنتاجية عبر مجموعات Kubernetes (EKS/AKS/GKE).
بناء أنظمة قابلة للشفاء ذاتياً وقابلة للتوسع تقلل المتاعب والتدخل اليدوي.
تحسين الشبكات والتحكم في حركة الدخول/الخروج و service mesh للاتصالات الآمنة والأداء العالي.
تصميم وتشغيل منصات قواعس بيانات وتخزين موثوقة (SQL و NoSQL ومتاجر الكائنات) في بيئات Kubernetes.
امتلاك استراتيجيات النسخ الاحتياطي واستعادة الكوارث والتكرار والفشل للوفاء بأهداف RPO/RTO لخدمات البيانات الحرجة.
تحسين أداء التخزين والتكاليف من خلال استراتيجيات متعددة المستويات وفصل البيانات الساخنة/الباردة وسياسات دورة حياة S3/الإزاحة.
استكشاف الأخطاء واستعادة Kubernetes Persistent Volumes بثقة أثناء الحوادث (StorageClasses و CSI drivers و PVC issues).
تأمين وتوسيع منصات تخزين الكائنات (مثل MinIO/S3-compatible) والتكامل مع أحمال العمل لخطوط معالجة البيانات عالية الإنتاجية.
العمل مع تخزين الكتل (EBS/io2/gp3) والأنظمة الملفات المشتركة (EFS و NFS) للموازنة بين الأداء والمرونة والتكاليف.
الأتمتة والتسليم
تعزيز أفضل الممارسات في GitOps و CI/CD (ArgoCD و Flux و GitHub Actions).
بناء الأتمتة لتوفير البنية الأساسية والترقيات باستخدام Terraform و Helm و Kubernetes Operators.
تقليل مخاطر الإصدار من خلال استراتيجيات التسليم التدريجي (blue/green و canary وتحديثات spot instance rolling).
المراقبة والرؤية والاستجابة للحوادث
امتلاك مكدس المراقبة والتنبيهات (Prometheus و Grafana و Loki و VictoriaMetrics و OpenSearch).
قيادة إدارة الحوادث والمراجعات (postmortems) لمنع تكرارها.
توفير رؤية فورية لصحة النظام والأداء ومقاييس التكاليف.
الأمان والامتثال
تنفيذ سياسات IAM بأقل صلاحيات والاتصالات الآمنة بين الخدمات و ACLs/جدران الحماية للشبكة.
فرض RBAC للـ Kubernetes وإدارة الأسرار وسلسلة التوريد الآمنة للصور.
المشاركة في جهود التدقيق الجاهزية والامتثال.
تحسين الأداء والتكاليف
تحليل وضبط أداء النظام على نطاق واسع (CPU/الذاكرة/IO).
التعاون مع فرق المنتج والمنصة لتحديد حجم المجموعات وقواعس البيانات ومستويات التخزين.
تقديم لوحات معلومات رؤية التكاليف لقيادة الهندسة.
المؤهلات المفضلة
خبرة إدارة الأنظمة الحرجة على نطاق واسع (حركة مرتفعة وعدة مناطق).
تحسين التكاليف المثبت في بيئات السحابة/K8s.
الإلمام بـ service mesh (Istio و Linkerd) أو التحكم المتقدم في الشبكات/الخروج.
الخبرة مع مكونات منصة البيانات (Airflow و Debezium و ClickHouse وغيرها) إضافية لكن ليست مطلوبة.
مهارات اتصال قوية وفريق العمل — القادرة على التعاون عبر فرق الهندسة و DevOps والأمان والمنتج.
8+ سنوات في أدوار SRE / DevOps / Infrastructure Engineering.
خبرة عميقة في Kubernetes (multi-cluster و Helm chart development والشبكات المتقدمة).
سير عمل GitOps قوي باستخدام ArgoCD/Flux.
خبرة مع AWS (مفضلة) أو Azure/GCP بالإضافة إلى Infrastructure-as-Code (Terraform و Pulumi و CloudFormation).
معرفة متقدمة بقواعس البيانات SQL و NoSQL (MySQL/Aurora و PostgreSQL و MongoDB و Redis).
مهارات البرمجة/الأتمتة في Python أو Bash أو Go.
خلفية قوية في المراقبة/الرؤية (Prometheus و Grafana و Loki و ELK/Opensearch و VictoriaMetrics).
الخبرة مع CI/CD على نطاق واسع وإدارة حوادث الإنتاج.
الخبرة مع البث/المراسلة (Kafka و RabbitMQ أو ما شابه).
المزايا
برامج التدريب والتطوير الشاملة.
حوافز المكافآت المبنية على الأداء.
خيارات العمل من المنزل المرنة.
