
Self-healing — תקלות לא צריכות להעיר אתכם
Hermes הוא דפוס עבודה (pattern) מבית יצירה של טכנולוגיות self-healing (ריפוי עצמי) שמגדיר איך מערכת תוכנה יכולה לזהות תקלות אצלה ולתקן אותן בעצמה, בלי שאדם יצטרך להתערב. הרעיון נולד מתוך תובנה אחת מרתקת של מהנדסי SRE (Site Reliability Engineers — המומחים שאחראים על יציבות שרתים בחברות כמו גוגל) לגבי תקלות שרתים: 90% מהן הן אותן עשר בעיות שחוזרות על עצמן שוב ושוב (container שקרס, חיבור רשת שנתקע, דיסק שהתמלא) — ובמקום להעיר את איש התורנות כל לילה על אותן תקלות חוזרות, אפשר ללמד את המערכת לתקן את עצמה. אצלי (אלעד) Hermes רץ כשירות רקע על השרת ומטפל אוטומטית ב-Kami וב-OpenClaw (הטכנולוגיה שמפעילה את Kaylee) בכל פעם שהם נתקעים — אבל אצלכם זה דפוס כללי שאפשר לאמץ בכל מערכת תוכנה, לא רק מערכות AI: חמשת השלבים של Hermes (זיהוי, אבחון, תיקון, אימות ולמידה) מתאימים גם למערכות מסחר אלקטרוני, גם ל-SaaS קטן שרץ על שרת יחיד, וגם למערכת הקריטית של ארגון גדול — והתוצאה היא אחת: שינה שלמה בלילה, ללא הפרעות.
90% מהתקלות הן אותן 10 בעיות שחוזרות. Hermes פותר אותן לבד, ומעיר אתכם רק למשהו חדש.
PagerDuty ב-03:00 על docker container שקרס
Hermes ניסה restart, עבד, שלח email בבוקר 'היה ותוקן'
להריץ את אותו script תיקון חמישית השבוע
Hermes שומר 'מה עבד על מה' ומיישם אוטומטית
PagerDuty, BetterStack, Grafana OnCall — $21-$100+/חודש למשתמש
Hermes פתוח, ציבורי, חוקי תיקון כ-JSON
Monitoring ללא action = רעש
Monitoring + action pipeline = פתרון אמיתי
הנה איך:
Senior שמוצף בתורנויות? Pattern של self-healing מוריד משמעותית את העומס תוך שבוע.
אחד-שניים שרתים, הרבה שירותים. Hermes שומר עליהם גם כשאתם בחופש.
Customers לא צריכים לדעת על תקלות שלכם. Hermes שומר שלא ידעו.
Pattern בסיסי לכל agent שעושה פעולות בעולם האמיתי — צריך fallback ואימות.
לחצו על כל סעיף לפתיחה
Hermes מיושם בתוך Kaylee + delegator
הספר הקלאסי — מאיפה הרעיונות האלה הגיעו
איך לבנות healthchecks טובים בקונטיינרים
הסוכנת שמיישמת Hermes על ה-VPS שלי
המאגר של healing_history — הזיכרון של Hermes
רוצים Hermes ב-infrastructure שלכם?
זה שינוי בגישה — מ-reactive ל-autonomous. מוכנים לראות איך בונים את זה?
מפתח Full-Stack ומומחה AI
Hermes תיקן אצלי 40+ תקלות בחצי שנה — בלי שאני יודע שהיה משהו. הגישה הזו הפכה את ה-VPS ל-'fire and forget'. המדריך מבוסס על כישלונות אמיתיים — התחלתי עם whitelist אגרסיבי מדי והיה צריך לרסן אותו.