בניית רשת סוכני AI: מהרעיון לפרודקשן
איך בניתי מערכת של 3 סוכני AI שרצה 24/7 - החלטות ארכיטקטוריות, תקשורת בין סוכנים, ולקחים מפריסה בפרודקשן.

## גרסה בעברית: בניית רשת סוכני AI מהרעיון לפרודקשן
### למה ריבוי סוכנים ולא סוכן אחד גדול?
השאלה הראשונה שהעלתי לעצמי הייתה האם אני באמת צריך ריבוי סוכנים, או שאני מסבך יתר על המידה.
התשובה הכנה: חלון הקונטקסט של LLM יחיד הוא צוואר בקבוק. כשיש אחריויות מגוונות - סשנים ממושכים של קידוד, טיפול בהודעות בזמן אמת, משימות רקע אוטונומיות - הן מתחרות על אותו קונטקסט, אותם rate limits, ויוצרות נקודת כשל אחת. ברגע שהסוכן היחיד קורס או מגיע למגבלת קריאות, הכל נעצר.
הסיבה הנוספת היא התמחות. סוכן שאופטימיזציה לשיחות WhatsApp בזמן אמת (קצרות, מהירות, סתמיות) שונה מהותית מסוכן שעושה ניתוח קוד מעמיק ומניפולציה על קבצים (קונטקסט ארוך, זהיר, שיטתי).
### ארכיטקטורת המערכת
הרשת כוללת שלושה סוכנים:
Claude Code הוא האורכסטרטור וכלי הפיתוח העיקרי. רץ על המחשב המקומי שלי, מטפל בכל משימות ה-IDE, ו"המוח" שאליו מדווחים שאר הסוכנים.
Kami הוא ממשק ה-WhatsApp. רץ 24/7 על VPS של Hetzner, מקבל הודעות דרך Green API, מעבד אותן, וחלק מעביר לClaude Code דרך ה"גשר". כשאני הרחק מהמחשב וצריך להפעיל עבודה, אני שולח הודעה ל-Kami.
Kaylee מטפלת במשימות רקע אוטונומיות - פריסות, ניטור מתוזמן, סקירות קוד תקופתיות. רצה על VPS שני ומיועדת להשלים משימות ללא פיקוח אנושי.
### פרוטוקול הגשר: תקשורת בין סוכנים
זה היה האתגר העיצובי הקשה ביותר. איך סוכנים שרצים על מכונות שונות, בזמנים שונים, מתקשרים בצורה אמינה?
הפתרון שאליו הגעתי הוא פשוט באופן מביך: קובץ JSONL.
כל שורה היא אובייקט JSON המייצג הודעה אחת. Kami כותבת בקשה (status: "pending"). Claude Code קורא את הקובץ בתחילת כל סשן, מוצא הודעות ממתינות, מעבד אותן ומוסיף תשובה. Kami מחפשת כל 30 שניות, מוצאת את תשובת Claude, מעבירה לWhatsApp, ומסמנת כ-"done".
האם זה queue הודעות אמיתי? לא. האם הוא מספיק אמין לרשת סוכנים אישית? לחלוטין.
### פריסה: Hetzner VPS + systemd
שני הסוכנים, Kami וKaylee, רצים על instances של Hetzner Cloud. כל סוכן רץ כשירות systemd עם הגדרת Restart=on-failure - אם הסוכן קורס, systemd מחזיר אותו תוך 10 שניות. Kaylee מריצה cron job שבודק את שני הסוכנים כל 5 דקות ושולח התראת WhatsApp אם בדיקת הבריאות נכשלת.
### לקחים מהדרך
1. התחל עם מונוליט, פצל כשכואב.
בזבזתי שבועיים בהרצת הכל ב-Claude Code לפני שהקמתי את סוכני ה-VPS. הניסיון הזה לימד אותי בדיוק איפה נקודות הכאב.
2. לוגים הם קו החיים שלך.
כל סוכן כותב לוגים מובנים (JSON lines) לקובץ. כשמשהו משתבש ב-2 בלילה, הלוגים הם הדבר היחיד שיש לך. השתמש בלוגים מובנים מהיום הראשון.
3. תמיד אפשרי override ידני.
לא משנה כמה אוטונומית הרשת הופכת, שמרתי מנגנוני בריחה פשוטים. קובץ PAUSE שכל סוכן בודק לפני עיבוד. פקודת "כבה הכל" דרך WhatsApp שKami מזהה ומבצעת דרך SSH. מערכות אוטונומיות טובות צריכות overrides ידניים טובים.