הצעה שנראית הוגנת — ואינה כזו
לפני כמה חודשים פנה אלינו מייסד של סטארט-אפ SaaS ישראלי. הוא קיבל הצעת מחיר מבית תוכנה מוכר לבניית סוכן בינה מלאכותית לשירות לקוחות ותמיכה טכנית. המחיר? 35,000 ₪.
“זה נראה הוגן,” הוא אמר לנו. “בדקנו שניים שלושה ספקים, וזה אחד המחירים הנמוכים.”
ביצענו CODEFAIR Scan על ההצעה. מה שמצאנו שינה את כל המסלול של החברה.
הארכיטקטורה שהציעו — ולמה היא מסוכנת
הספק הציע ארכיטקטורת RAG (Retrieval-Augmented Generation) סטנדרטית:
- לקוח שואל שאלה
- המערכת שולפת את היסטוריית השיחה המלאה של הלקוח
- בנוסף, מזריקה מדריכי תמיכה טכנית שלמים (כ-100,000 טוקנים)
- הכול עובר ל-API של מודל Claude 4.6 לניתוח ותשובה
נשמע טכני? הנה מה שזה אומר בכסף:
חישוב עלויות חודשיות
| פרמטר | ערך |
|---|---|
| שיחות ביום | 1,000 |
| טוקנים לשיחה (input) | ~100,000 |
| עלות מיליון טוקנים (Claude 4.6) | $2.50 |
| עלות לשיחה | $0.25 |
| עלות יומית | $250 |
| עלות חודשית (API בלבד) | $7,500 ≈ ₪27,500 |
בפחות מחודשיים — עלות השימוש עוקפת את עלות הפיתוח המקורית. ובשנה הראשונה? ₪330,000 על API בלבד — לפני עלויות שרת, תמיכה, עדכונים.
הספק הציע “מחיר הוגן” לפיתוח. אבל ה-OpEx שנטמן בתוך הארכיטקטורה הרג את הכדאיות הכלכלית של המיזם כולו.
מה CODEFAIR המליצה לשנות
1. Semantic Caching בשכבת הווקטור
שאלות חוזרות (כמו “מה שעות הפתיחה?” או “איך מאפסים סיסמה?”) יכולות להיענות מה-cache ללא קריאת API כלל.
חיסכון מוערך: 35–45% מהקריאות
2. SLM מקומי לשאלות פשוטות
מודל שפה קטן (Small Language Model) כמו Phi-3 Mini רץ locally על השרת ומטפל בשאלות פשוטות ללא עלות API.
חיסכון מוערך: נוסף 20–30% מהקריאות
3. RAG ממוקד: Chunking + Reranking
במקום להזריק 100,000 טוקנים — מנגנון Reranking ממוקד שולח רק 2,000 הטוקנים הרלוונטיים ביותר.
חיסכון: 98% מעלות ה-input tokens לשיחה
התוצאה: עלות חודשית מ-₪27,500 ל-₪1,100
| לפני | אחרי | |
|---|---|---|
| עלות פיתוח | ₪35,000 | ₪38,000 |
| עלות API חודשית | ₪27,500 | ₪1,100 |
| עלות שנתית (API) | ₪330,000 | ₪13,200 |
| חיסכון ב-3 שנים | — | ≈ ₪950,000 |
עלות הפיתוח עלתה ב-₪3,000. עלות ה-OpEx צנחה ב-96%.
מה ניתן ללמוד מזה
שאלה שכל מנהל חייב לשאול לפני שחותם:
“כמה יעלה לי להריץ את המערכת הזו בחודש, עם X משתמשים פעילים?”
אם בית התוכנה לא נתן לך תשובה מפורטת — זה לבד צריך להדליק נורה אדומה.
ארכיטקטורת AI רשלנית לא נראית כמו בעיה בהצעת המחיר. היא נראית כמו מחיר נמוך ומפתה. הבעיה מתגלה רק 60 ימים לאחר העלייה לאוויר, כשחשבון ה-API הראשון מגיע.
CODEFAIR מנתחת הצעות מחיר טכנולוגיות ומזהה מלכודות עלות לפני שחותמים. העלה את ההצעה שלך לסקן »