מלכודת ה-RAG הלא-אופטימלי: איך הצעת מחיר של ₪35,000 הופכת להפסד של ₪330,000 בשנה

הצעה שנראית הוגנת — ואינה כזו

לפני כמה חודשים פנה אלינו מייסד של סטארט-אפ SaaS ישראלי. הוא קיבל הצעת מחיר מבית תוכנה מוכר לבניית סוכן בינה מלאכותית לשירות לקוחות ותמיכה טכנית. המחיר? 35,000 ₪.

“זה נראה הוגן,” הוא אמר לנו. “בדקנו שניים שלושה ספקים, וזה אחד המחירים הנמוכים.”

ביצענו CODEFAIR Scan על ההצעה. מה שמצאנו שינה את כל המסלול של החברה.

הארכיטקטורה שהציעו — ולמה היא מסוכנת

הספק הציע ארכיטקטורת RAG (Retrieval-Augmented Generation) סטנדרטית:

לקוח שואל שאלה
המערכת שולפת את היסטוריית השיחה המלאה של הלקוח
בנוסף, מזריקה מדריכי תמיכה טכנית שלמים (כ-100,000 טוקנים)
הכול עובר ל-API של מודל Claude 4.6 לניתוח ותשובה

נשמע טכני? הנה מה שזה אומר בכסף:

חישוב עלויות חודשיות

פרמטר	ערך
שיחות ביום	1,000
טוקנים לשיחה (input)	~100,000
עלות מיליון טוקנים (Claude 4.6)	$2.50
עלות לשיחה	$0.25
עלות יומית	$250
עלות חודשית (API בלבד)	$7,500 ≈ ₪27,500

בפחות מחודשיים — עלות השימוש עוקפת את עלות הפיתוח המקורית. ובשנה הראשונה? ₪330,000 על API בלבד — לפני עלויות שרת, תמיכה, עדכונים.

הספק הציע “מחיר הוגן” לפיתוח. אבל ה-OpEx שנטמן בתוך הארכיטקטורה הרג את הכדאיות הכלכלית של המיזם כולו.

מה CODEFAIR המליצה לשנות

1. Semantic Caching בשכבת הווקטור

שאלות חוזרות (כמו “מה שעות הפתיחה?” או “איך מאפסים סיסמה?”) יכולות להיענות מה-cache ללא קריאת API כלל.

חיסכון מוערך: 35–45% מהקריאות

2. SLM מקומי לשאלות פשוטות

מודל שפה קטן (Small Language Model) כמו Phi-3 Mini רץ locally על השרת ומטפל בשאלות פשוטות ללא עלות API.

חיסכון מוערך: נוסף 20–30% מהקריאות

3. RAG ממוקד: Chunking + Reranking

במקום להזריק 100,000 טוקנים — מנגנון Reranking ממוקד שולח רק 2,000 הטוקנים הרלוונטיים ביותר.

חיסכון: 98% מעלות ה-input tokens לשיחה

התוצאה: עלות חודשית מ-₪27,500 ל-₪1,100

	לפני	אחרי
עלות פיתוח	₪35,000	₪38,000
עלות API חודשית	₪27,500	₪1,100
עלות שנתית (API)	₪330,000	₪13,200
חיסכון ב-3 שנים	—	≈ ₪950,000

עלות הפיתוח עלתה ב-₪3,000. עלות ה-OpEx צנחה ב-96%.

מה ניתן ללמוד מזה

שאלה שכל מנהל חייב לשאול לפני שחותם:

“כמה יעלה לי להריץ את המערכת הזו בחודש, עם X משתמשים פעילים?”

אם בית התוכנה לא נתן לך תשובה מפורטת — זה לבד צריך להדליק נורה אדומה.

ארכיטקטורת AI רשלנית לא נראית כמו בעיה בהצעת המחיר. היא נראית כמו מחיר נמוך ומפתה. הבעיה מתגלה רק 60 ימים לאחר העלייה לאוויר, כשחשבון ה-API הראשון מגיע.

CODEFAIR מנתחת הצעות מחיר טכנולוגיות ומזהה מלכודות עלות לפני שחותמים. העלה את ההצעה שלך לסקן »