Transcribed

איך באמת מריצים LLM בסקייל עצום? [עושים תוכנה]

May 18, 2026 · 41m 52s
איך באמת מריצים LLM בסקייל עצום? [עושים תוכנה]
Description
מה הופך בקשה אחת ל-LLM למורכבת כל כך מאחורי הקלעים? איך מאות מיליארדי פרמטרים נדחסים על עשרות GPUs, ואיך כל ה-cluster הזה משרת אלפי משתמשים במקביל בלי להתפוצץ?
אירחתי את מייק ארליכסון, אושייה בעולם הAI, ופירקנו את עולם ה-inference מבפנים: KV cache, batching, ההבדל בין prefill ל-decode, חלוקה של מודל בין GPUs שונים, ו-Mixture of Experts. דיברנו גם על למה זה הפך לאחד התחומים הכי קריטיים בעולם ה-AI - וגם איך נכנסים אליו אם אתם מהנדסים שרוצים להתחיל להריץ מודלים בעצמכם.
האזנה נעימה, עמית בן דור.
Information
Author PI Media
Organization PodIl
Website -
Tags
-

Looks like you don't have any active episode

Browse Spreaker Catalogue to discover great new content

Current

Podcast Cover

Looks like you don't have any episodes in your queue

Browse Spreaker Catalogue to discover great new content

Next Up

Episode Cover Episode Cover

It's so quiet here...

Time to discover new episodes!

Discover
Your Library
Search