چینی‌ها چگونه شرکت‌های پرادعای غربی را به چالش کشیدند / سقوط ارزش سهام غول‌های بعد از قدرت‌نمایی DeepSeek رشتو: بگذارید به زبان ساده توضیح دهم که چرا نوآوری‌های هوش مصنوعی DeepSeek در حال شگفت‌زده کردن مردم است (و احتمالاً ارزش بازار ۲ تریلیون دلاری Nvidia را تهدید می‌کند)... پیشینه: در حال حاضر، آموزش مدل‌های برتر هوش مصنوعی به شدت گران است. OpenAI و Anthropic و غیره بیش از ۱۰۰ میلیون دلار فقط برای محاسبات هزینه می‌کنند. آنها به مراکز داده عظیمی با هزاران GPU به قیمت ۴۰ هزار دلار نیاز دارند. این مثل این است که برای راه‌اندازی یک کارخانه به یک نیروگاه کامل نیاز داشته باشید. حالا DeepSeek وارد شد و گفت: "چطور است این کار را با ۵ میلیون دلار انجام دهیم؟" و آنها فقط حرف نزدند - واقعاً این کار را انجام دادند. مدل‌های آنها در بسیاری از وظایف با GPT-4 و Claude برابری می‌کنند یا حتی بهتر هستند. دنیای هوش مصنوعی شوکه شده است. چطور؟ آنها همه چیز را از پایه بازنگری کردند. هوش مصنوعی سنتی مثل این است که هر عدد را با ۳۲ رقم اعشار بنویسید. DeepSeek گفت: "چطور است فقط از ۸ رقم استفاده کنیم؟ باز هم به اندازه کافی دقیق است!" بوم: ۷۵٪ حافظه کمتر مورد نیاز است. سپس سیستم "چند-توکن" آنها وجود دارد. هوش مصنوعی معمولی مثل یک دانش‌آموز کلاس اولی می‌خواند: "گربه... روی... مبل..." DeepSeek کل عبارات را یک‌باره می‌خواند. ۲ برابر سریع‌تر، ۹۰٪ به همان اندازه دقیق. وقتی شما میلیاردها کلمه را پردازش می‌کنید، این موضوع اهمیت دارد. اما این قسمت واقعاً هوشمندانه است: آنها یک "سیستم متخصص" ساختند. به جای اینکه یک هوش مصنوعی عظیم سعی کند همه چیز را بداند (مثل اینکه یک نفر هم دکتر باشد، هم وکیل و هم مهندس)، آنها متخصص‌هایی دارند که فقط وقتی لازم باشد فعال می‌شوند. مدل‌های سنتی؟ همه ۱.۸ تریلیون پارامتر همیشه فعال هستند.DeepSeek؟ در مجموع ۶۷۱ میلیارد پارامتر اما فقط ۳۷ میلیارد پارامتر در هر زمان فعال است. این مثل داشتن یک تیم بزرگ است اما فقط متخصص‌هایی که واقعاً برای هر کار نیاز دارید را صدا می‌زنید. نتایج شگفت‌انگیز هستند: - هزینه آموزش: ۵ میلیون دلار در برابر ۱۰۰ میلیون دلار - تعداد GPU مورد نیاز: ۲,۰۰۰ در برابر ۱۰۰,۰۰۰ - هزینه API، نود‌وپج درصد ارزان‌تر - می‌تواند روی GPU های معمولی به جای سخت‌افزار مراکز داده اجرا شود "اما صبر کنید"، ممکن است بگویید، "حتماً یک نکته منفی وجود دارد!" این قسمت جالب است «همه چیز متن‌باز است». هر کسی می‌تواند کار آنها را بررسی کند. کد عمومی است. مقالات فنی همه چیز را توضیح می‌دهند. این جادو نیست، فقط مهندسی فوق‌العاده هوشمندانه است. چرا این موضوع مهم است؟ زیرا این مدل "فقط شرکت‌های بزرگ فناوری می‌توانند در هوش مصنوعی بازی کنند" را می‌شکند. دیگر به یک مرکز داده میلیارد دلاری نیاز ندارید. چند GPU خوب ممکن است کافی باشد. برای Nvidia، این موضوع ترسناک است. کل مدل کسب‌وکار آنها بر فروش GPU های فوق‌العاده گران با حاشیه سود ۹۰٪ استوار است. اگر همه ناگهان بتوانند با GPU های معمولی هوش مصنوعی انجام دهند... خوب، مشکل را می‌بینید. و این نکته جالب است: DeepSeek این کار را با تیمی کمتر از ۲۰۰ نفر انجام داد. در حالی که Meta تیم‌هایی دارد که فقط حقوق آنها از کل بودجه آموزش DeepSeek بیشتر است... و مدل‌های آنها به این خوبی نیستند. این یک داستان کلاسیک اختلال است: شرکت‌های قدیمی فرآیندهای موجود را بهینه می‌کنند، در حالی که اختلال‌گران رویکرد اساسی را بازنگری می‌کنند. DeepSeek پرسید: «چطور است این کار را هوشمندانه‌تر انجام دهیم به جای اینکه سخت‌افزار بیشتری به آن اختصاص دهیم؟» پیامدها بسیار بزرگ هستند: - توسعه هوش مصنوعی در دسترس‌تر می‌شود - رقابت به شدت افزایش می‌یابد - "مزیت‌های رقابتی" شرکت‌های بزرگ فناوری بیشتر شبیه گودال‌های کوچک به نظر می‌رسند - نیازهای سخت‌افزاری (و هزینه‌ها) به شدت کاهش می‌یابند البته، غول‌هایی مثل OpenAI و Anthropic دست روی دست نخواهند گذاشت. آنها احتمالاً همین حالا در حال پیاده‌سازی این نوآوری‌ها هستند. اما «غولِ کارایی» از بطری بیرون آمده است. دیگر بازگشتی به رویکردِ «فقط GPUهای بیشتری به آن اختصاص دهید» وجود ندارد. فکر نهایی: این احساس را دارم که این یکی از آن لحظاتی است که در آینده به آن به عنوان یک نقطه عطف نگاه خواهیم کرد. مثل زمانی که کامپیوترهای شخصی کامپیوترهای بزرگ را کمتر مرتبط کردند، یا زمانی که رایانش ابری همه چیز را تغییر داد. هوش مصنوعی به زودی بسیار در دسترس‌تر و بسیار ارزان‌تر خواهد شد. سوال این نیست که آیا این موضوع بازیگران فعلی را مختل خواهد کرد، بلکه این است که چقدر سریع این اتفاق خواهد افتاد. +ویدئو آموزش کار با DeepSeek 🔗 eitaa.com/CafeAI