چینیها چگونه شرکتهای پرادعای غربی را به چالش کشیدند / سقوط ارزش سهام غولهای #هوش_مصنوعی بعد از قدرتنمایی DeepSeek
رشتو:
بگذارید به زبان ساده توضیح دهم که چرا نوآوریهای هوش مصنوعی DeepSeek در حال شگفتزده کردن مردم است (و احتمالاً ارزش بازار ۲ تریلیون دلاری Nvidia را تهدید میکند)...
پیشینه: در حال حاضر، آموزش مدلهای برتر هوش مصنوعی به شدت گران است. OpenAI و Anthropic و غیره بیش از ۱۰۰ میلیون دلار فقط برای محاسبات هزینه میکنند. آنها به مراکز داده عظیمی با هزاران GPU به قیمت ۴۰ هزار دلار نیاز دارند. این مثل این است که برای راهاندازی یک کارخانه به یک نیروگاه کامل نیاز داشته باشید.
حالا DeepSeek وارد شد و گفت: "چطور است این کار را با ۵ میلیون دلار انجام دهیم؟" و آنها فقط حرف نزدند - واقعاً این کار را انجام دادند. مدلهای آنها در بسیاری از وظایف با GPT-4 و Claude برابری میکنند یا حتی بهتر هستند. دنیای هوش مصنوعی شوکه شده است.
چطور؟ آنها همه چیز را از پایه بازنگری کردند. هوش مصنوعی سنتی مثل این است که هر عدد را با ۳۲ رقم اعشار بنویسید. DeepSeek گفت: "چطور است فقط از ۸ رقم استفاده کنیم؟ باز هم به اندازه کافی دقیق است!"
بوم: ۷۵٪ حافظه کمتر مورد نیاز است.
سپس سیستم "چند-توکن" آنها وجود دارد. هوش مصنوعی معمولی مثل یک دانشآموز کلاس اولی میخواند: "گربه... روی... مبل..." DeepSeek کل عبارات را یکباره میخواند. ۲ برابر سریعتر، ۹۰٪ به همان اندازه دقیق. وقتی شما میلیاردها کلمه را پردازش میکنید، این موضوع اهمیت دارد.
اما این قسمت واقعاً هوشمندانه است: آنها یک "سیستم متخصص" ساختند. به جای اینکه یک هوش مصنوعی عظیم سعی کند همه چیز را بداند (مثل اینکه یک نفر هم دکتر باشد، هم وکیل و هم مهندس)، آنها متخصصهایی دارند که فقط وقتی لازم باشد فعال میشوند.
مدلهای سنتی؟ همه ۱.۸ تریلیون پارامتر همیشه فعال هستند.DeepSeek؟ در مجموع ۶۷۱ میلیارد پارامتر اما فقط ۳۷ میلیارد پارامتر در هر زمان فعال است. این مثل داشتن یک تیم بزرگ است اما فقط متخصصهایی که واقعاً برای هر کار نیاز دارید را صدا میزنید.
نتایج شگفتانگیز هستند:
- هزینه آموزش: ۵ میلیون دلار در برابر ۱۰۰ میلیون دلار
- تعداد GPU مورد نیاز: ۲,۰۰۰ در برابر ۱۰۰,۰۰۰
- هزینه API، نودوپج درصد ارزانتر
- میتواند روی GPU های معمولی به جای سختافزار مراکز داده اجرا شود
"اما صبر کنید"، ممکن است بگویید، "حتماً یک نکته منفی وجود دارد!" این قسمت جالب است «همه چیز متنباز است». هر کسی میتواند کار آنها را بررسی کند. کد عمومی است. مقالات فنی همه چیز را توضیح میدهند. این جادو نیست، فقط مهندسی فوقالعاده هوشمندانه است.
چرا این موضوع مهم است؟ زیرا این مدل "فقط شرکتهای بزرگ فناوری میتوانند در هوش مصنوعی بازی کنند" را میشکند. دیگر به یک مرکز داده میلیارد دلاری نیاز ندارید. چند GPU خوب ممکن است کافی باشد.
برای Nvidia، این موضوع ترسناک است. کل مدل کسبوکار آنها بر فروش GPU های فوقالعاده گران با حاشیه سود ۹۰٪ استوار است.
اگر همه ناگهان بتوانند با GPU های معمولی هوش مصنوعی انجام دهند... خوب، مشکل را میبینید.
و این نکته جالب است: DeepSeek این کار را با تیمی کمتر از ۲۰۰ نفر انجام داد. در حالی که Meta تیمهایی دارد که فقط حقوق آنها از کل بودجه آموزش DeepSeek بیشتر است... و مدلهای آنها به این خوبی نیستند.
این یک داستان کلاسیک اختلال است: شرکتهای قدیمی فرآیندهای موجود را بهینه میکنند، در حالی که اختلالگران رویکرد اساسی را بازنگری میکنند. DeepSeek پرسید: «چطور است این کار را هوشمندانهتر انجام دهیم به جای اینکه سختافزار بیشتری به آن اختصاص دهیم؟»
پیامدها بسیار بزرگ هستند:
- توسعه هوش مصنوعی در دسترستر میشود
- رقابت به شدت افزایش مییابد
- "مزیتهای رقابتی" شرکتهای بزرگ فناوری بیشتر شبیه گودالهای کوچک به نظر میرسند
-
نیازهای سختافزاری (و هزینهها) به شدت کاهش مییابند
البته، غولهایی مثل OpenAI و Anthropic دست روی دست نخواهند گذاشت. آنها احتمالاً همین حالا در حال پیادهسازی این نوآوریها هستند. اما «غولِ کارایی» از بطری بیرون آمده است. دیگر بازگشتی به رویکردِ «فقط GPUهای بیشتری به آن اختصاص دهید» وجود ندارد.
فکر نهایی: این احساس را دارم که این یکی از آن لحظاتی است که در آینده به آن به عنوان یک نقطه عطف نگاه خواهیم کرد. مثل زمانی که کامپیوترهای شخصی کامپیوترهای بزرگ را کمتر مرتبط کردند، یا زمانی که رایانش ابری همه چیز را تغییر داد.
هوش مصنوعی به زودی بسیار در دسترستر و بسیار ارزانتر خواهد شد. سوال این نیست که آیا این موضوع بازیگران فعلی را مختل خواهد کرد، بلکه این است که چقدر سریع این اتفاق خواهد افتاد.
+
ویدئو آموزش کار با DeepSeek
🔗
eitaa.com/CafeAI