مدل Gooya ASR فارسی
این مدل تبدیل صوت به متن (Automatic Speech Recognition) فارسی با دو برابر شدن دیتاست (بیش از ۶۰۰ ساعت صدای فارسی برچسب خورده) و بهبود معماری و استراتژیهای Augmentation، عملکرد خوبی از خودش نشون داده
این مدل با ۴ کارت گرافیک NVIDIA H100 (80G) آموزش دیده
Gooya-ASR Test Space
➖➖➖➖➖
🗳@hoomas
فعلا قابلیت پخش رسانه در مرورگر فراهم نیست
مشاهده در پیام رسان ایتا
🟥۲۰۲۵، سال مدلهای مفهومی بزرگ (LCMs) است، نه مدلهای زبانی بزرگ (LLMs)!
شرکت متا نسل جدیدی از هوش مصنوعی به نام Large Concept Models (LCMs) معرفی کرده که انقلابی در تولید متن و تعامل طبیعی ایجاد خواهد کرد.
مزایای کلیدی LCMs:
🔹Conceptual Processing:
درک جملات بهعنوان مفهومهای کامل، نه فقط کلمات.
🔹SONAR Embeddings:
استخراج معنای عمیق از جملات.
🔹Diffusion Techniques:
ایجاد خروجیهای دقیق و پایدار.
🔹Quantization Methods:
کاهش خطا و افزایش دقت مدلها.
🔹Multimodal Integration:
پشتیبانی از متن و صوت.
چهار تفاوت اصلی LLMs و LCMs:
1️⃣ سطح پردازش (Processing Level):
•LLMs: بر اساس کلمات (توکنها)
•LCMs: بر اساس مفهوم کامل جمله
2️⃣ نوع درک معنایی (Semantic Understanding):
•LLMs: معنای محدود در سطح کلمه
•LCMs: معنای عمیق در سطح جمله
3️⃣ انسجام خروجی (Output Coherence):
•LLMs: احتمال بیثباتی در متن طولانی
•LCMs: متن پایدار و منسجمتر
4️⃣ پشتیبانی چندوجهی (Multimodal Capabilities):
•LLMs: فقط پردازش متن
•LCMs: پردازش متن، صوت و چندرسانهای
➖➖➖➖➖
🗳@hoomas
فعلا قابلیت پخش رسانه در مرورگر فراهم نیست
مشاهده در پیام رسان ایتا
مدلهای بینایی-زبانی (VLMs) اخیراً در زمینههایی مانند #برنامه_نویسی و علوم عملکردی در حد یا حتی فراتر از انسان داشتهاند. در حوزه رانندگی #خودران، مدلهای (End-to-End) تواناییهای برنامهریزی را بهبود بخشیدهاند، اما هنوز در موقعیتهای پیچیده و غیرمعمول عملکرد ضعیفی دارند. این مقاله روش AlphaDrive را معرفی میکند، که یک چارچوب ترکیبی از #یادگیری_تقویتی (RL) و #استدلال برای بهبود برنامهریزی در رانندگی خودران است. AlphaDrive یک مدل VLM مبتنی بر یادگیری تقویتی و استدلال است که هدف آن افزایش دقت برنامهریزی در سیستمهای خودران است. این روش از بهینهسازی سیاست نسبی گروهی (GRPO) برای بهبود عملکرد یادگیری تقویتی استفاده میکند. همچنین از یک استراتژی دو مرحلهای برای ترکیب #یادگیری_تحت_نظارت (SFT) و یادگیری تقویتی بهره میبرد.
▪️ AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
➖➖➖➖➖
🗳@hoomas
📝 دعوت وزیر علوم از شرکتهای فناور برای طراحی نظام آموزشی مبتنی بر هوش مصنوعی
وزیر علوم از آمادگی این وزارت خانه برای دریافت ایدههای طراحی نظام آموزشی مبتنی بر هوش مصنوعی از سوی شرکتهای فناور کشور خبرداد.
وزیر علوم خاطر نشان کرد: ما در این جلسه چند توصیه از سمت شرکتها دریافت کردیم که سازنده بود. اول اینکه عزم خود را جزم کنیم برای اینکه نظام آموزشی مبتنی بر هوش مصنوعی طراحی کنیم. به طوریکه از این شرکتها دعوت کردم ایدههای خود را برای ما ارسال کنند.
➖➖➖➖➖
🗳@hoomas
مدل بزرگ سری زمانی «فلامینگو»؛ پیشرفتی چشمگیر در حوزه پیشبینی با AI
مرکز تحقیقات هوش مصنوعی پارت در ادامه عرضه محصولات بهبود یافته و متنباز خود به اکوسیستم هوش مصنوعی کشور، از جدیدترین مدل بزرگ سری زمانی خود تحت عنوان «فلامینگو» پرده برداشت. این مدل بنیادی، علاوهبر پیشبینی سری زمانی، از قابلیت دستهبندی دادهها نیز برخوردار است و توانسته بسیاری از جنبههای مدل پایه خود را ارتقا دهد.
اگر بخواهیم چند مورد از کاربردیترین قابلیتهای هوش مصنوعی را نام ببریم، پیشنگری الگوهای آینده، قطعاً یکی از آنها است. این فناوری به لطف توانایی شگفتانگیز خود در تجزیهوتحلیل کلاندادهها، این قابلیت را دارد که بر اساس الگوهای گذشته، وقایع آتی مانند نوسانات نرخ ارز، الگوی تغییرات سهام، تغییرات آبوهوایی و فرایندهایی از این دست را با دقت نسبتاً بالایی تخمین بزند. این ویژگی باعث شده تا هوش مصنوعی، بیشازپیش مورد توجه صنایع گوناگون قرار بگیرد و فعالان اقتصادی، پزشکان، توسعهدهندگان، محققان و... AI را بهعنوان دستیاری قابلاتکا برای تحلیل دادههای سری زمانی بشناسند.
شاخص دقت در مدلهای سری زمانی از اهمیت زیادی برخوردار است و بهبود میزان دقت مدلها، تأثیر چشمگیری روی نتیجه نهایی دارد. از همین رو، مرکز تحقیقات هوش مصنوعی پارت با عرضه مدل اختصاصی خود تحت عنوان «فلامینگو »، موفق شده برخی از محدودیتهای مدل پایه خود (Google Times FM) را رفع کند و با میزبانی از ویژگیهای جدیدی مانند قابلیت دستهبندی، به سطح جدیدی از دقت و کارایی برسد.
➖➖➖➖➖
🗳@hoomas
🔴تحولی در فناوریهای پوشیدنی؛ پارچهای که حرکات انگشت را بدون لمس تشخیص میدهد
🔸️شنیده بودیم لباسهای لمسی میتوانند با استفاده از ضربهها و حرکات انگشت روی پارچه، دستگاهها را کنترل کنند. این فناوریهای پوشیدنی در لبه تکنولوژی هستند اما محدودیتهایی نیز دارند. برای جبران این محدودیتها محققان موفق به توسعه پارچهای شدهاند که میتواند حرکات انگشت را بدون نیاز به لمس تشخیص دهد.
🔸️این پارچه آزمایشی را گروهی از دانشمندان از دانشگاه «ناتینگهام ترنت» بریتانیا، آزمایشگاهی تحقیقاتی در آلمان و دانشگاه «بوزن بولزانو» ایتالیا توسعه دادهاند.
🔸️اگر این تکنولوژی در لباسی ادغام شود، فرد میتواند فقط با حرکت انگشت اشاره خود در فضای بالای پارچه، وظایفی مانند روشنکردن لوازم برقی، پاسخ به تماسهای تلفنی یا کنترل تلویزیونهای هوشمند را انجام دهد.
🔸️در نسخه اولیه این سیستم، کاربر حلقه مجهز به آهنربای ۳ در ۵ میلیمتری را روی انگشت اشاره خود میپوشد. این حلقه میدانی مغناطیسی ایجاد میکند که بر مقاومت الکتریکی ۴ حسگر «مغناطیسی-مقاومتی» که در یک آستین پلیاستری بافته شدهاند، تأثیر میگذارد. سپس ریزپردازندهای با بررسی تغییر مقاومت هر حسگر، موقعیت سهبعدی انگشت را در فضای بالای آستین شناسایی میکند.
➖➖➖➖➖
🗳@hoomas
گوگل از نسل سوم مدلهای زبانی متن بازش موسوم به Gemma رونمایی کرده که علاوه بر ورودیهای متنی، دارای پشتیبانی از ورودیهای تصویری و ویدیویی تنها با یک مدل هستن، از 140 زبان از جمله فارسی پشتیبانی میکنن، Context window اونها 128 هزار توکن هست و در تستهایی مثل LMArena از مدلهای بسیار بزرگتر نظیر Llama-405B و DeepSeek-V3 عملکرد بهتر با مصرف منابع کمتر دارن.
مدلهای Gemma 3 در 4 سایز 1، 4، 12 و 27 میلیارد پارامتری عرضه میشن و با Ollama میشه به صورت افلاین روی کامپیوتر از اونها استفاده کرد. به صورت انلاین هم میتونین اونهارو در Google AI Studio ازمایش کنید.
➖➖➖➖➖
🗳@hoomas
فعلا قابلیت پخش رسانه در مرورگر فراهم نیست
مشاهده در پیام رسان ایتا
شرکت Sesame که چند وقت پیش به خاطر لحن بسیار طبیعی مدل صوتی خودش تعجب همگان رو برانگیخته بود، بالاخره مدلش رو متن باز کرده و حالا کاربران به صورت رایگان و افلاین میتونن از اون برای کاربردهای مختلف تبدیل متن به صوت استفاده کنن.
مدلی که متن باز شده 1 میلیارد پارامتر داره که در مقایسه با مدلی که در سایت این شرکت استفاده میشه و 8 میلیارد پارامتر داره طبیعتا ضعیفتره ولی از هیچی بهتره و برای اجرای اون نیاز به کارت گرافیک انویدیا با حداقل 5 گیگ VRAM هست. علاوه بر این مثل نسخه سایت شخصیت خاصی نداره و برای اینکه صدای بخصوصی داشته باشه باید جداگانه Fine Tune بشه.
این مدل رو میتونید از اینجا دانلود کنید و از اینجا به صورت انلاین میشه نسخه متن باز اون رو ازمایش کرد. نسخه اصلی اون هم در سایت این شرکت قابل ازمایشه.
➖➖➖➖➖
🗳@hoomas