ایتا - 🌿••[هومص]••|°هوش مصنوعی°|

🌿••[هومص]••|°هوش مصنوعی°|

مدل Gooya ASR فارسی

این مدل تبدیل صوت به متن (Automatic Speech Recognition) فارسی با دو برابر شدن دیتاست (بیش از ۶۰۰ ساعت صدای فارسی برچسب خورده) و بهبود معماری و استراتژی‌های Augmentation، عملکرد خوبی از خودش نشون داده

این مدل با ۴ کارت گرافیک NVIDIA H100 (80G)  آموزش دیده 

Gooya-ASR Test Space

➖➖➖➖➖
🗳@hoomas

142 مشاهده03:13

🌿••[هومص]••|°هوش مصنوعی°|

0:03

فعلا قابلیت پخش رسانه در مرورگر فراهم نیست

مشاهده در پیام رسان ایتا

🟥۲۰۲۵، سال مدل‌های مفهومی بزرگ (LCMs) است، نه مدل‌های زبانی بزرگ (LLMs)!


شرکت متا نسل جدیدی از هوش مصنوعی به نام Large Concept Models (LCMs) معرفی کرده که انقلابی در تولید متن و تعامل طبیعی ایجاد خواهد کرد.

مزایای کلیدی LCMs:

🔹Conceptual Processing: 
درک جملات به‌عنوان مفهوم‌های کامل، نه فقط کلمات.
🔹SONAR Embeddings: 
استخراج معنای عمیق از جملات.
🔹Diffusion Techniques: 
ایجاد خروجی‌های دقیق و پایدار.
🔹Quantization Methods: 
کاهش خطا و افزایش دقت مدل‌ها.
🔹Multimodal Integration: 
پشتیبانی از متن و صوت.


 
چهار تفاوت اصلی LLMs و LCMs:

1️⃣ سطح پردازش (Processing Level):
 •LLMs: بر اساس کلمات (توکن‌ها)
 •LCMs: بر اساس مفهوم کامل جمله

2️⃣ نوع درک معنایی (Semantic Understanding):
 •LLMs: معنای محدود در سطح کلمه
 •LCMs: معنای عمیق در سطح جمله

3️⃣ انسجام خروجی (Output Coherence):
 •LLMs: احتمال بی‌ثباتی در متن طولانی
 •LCMs: متن پایدار و منسجم‌تر

4️⃣ پشتیبانی چندوجهی (Multimodal Capabilities):
  •LLMs: فقط پردازش متن
  •LCMs: پردازش متن، صوت و چندرسانه‌ای

➖➖➖➖➖
🗳@hoomas

168 مشاهده03:18

🌿••[هومص]••|°هوش مصنوعی°|

0:26

فعلا قابلیت پخش رسانه در مرورگر فراهم نیست

مشاهده در پیام رسان ایتا

مدل‌های بینایی-زبانی (VLMs) اخیراً در زمینه‌هایی مانند #برنامه_نویسی و علوم عملکردی در حد یا حتی فراتر از انسان داشته‌اند. در حوزه رانندگی #خودران، مدل‌های (End-to-End) توانایی‌های برنامه‌ریزی را بهبود بخشیده‌اند، اما هنوز در موقعیت‌های پیچیده و غیرمعمول عملکرد ضعیفی دارند. این مقاله روش AlphaDrive را معرفی می‌کند، که یک چارچوب ترکیبی از #یادگیری_تقویتی (RL) و #استدلال برای بهبود برنامه‌ریزی در رانندگی خودران است. AlphaDrive یک مدل VLM مبتنی بر یادگیری تقویتی و استدلال است که هدف آن افزایش دقت برنامه‌ریزی در سیستم‌های خودران است. این روش از بهینه‌سازی سیاست نسبی گروهی (GRPO) برای بهبود عملکرد یادگیری تقویتی استفاده می‌کند. همچنین از یک استراتژی دو مرحله‌ای برای ترکیب #یادگیری_تحت_نظارت (SFT) و یادگیری تقویتی بهره می‌برد.

▪️ AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

➖➖➖➖➖
🗳@hoomas

143 مشاهده02:46

🌿••[هومص]••|°هوش مصنوعی°|

مدل Reka با قابلیت استدلال بصورت #متن_باز منتشر شد. مدل Reka یک مدل زبانی چندوجهی می باشد 

این مدل عملکردی رقابتی با مدل‌های openai مثل OpenAI o1-mini  را دارد هم اکنون میتونین باهاش به گفتگو بپردازید

➖➖➖➖➖
🗳@hoomas

133 مشاهده02:47

🌿••[هومص]••|°هوش مصنوعی°|

📝 دعوت وزیر علوم از شرکت‌های فناور برای طراحی نظام آموزشی مبتنی بر هوش مصنوعی

وزیر علوم از آمادگی این وزارت خانه برای دریافت ایده‌های طراحی نظام آموزشی مبتنی بر هوش مصنوعی از سوی شرکت‌های فناور کشور خبرداد.

وزیر علوم خاطر نشان کرد: ما در این جلسه چند توصیه از سمت شرکت‌ها دریافت کردیم که سازنده بود. اول اینکه عزم خود را جزم کنیم برای اینکه نظام آموزشی مبتنی بر هوش مصنوعی طراحی کنیم. به طوری‌که از این شرکت‌ها دعوت کردم ایده‌های خود را برای ما ارسال کنند.

➖➖➖➖➖
🗳@hoomas

416 مشاهده02:48

🌿••[هومص]••|°هوش مصنوعی°|

مدل بزرگ سری زمانی «فلامینگو»؛ پیشرفتی چشمگیر در حوزه پیش‌بینی با AI

 مرکز تحقیقات هوش مصنوعی پارت در ادامه عرضه محصولات بهبود یافته و متن‌باز خود به اکوسیستم هوش مصنوعی کشور، از جدیدترین مدل بزرگ سری زمانی خود تحت عنوان «فلامینگو» پرده برداشت. این مدل بنیادی، علاوه‌بر پیش‌بینی سری زمانی، از قابلیت دسته‌بندی داده‌ها نیز برخوردار است و توانسته بسیاری از جنبه‌های مدل پایه خود را ارتقا دهد.

اگر بخواهیم چند مورد از کاربردی‌ترین قابلیت‌های هوش مصنوعی را نام ببریم، پیش‌نگری الگوهای آینده، قطعاً یکی از آن‌ها است. این فناوری به لطف توانایی شگفت‌انگیز خود در تجزیه‌وتحلیل کلان‌داده‌ها، این قابلیت را دارد که بر اساس الگوهای گذشته، وقایع آتی مانند نوسانات نرخ ارز، الگوی تغییرات سهام، تغییرات آب‌وهوایی و فرایندهایی از این دست را با دقت نسبتاً بالایی تخمین بزند. این ویژگی باعث شده تا هوش مصنوعی، بیش‌ازپیش مورد توجه صنایع گوناگون قرار بگیرد و فعالان اقتصادی، پزشکان، توسعه‌دهندگان، محققان و... AI را به‌عنوان دستیاری قابل‌اتکا برای تحلیل داده‌های سری زمانی بشناسند.

شاخص دقت در مدل‌های سری زمانی از اهمیت زیادی برخوردار است و بهبود میزان دقت مدل‌ها، تأثیر چشمگیری روی نتیجه نهایی دارد. از همین رو، مرکز تحقیقات هوش مصنوعی پارت با عرضه مدل اختصاصی خود تحت عنوان «فلامینگو »، موفق شده برخی از محدودیت‌های مدل پایه خود (Google Times FM) را رفع کند و با میزبانی از ویژگی‌های جدیدی مانند قابلیت دسته‌بندی، به سطح جدیدی از دقت و کارایی برسد.

➖➖➖➖➖
🗳@hoomas

144 مشاهده02:57

🌿••[هومص]••|°هوش مصنوعی°|

🔴تحولی در فناوری‌های پوشیدنی؛ پارچه‌ای که حرکات انگشت را بدون لمس تشخیص می‌دهد

🔸️شنیده بودیم لباس‌های لمسی می‌توانند با استفاده از ضربه‌ها و حرکات انگشت روی پارچه، دستگاه‌ها را کنترل کنند. این فناوری‌های پوشیدنی در لبه تکنولوژی هستند اما محدودیت‌هایی نیز دارند. برای جبران این محدودیت‌ها محققان موفق به توسعه پارچه‌ای شده‌اند که می‌تواند حرکات انگشت را بدون نیاز به لمس تشخیص دهد.

🔸️این پارچه آزمایشی را گروهی از دانشمندان از دانشگاه «ناتینگهام ترنت» بریتانیا، آزمایشگاهی تحقیقاتی در آلمان و دانشگاه «بوزن بولزانو» ایتالیا توسعه داده‌اند.

🔸️اگر این تکنولوژی در لباسی ادغام شود، فرد می‌تواند فقط با حرکت‌ انگشت اشاره خود در فضای بالای پارچه، وظایفی مانند روشن‌کردن لوازم برقی، پاسخ‌ به تماس‌های تلفنی یا کنترل تلویزیون‌های هوشمند را انجام دهد.

🔸️در نسخه اولیه این سیستم، کاربر حلقه مجهز به آهنربای ۳ در ۵ میلی‌متری را روی انگشت اشاره خود می‌پوشد. این حلقه میدانی مغناطیسی ایجاد می‌کند که بر مقاومت الکتریکی ۴ حسگر «مغناطیسی‌-مقاومتی» که در یک آستین پلی‌استری بافته شده‌اند، تأثیر می‌گذارد. سپس ریزپردازنده‌ای با بررسی تغییر مقاومت هر حسگر، موقعیت سه‌بعدی انگشت را در فضای بالای آستین شناسایی می‌کند.

➖➖➖➖➖
🗳@hoomas

163 مشاهده03:02

🌿••[هومص]••|°هوش مصنوعی°|

گوگل از نسل سوم مدلهای زبانی متن بازش موسوم به Gemma رونمایی کرده که علاوه بر ورودیهای متنی، دارای پشتیبانی از ورودیهای تصویری و ویدیویی تنها با یک مدل هستن، از 140 زبان از جمله فارسی پشتیبانی میکنن، Context window اونها 128 هزار توکن هست و در تستهایی مثل LMArena از مدلهای بسیار بزرگتر نظیر Llama-405B و DeepSeek-V3 عملکرد بهتر با مصرف منابع کمتر دارن. 

مدلهای Gemma 3 در 4 سایز 1، 4، 12 و 27 میلیارد پارامتری عرضه میشن و با Ollama میشه به صورت افلاین روی کامپیوتر از اونها استفاده کرد. به صورت انلاین هم میتونین اونهارو در Google AI Studio ازمایش کنید. 

➖➖➖➖➖
🗳@hoomas

1 مشاهده02:59

🌿••[هومص]••|°هوش مصنوعی°|

0:17

فعلا قابلیت پخش رسانه در مرورگر فراهم نیست

مشاهده در پیام رسان ایتا

شرکت Sesame که چند وقت پیش به خاطر لحن بسیار طبیعی مدل صوتی خودش تعجب همگان رو برانگیخته بود، بالاخره مدلش رو متن باز کرده و حالا کاربران به صورت رایگان و افلاین میتونن از اون برای کاربردهای مختلف تبدیل متن به صوت استفاده کنن. 

مدلی که متن باز شده 1 میلیارد پارامتر داره که در مقایسه با مدلی که در سایت این شرکت استفاده میشه و 8 میلیارد پارامتر داره طبیعتا ضعیفتره ولی از هیچی بهتره و برای اجرای اون نیاز به کارت گرافیک انویدیا با حداقل 5 گیگ VRAM هست. علاوه بر این مثل نسخه سایت شخصیت خاصی نداره و برای اینکه صدای بخصوصی داشته باشه باید جداگانه Fine Tune بشه.

این مدل رو میتونید از اینجا دانلود کنید و از اینجا به صورت انلاین میشه نسخه متن باز اون رو ازمایش کرد. نسخه اصلی اون هم در سایت این شرکت قابل ازمایشه.

➖➖➖➖➖
🗳@hoomas

1 مشاهده03:03

مطالب بعدی

پرسش‌ها

قوانین

داغ‌ترین‌ها

چندسکویی