
Tensorflow(@CVision)
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر
TensorFlow, Keras, Deep Learning, Computer Vision
سایت دوره
http://class.vision
👨💻👩💻پشتیبان دوره ها:
@classvision_support
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر
TensorFlow, Keras, Deep Learning, Computer Vision
سایت دوره
http://class.vision
👨💻👩💻پشتیبان دوره ها:
@classvision_support
关联群组
"Tensorflow(@CVision)" 群组最新帖子
05.04.202521:14
📢 مدل llama4 منتشر شد
✨ متا از نسل جدید هوش مصنوعی خود رونمایی کرد: Llama 4! ✨
هوش مصنوعی چندوجهی (Multimodal): لاما ۴ با هدف ایجاد تجربیات شخصیسازیشدهتر و با قابلیت درک و پردازش انواع مختلف دادهها (متن، تصویر و …) طراحی شده است. 🤖💡
معرفی اولین مدل، Llama 4 Scout:
دارای ۱۷ میلیارد پارامتر فعال.
از معماری ترکیبی از متخصصان (MoE) با ۱۶ متخصص بهره میبرد.
به ادعای متا، بهترین مدل چندوجهی در کلاس خود در جهان است. 🏆
قدرتمندتر از تمام نسلهای قبلی لاما.
بهینه و کارآمد: قادر است روی یک پردازنده گرافیکی H100 اجرا شود. ⚡️
تمرکز بر نوآوری: هدف اصلی این نسل، پیشبرد نوآوری در هوش مصنوعی چندوجهی بومی (natively multimodal) است.
به طور خلاصه، Llama 4 Scout به عنوان اولین عضو خانواده لاما ۴، یک مدل هوش مصنوعی چندوجهی بسیار قدرتمند و در عین حال بهینه است که نویدبخش قابلیتهای جدید و پیشرفتهتری در دنیای AI میباشد. 🚀
و طبق این توییت contex window این مدل ۱۰ میلیون توکن است!!😳
بلاگ:
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
مدل:
https://www.llama.com/llama4/
✨ متا از نسل جدید هوش مصنوعی خود رونمایی کرد: Llama 4! ✨
هوش مصنوعی چندوجهی (Multimodal): لاما ۴ با هدف ایجاد تجربیات شخصیسازیشدهتر و با قابلیت درک و پردازش انواع مختلف دادهها (متن، تصویر و …) طراحی شده است. 🤖💡
معرفی اولین مدل، Llama 4 Scout:
دارای ۱۷ میلیارد پارامتر فعال.
از معماری ترکیبی از متخصصان (MoE) با ۱۶ متخصص بهره میبرد.
به ادعای متا، بهترین مدل چندوجهی در کلاس خود در جهان است. 🏆
قدرتمندتر از تمام نسلهای قبلی لاما.
بهینه و کارآمد: قادر است روی یک پردازنده گرافیکی H100 اجرا شود. ⚡️
تمرکز بر نوآوری: هدف اصلی این نسل، پیشبرد نوآوری در هوش مصنوعی چندوجهی بومی (natively multimodal) است.
به طور خلاصه، Llama 4 Scout به عنوان اولین عضو خانواده لاما ۴، یک مدل هوش مصنوعی چندوجهی بسیار قدرتمند و در عین حال بهینه است که نویدبخش قابلیتهای جدید و پیشرفتهتری در دنیای AI میباشد. 🚀
و طبق این توییت contex window این مدل ۱۰ میلیون توکن است!!😳
بلاگ:
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
مدل:
https://www.llama.com/llama4/


03.04.202506:51
سال ۲۰۱۸ توی این پست به معرفی سختافزار TPU گوگل پرداختم حالا سرمایه گذاری بلند مدت گوگل داره نتایج درخشان خودش رو نشون میده.
شرکتهایی که برای پردازش مدلهاشون به GPU های شرکت Nvidia متکی هستن، با چالش های سختافزاری و هزینههای بالا مواجه شدن در حالی که سرمایهگذاری گوگل روی TPUها جواب داد. گوگل حالا انحصار سخت افزار خودش رو داره و دیگه نیازی به GPUهای انویدیا نداره.
این موضوع شاید بیشتر به مزایای خود TPUها مربوط باشه تا یک ویژگی خاص در طراحی Gemini. در حالی که GPU ها بهترین سختافزار همه منظوره برای این کار هستن، TPUها بهطور خاص برای مدلهای ترنسفورمر بهینه شدن. گوگل نهتنها زنجیره تأمین سختافزار خودش رو کنترل میکنه، بلکه سخت افزاری در اختیار داره که برای این نوع پردازش مناسب تر از هر گزینهی دیگه ست.
شرکتهایی که برای پردازش مدلهاشون به GPU های شرکت Nvidia متکی هستن، با چالش های سختافزاری و هزینههای بالا مواجه شدن در حالی که سرمایهگذاری گوگل روی TPUها جواب داد. گوگل حالا انحصار سخت افزار خودش رو داره و دیگه نیازی به GPUهای انویدیا نداره.
این موضوع شاید بیشتر به مزایای خود TPUها مربوط باشه تا یک ویژگی خاص در طراحی Gemini. در حالی که GPU ها بهترین سختافزار همه منظوره برای این کار هستن، TPUها بهطور خاص برای مدلهای ترنسفورمر بهینه شدن. گوگل نهتنها زنجیره تأمین سختافزار خودش رو کنترل میکنه، بلکه سخت افزاری در اختیار داره که برای این نوع پردازش مناسب تر از هر گزینهی دیگه ست.


03.04.202506:50
TPU چگونه کار میکند
https://alisterta.github.io/2018-09-03/TPU-چگونه-کار-میکند/
https://alisterta.github.io/2018-09-03/TPU-چگونه-کار-میکند/
03.04.202503:58
دانشگاه هنگ کنگ مدل Dream 7B (مدل استدلال defusion) رو منتشر کرد. این مدل، بهترین مدل defusion متن باز تا به امروز هست و میتونید تعداد گام های defusion رو برای تعادل بین سرعت و دقت تنظیم کنید.
https://hkunlp.github.io/blog/2025/dream/
https://hkunlp.github.io/blog/2025/dream/


01.04.202510:40
🚀 آینده شغلیات رو با هوش مصنوعی متحول کن! 🚀
🔥 تخفیف استثنایی ۴۰٪ برای برترین دورههای هوش مصنوعی در Class Vision! 🔥
✅ با کد
⏳ فقط تا آخر این هفته (۱۵ فروردین) فرصت داری! ⏳
این فرصت تکرار نشدنی برای ورود به دنیای جذاب AI رو از دست نده! 👇
https://class.vision
#هوش_مصنوعی #تخفیف #آموزش_هوش_مصنوعی #کلاس_ویژن #یادگیری_ماشین #مهارت_آینده #بینایی_کامپیوتر
🔥 تخفیف استثنایی ۴۰٪ برای برترین دورههای هوش مصنوعی در Class Vision! 🔥
✅ با کد
nowruz404
روی هر دورهای که میخوای، بدون محدودیت سقف قیمت، ۴۰٪ تخفیف بگیر!⏳ فقط تا آخر این هفته (۱۵ فروردین) فرصت داری! ⏳
این فرصت تکرار نشدنی برای ورود به دنیای جذاب AI رو از دست نده! 👇
https://class.vision
#هوش_مصنوعی #تخفیف #آموزش_هوش_مصنوعی #کلاس_ویژن #یادگیری_ماشین #مهارت_آینده #بینایی_کامپیوتر
29.03.202519:26
این روزها که اینترنت پر از تصاویر سبک استودیو Ghibli شده، جا داره که گفت این صحنه ۴ ثانیهای از جمعیت در یکی از آثار این استدیو، بیش از یک سال طول کشید تا تکمیل شه.
الان که به مدد مدل های زبانی میتونیم تصاویر زیبای سبک استودیو Ghibli تولید کنیم نه به خاطر ChatGPT یا سایر مدلهای زبانی، بلکه به خاطر کار طاقت فرسای هزاران ساعتِ این افراد هنرمنده که در این استودیو کار کردهاند و تکرار آن بسیار دشواره.
الان که به مدد مدل های زبانی میتونیم تصاویر زیبای سبک استودیو Ghibli تولید کنیم نه به خاطر ChatGPT یا سایر مدلهای زبانی، بلکه به خاطر کار طاقت فرسای هزاران ساعتِ این افراد هنرمنده که در این استودیو کار کردهاند و تکرار آن بسیار دشواره.
27.03.202520:18
بعد از عرضه مدل های زبانی در روز گذشته، امروز علی بابا مدل Qwen2.5-Omni با ۷ میلیارد پارامتر رو بصورت متن باز منتشر کرد، مدلی جامع که میتونه متن، صدا، تصویر و ویدئو رو پردازش کنه.
از قابلیت های این مدل جامع معماری "thinker-talker" هست که امکان استدلال و صحبت کردن رو به طور همزمان فراهم میکنه.
متفکر (Thinker): مانند مغز عمل میکنه. ورودی های مختلف (متن، صدا، تصویر) رو پردازش و درک می کنه، اطلاعات مهم رو استخراج و به صورت متن آماده می کنه
گوینده (Talker): مانند دهان انسان عمل می کنه، متن تولید شده توسط متفکر رو به صورت پیوسته دریافت و اونها رو به صورت کلمات گسسته به زبان میاره
در طول آموزش و استفاده، گوینده مستقیما اطلاعات مهم تولید شده توسط متفکر رو دریافت و تمام اطلاعات قبلی متفکر رو نیز به اشتراک می گذاره. در نتیجه، کل معماری به عنوان یک مدل واحد و یکپارچه عمل میکنه و امکان آموزش و استفاده end-to-end رو فراهم می کنه
جزییات معماری:
https://qwenlm.github.io/blog/qwen2.5-omni/
دمو:
https://chat.qwenlm.ai/
از قابلیت های این مدل جامع معماری "thinker-talker" هست که امکان استدلال و صحبت کردن رو به طور همزمان فراهم میکنه.
متفکر (Thinker): مانند مغز عمل میکنه. ورودی های مختلف (متن، صدا، تصویر) رو پردازش و درک می کنه، اطلاعات مهم رو استخراج و به صورت متن آماده می کنه
گوینده (Talker): مانند دهان انسان عمل می کنه، متن تولید شده توسط متفکر رو به صورت پیوسته دریافت و اونها رو به صورت کلمات گسسته به زبان میاره
در طول آموزش و استفاده، گوینده مستقیما اطلاعات مهم تولید شده توسط متفکر رو دریافت و تمام اطلاعات قبلی متفکر رو نیز به اشتراک می گذاره. در نتیجه، کل معماری به عنوان یک مدل واحد و یکپارچه عمل میکنه و امکان آموزش و استفاده end-to-end رو فراهم می کنه
جزییات معماری:
https://qwenlm.github.io/blog/qwen2.5-omni/
دمو:
https://chat.qwenlm.ai/
27.03.202519:45
Alibaba launches new open-source AI model for ‘cost-effective AI agents’
https://www.cnbc.com/2025/03/27/alibaba-launches-open-source-ai-model-for-cost-effective-ai-agents.html
https://www.cnbc.com/2025/03/27/alibaba-launches-open-source-ai-model-for-cost-effective-ai-agents.html
27.03.202519:22
همین که سال نو میلادی شروع شد، اتفاق ها بی وقفه، یکی پس از دیگری، شروع به رخ دادن کردن، انگار واقعا وارد مراحل اولیه دوران تکینگی (Singularity) شدیم!
تا پیش از این، باید ماه ها منتظر می موندیم تا شاهد یه عرضه بزرگ یا یک پیشرفت چشمگیر باشیم. اما حالا، امسال، تقریبا هر دو هفته یک بار، اتفاقی جریان ساز و دگرگونکننده رخ میده.
چقدر طول میکشه تا این فاصله به یک هفته و بعد به سه روز کاهش پیدا کنه؟
سال ۲۰۲۶ اوضاع دیوانه واری در پیشه و برای توصیف ۲۰۲۷، واقعا کلمهای پیدا نمیکنم
تا پیش از این، باید ماه ها منتظر می موندیم تا شاهد یه عرضه بزرگ یا یک پیشرفت چشمگیر باشیم. اما حالا، امسال، تقریبا هر دو هفته یک بار، اتفاقی جریان ساز و دگرگونکننده رخ میده.
چقدر طول میکشه تا این فاصله به یک هفته و بعد به سه روز کاهش پیدا کنه؟
سال ۲۰۲۶ اوضاع دیوانه واری در پیشه و برای توصیف ۲۰۲۷، واقعا کلمهای پیدا نمیکنم
13.02.202515:43
اجرای مدل های بزرگی مثل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر بر روی سختافزارهای معمولی تقریبا غیر ممکنه.
برای اجرای چنین مدل هایی معمولا از نسخههای فشرده شده استفاده میشه که به دلیل کاهش بیش از ۹۰ درصدی پارامترها، نمیتونیم به عملکرد واقعی مدل های اصلی دست پیدا کنیم.
اما با رویکرد جدید، تیم KVCache.AI
اجرای این مدل زبانی بزرگ روی کارت گرافیک هایی با حافظه ۲۴ گیگابایت مثل 4090 امکان پذیر شده.
این تیم با بهره گیری از محاسبات ناهمگن یا heterogeneous computing (تقسیم کار بین GPU و CPU)، به جای اینکه همه پردازش روی کارت گرافیک انجام شه، بخش هایی از محاسبات رو روی CPU انجام میده.
براساس توضیحات درج شده در گزارش بخش هایی از مدل که کمتر استفاده میشن (یعنی بخشهای پراکنده MoE) روی حافظه رم (DRAM) و CPU قرار میگیرن و با استفاده از ابزار llamafile پردازش میشن.
بخشهای اصلی و پرکاربرد مدل روی کارت گرافیک (GPU) قرار میگیرن و با Marlin(فریم ورک بهینه شده Nvidia برای پردازش های هوش مصنوعی روی GPU) پردازش میشن.
به لطف این روش و استفاده از کوانتیزاسیون ۴ بیتی، مقدار حافظه لازم برای اجرای مدل روی GPU فقط ۲۴ گیگابایته. یعنی این مدل حتی روی یک کارت گرافیک RTX 4090 هم به راحتی اجراست.
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
برای اجرای چنین مدل هایی معمولا از نسخههای فشرده شده استفاده میشه که به دلیل کاهش بیش از ۹۰ درصدی پارامترها، نمیتونیم به عملکرد واقعی مدل های اصلی دست پیدا کنیم.
اما با رویکرد جدید، تیم KVCache.AI
اجرای این مدل زبانی بزرگ روی کارت گرافیک هایی با حافظه ۲۴ گیگابایت مثل 4090 امکان پذیر شده.
این تیم با بهره گیری از محاسبات ناهمگن یا heterogeneous computing (تقسیم کار بین GPU و CPU)، به جای اینکه همه پردازش روی کارت گرافیک انجام شه، بخش هایی از محاسبات رو روی CPU انجام میده.
براساس توضیحات درج شده در گزارش بخش هایی از مدل که کمتر استفاده میشن (یعنی بخشهای پراکنده MoE) روی حافظه رم (DRAM) و CPU قرار میگیرن و با استفاده از ابزار llamafile پردازش میشن.
بخشهای اصلی و پرکاربرد مدل روی کارت گرافیک (GPU) قرار میگیرن و با Marlin(فریم ورک بهینه شده Nvidia برای پردازش های هوش مصنوعی روی GPU) پردازش میشن.
به لطف این روش و استفاده از کوانتیزاسیون ۴ بیتی، مقدار حافظه لازم برای اجرای مدل روی GPU فقط ۲۴ گیگابایته. یعنی این مدل حتی روی یک کارت گرافیک RTX 4090 هم به راحتی اجراست.
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
12.02.202510:03
نمیخواهم بیش از حد فلسفیش کنم اما به نظر من هر چه سطح پیشرفت های علمی و تکنولوژی بالاتر میره، الزاما انسانها رو شادتر نمیبینی. در عصر کنونی، آدما مثل یه اسیر در قفسی نامرئی از الگوریتمها و دادهها شدن، جایی که حقیقت و واقعیت به تدریج زیر بار سرمایه داران فناوری و بازیگران سیاسی فرو می ریزن.
مثلاً پیشنهاد 97 میلیارد دلاری دیروز ایلان ماسک برای تصاحب OpenAI قطعا به نقش بسیار پررنگ هوش مصنوعی در آینده نزدیک اشاره داره، و قدرتی که برای سرمایه داران به ارمغان میاره.
https://in.mashable.com/tech/89649/elon-is-not-a-happy-person-sam-altman-takes-a-dig-after-rejecting-musks-974-billion-offer-to-buy-ope
همونطور که روزگاری سیاستمداران بزرگ با شعارهای بلند و وعده ها، بعد واقعی جهان را تغییر می دادن، امروز این نقش در دست چهره های دیجیتاله که با ابزارهای نوین، تصویری فریبنده از جهان برای ما می سازن.
در زمانهایی که مرز بین واقعیت و خیال به وضوح تعیین شده بود، جامعه به تفکری عمیق پیرامون حقیقت میپرداخت، اما حالا با ظهور قدرتهای نامرئی در دنیای فناوری، چیزی که به چشم میاد و آنچه در دل نهفته ست، هم آمیخته و درهم تنیده شدن. قدرت هایی که با هوش مصنوعی و الگوریتمهای پیشرفته، موجی از اطلاعات دستکاری شده رو به ما عرضه میکنن و ما رو در مسیری قرار میدن که انگار تنها تصویر نمایشی از واقعیته.
https://www.theatlantic.com/ideas/archive/2025/02/trump-administration-voter-perception/681598/?utm_source=reddit&utm_medium=social&utm_campaign=the-atlantic&utm_content=edit-promo
مثلاً پیشنهاد 97 میلیارد دلاری دیروز ایلان ماسک برای تصاحب OpenAI قطعا به نقش بسیار پررنگ هوش مصنوعی در آینده نزدیک اشاره داره، و قدرتی که برای سرمایه داران به ارمغان میاره.
https://in.mashable.com/tech/89649/elon-is-not-a-happy-person-sam-altman-takes-a-dig-after-rejecting-musks-974-billion-offer-to-buy-ope
همونطور که روزگاری سیاستمداران بزرگ با شعارهای بلند و وعده ها، بعد واقعی جهان را تغییر می دادن، امروز این نقش در دست چهره های دیجیتاله که با ابزارهای نوین، تصویری فریبنده از جهان برای ما می سازن.
در زمانهایی که مرز بین واقعیت و خیال به وضوح تعیین شده بود، جامعه به تفکری عمیق پیرامون حقیقت میپرداخت، اما حالا با ظهور قدرتهای نامرئی در دنیای فناوری، چیزی که به چشم میاد و آنچه در دل نهفته ست، هم آمیخته و درهم تنیده شدن. قدرت هایی که با هوش مصنوعی و الگوریتمهای پیشرفته، موجی از اطلاعات دستکاری شده رو به ما عرضه میکنن و ما رو در مسیری قرار میدن که انگار تنها تصویر نمایشی از واقعیته.
https://www.theatlantic.com/ideas/archive/2025/02/trump-administration-voter-perception/681598/?utm_source=reddit&utm_medium=social&utm_campaign=the-atlantic&utm_content=edit-promo
12.02.202509:55
یه کم موضوع رو بازتر کنم.
شاید برای برخی هنوز سورپرایز کننده باشه که روزی الگوریتم ها توانایی فراتر از انسانها داشته باشن اما دیر یا زود مشکل حافظه بلند مدت در مدل های زبانی و حافظه تقریبا نامحدود حل خواهد شد و شرکت های بزرگ تولید کننده کارت گرافیک، تراشه هوش مصنوعی نسل بعدی ارزان قیمت که مخصوص عملیات محاسباتی مدل های زبانی هستند رو روانه بازار خواهند کرد.
گواه این موضوع هم مقالاتی هست که اخیرا منتشر شده از طرفی با سرعت رشد نمایی که شاهدیم در دو سال آینده شاهد انقلابی در این زمینه خواهیم بود.
به عنوان مثال معماری Titans که یک ماه پیش توسط علی بهروز Google Research، منتشر شد از یه مدل هوش مصنوعی جدید، رونمایی میکنه که یاد میگیره اطلاعات رو در یک حافظه بلند مدت اختصاصی، در زمان آزمایش test-time، ذخیره کنه.
این بدان معناست که مدل میتونه هر زمان که با موضوع غافلگیر کنندهای مواجه میشه، خودش رو تطبیق بده و حافظه خودش رو به صورت آنی به روزرسانی کنه.
برخلاف ترانسفورمرهای استاندارد که فقط پنجره متن فعلی رو پردازش میکنن، این معماری یه رکورد عمیق تر و دائمیتر، مشابه حافظه کوتاهمدت در مقابل حافظه بلندمدت در ما انسانها، نگه میداره.
این روش به صورت کارآمدتر نسبت به ترانسفورمرهای معمولی برای ورودی های بسیار طولانی مقیاس پذیره، یعنی، به طور نظری context window بینهایت!
https://arxiv.org/abs/2501.00663
این فقط یه هوش مصنوعی نسل بعدی نیست، بلکه گامی به سوی خودآگاهی مصنوعی با حافظه پایداره!
اگه خودآگاهی رو به عنوان توانایی مدلسازی درونی (خودمدلسازی)، سازماندهی، یکپارچهسازی و بازیابی دادهها (با توجه به ورودی) تعریف کنیم، همونطور که توسط نظریه اطلاعات یکپارچه (IIT) مطرح شده!
https://www.nature.com/articles/nrn.2016.44
شاید برای برخی هنوز سورپرایز کننده باشه که روزی الگوریتم ها توانایی فراتر از انسانها داشته باشن اما دیر یا زود مشکل حافظه بلند مدت در مدل های زبانی و حافظه تقریبا نامحدود حل خواهد شد و شرکت های بزرگ تولید کننده کارت گرافیک، تراشه هوش مصنوعی نسل بعدی ارزان قیمت که مخصوص عملیات محاسباتی مدل های زبانی هستند رو روانه بازار خواهند کرد.
گواه این موضوع هم مقالاتی هست که اخیرا منتشر شده از طرفی با سرعت رشد نمایی که شاهدیم در دو سال آینده شاهد انقلابی در این زمینه خواهیم بود.
به عنوان مثال معماری Titans که یک ماه پیش توسط علی بهروز Google Research، منتشر شد از یه مدل هوش مصنوعی جدید، رونمایی میکنه که یاد میگیره اطلاعات رو در یک حافظه بلند مدت اختصاصی، در زمان آزمایش test-time، ذخیره کنه.
این بدان معناست که مدل میتونه هر زمان که با موضوع غافلگیر کنندهای مواجه میشه، خودش رو تطبیق بده و حافظه خودش رو به صورت آنی به روزرسانی کنه.
برخلاف ترانسفورمرهای استاندارد که فقط پنجره متن فعلی رو پردازش میکنن، این معماری یه رکورد عمیق تر و دائمیتر، مشابه حافظه کوتاهمدت در مقابل حافظه بلندمدت در ما انسانها، نگه میداره.
این روش به صورت کارآمدتر نسبت به ترانسفورمرهای معمولی برای ورودی های بسیار طولانی مقیاس پذیره، یعنی، به طور نظری context window بینهایت!
https://arxiv.org/abs/2501.00663
این فقط یه هوش مصنوعی نسل بعدی نیست، بلکه گامی به سوی خودآگاهی مصنوعی با حافظه پایداره!
اگه خودآگاهی رو به عنوان توانایی مدلسازی درونی (خودمدلسازی)، سازماندهی، یکپارچهسازی و بازیابی دادهها (با توجه به ورودی) تعریف کنیم، همونطور که توسط نظریه اطلاعات یکپارچه (IIT) مطرح شده!
https://www.nature.com/articles/nrn.2016.44
12.02.202508:20
وقت زیادی نداریم و هوش مصنوعی داره با سرعتی جلو میره که اگه همراهش نشیم، ممکنه جا بمونیم. شاید تا یکی دو سال دیگه، یعنی ۲۰۲۶ یا ۲۰۲۷ (و حتماً قبل از ۲۰۳۰)، این تکنولوژی اون قدر پیشرفته بشه که انگار یه کشور جدید با کلی آدم فوقالعاده باهوش به دنیا اضافه شده، به عبارتی سرزمینی از نوابغ توی یه دیتاسنتر، که تأثیرات بزرگی روی اقتصاد، علم و امنیت دنیا میگذاره.
از یه طرف، فرصت های فوق العادهای توی زمینه های مختلف به وجود میاد که شاید هیچ تکنولوژی دیگه ای در طول تاریخ بشر این قدر تاثیر گذار نبوده. ولی از اون طرف، خطر ها و چالش های جدی هم هست که باید با دقت بهشون فکر کنیم و مدیریت شون کنیم.
https://www.anthropic.com/news/paris-ai-summit
از یه طرف، فرصت های فوق العادهای توی زمینه های مختلف به وجود میاد که شاید هیچ تکنولوژی دیگه ای در طول تاریخ بشر این قدر تاثیر گذار نبوده. ولی از اون طرف، خطر ها و چالش های جدی هم هست که باید با دقت بهشون فکر کنیم و مدیریت شون کنیم.
https://www.anthropic.com/news/paris-ai-summit
11.02.202514:04
این مقاله هم که دیروز منتشر شد یک معماری جدید معرفی میکنه که به کمک ایجاد استدلال در فضای نهان یا latent reasoning تونسته محاسبات لازم برای استدلال در زمان آزمون (test-time) رو به طور پویا افزایش بده.
همونطور که مطلع هستین فضای نهان در مدلهای عصبی، فضاییه که در اون اطلاعات ورودی به شکل ویژگیهای عددی و چند بعدی نمایش داده میشن. در این مقاله، به جای نمایش مراحل استدلال به صورت زنجیرهای از کلمات (که ممکنه طولانی و پرهزینه باشه)، مدل به صورت داخلی و پنهانی چندین بار روی این نمایش عمل میکنه تا پاسخ نهایی رو بهبود ببخشه.
به عبارت دیگه، به جای تولید توکن های بیشتر (مثل chain-of-thought) برای استدلال، این مدل از یه بلوک تکراری (recurrent block) استفاده میکنه که به صورت پنهانی (در فضای نهان) چندین بار اجرا میشه.
این رویکرد اجازه میده تا مدل به عمق محاسباتی دلخواه در زمان آزمون دست پیدا کنه بدون اینکه به دادههای آموزشی تخصصی یا پنجرههای متنی بزرگ نیاز داشته باشه.
نویسندگان ادعا میکنن که به جای تولید توکن های بیشتر که هم می تونه منجر به افزایش مصرف منابع بشه، این روش با استفاده از محاسبات پنهان، کارایی مدل رو بهبود میبخشه و با هزینه محاسباتی کمتر میتونه عملکردی معادل با مدلهای بسیار بزرگتر (مثلاً تا 50 میلیارد پارامتر) به دست بیاره.
https://arxiv.org/abs/2502.05171
کد:
https://github.com/seal-rg/recurrent-pretraining
همونطور که مطلع هستین فضای نهان در مدلهای عصبی، فضاییه که در اون اطلاعات ورودی به شکل ویژگیهای عددی و چند بعدی نمایش داده میشن. در این مقاله، به جای نمایش مراحل استدلال به صورت زنجیرهای از کلمات (که ممکنه طولانی و پرهزینه باشه)، مدل به صورت داخلی و پنهانی چندین بار روی این نمایش عمل میکنه تا پاسخ نهایی رو بهبود ببخشه.
به عبارت دیگه، به جای تولید توکن های بیشتر (مثل chain-of-thought) برای استدلال، این مدل از یه بلوک تکراری (recurrent block) استفاده میکنه که به صورت پنهانی (در فضای نهان) چندین بار اجرا میشه.
این رویکرد اجازه میده تا مدل به عمق محاسباتی دلخواه در زمان آزمون دست پیدا کنه بدون اینکه به دادههای آموزشی تخصصی یا پنجرههای متنی بزرگ نیاز داشته باشه.
نویسندگان ادعا میکنن که به جای تولید توکن های بیشتر که هم می تونه منجر به افزایش مصرف منابع بشه، این روش با استفاده از محاسبات پنهان، کارایی مدل رو بهبود میبخشه و با هزینه محاسباتی کمتر میتونه عملکردی معادل با مدلهای بسیار بزرگتر (مثلاً تا 50 میلیارد پارامتر) به دست بیاره.
https://arxiv.org/abs/2502.05171
کد:
https://github.com/seal-rg/recurrent-pretraining
11.02.202513:44
گروه پرسش و پاسخ مرتبط با کانال:
@tf2keras
گروه opencv مرتبط با کانال:
@opencv_py
کانال اطلاع رسانی دوره ها و تخفیف ها:
@class_vision
@tf2keras
گروه opencv مرتبط با کانال:
@opencv_py
کانال اطلاع رسانی دوره ها و تخفیف ها:
@class_vision
记录
24.04.202523:59
14.4K订阅者13.02.202523:59
100引用指数28.02.202523:59
2.1K每帖平均覆盖率27.02.202513:38
2.1K广告帖子的平均覆盖率04.03.202515:09
7.54%ER15.02.202523:59
14.74%ERR频道变更历史
登录以解锁更多功能。