Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
IT 🐈 Digital avatar

IT 🐈 Digital

Чат https://t.me/itoxicity
Автор: Ментор и ИТ консультант. #ИБ #Crypto
Рэйтынг TGlist
0
0
ТыпПублічны
Вертыфікацыя
Не вертыфікаваны
Надзейнасць
Не надзейны
Размяшчэнне
МоваІншая
Дата стварэння каналаOct 09, 2023
Дадана ў TGlist
Apr 20, 2025
Прыкрепленая група

Рэкорды

20.04.202523:59
98Падпісчыкаў
14.04.202523:59
0Індэкс цытавання
30.04.202523:59
95Ахоп 1 паста
26.04.202523:59
95Ахоп рэкламнага паста
21.04.202508:03
0.00%ER
21.04.202508:03
0.00%ERR

Развіццё

Падпісчыкаў
Індэкс цытавання
Ахоп 1 паста
Ахоп рэкламнага паста
ER
ERR
16 APR '2518 APR '2520 APR '25

Папулярныя публікацыі IT 🐈 Digital

Пераслаў з:
Denis Sexy IT 🤖 avatar
Denis Sexy IT 🤖
16.04.202513:00
У OpenAI вышел классный гайд для бизнеса, на тему того как внедрять GenAI в бизнесс процессы:
https://openai.com/business/guides-and-resources/

Внутри 3 части:
– АИ на предприятии: Опыт семи передовых компаний
– Практическое руководство по созданию агентов ИИ: Что агенты АИ могут сделать для ваших сотрудников?
– Определение и масштабирование сценариев применения АИ: На чём концентрируются компании, первыми внедрившие АИ

Я полистал и там внутри много вещей на которых лично я набивал шишки в практике с GenAI, очень рекомендую корпоративным менеджерам
Как просмотреть историю браузера в ТГ(она отдельная от твоего браузера):

Открыть браузер(перейдя например по ссылке внутри самого ТГ) -- нажать кнопку бургер(справа вверху) -- "история" и узнать много нового о себе😁

Можно нажать "настройки" и очистить всю историю или выключить вовсе встроенный браузер.
20.04.202509:07
Христос воскрес!🥰
14.04.202522:14
Основные термины в мире LLM:

LLM (Large Language Model / Большая Языковая Модель):

Простыми словами: Это очень большая и сложная компьютерная программа (нейросеть), которую научили понимать и генерировать человеческий текст на основе гигантского количества прочитанных ею книг, статей, сайтов и т.д.

Аналогия: Представьте себе невероятно умного попугая, который просмотрел всю библиотеку человечества и теперь может не просто повторять, а продолжать фразы, отвечать на вопросы или писать тексты в заданном стиле. Изначально необученная нейросеть выдаёт белый шум.

Пример: ChatGPT, Llama 3, Mixtral, Qwen – всё это LLM.


Веса/параметры (Parameters):

Простыми словами: Это сами "обученные нейрончики", их значения внутри нейросети (LLM). Их миллионы и миллиарды. В процессе обучения модели эти параметры подстраиваются так, чтобы модель лучше выполняла свои задачи. Чем больше параметров, тем потенциально модель умнее и способнее к сложным задачам, но как результат и тем она "тяжелее" (требует больше ресурсов).

Аналогия: векторная графика, где можно нарисовать синий круг и это будет всего 3 байта (круг+синий+размер). Больше объектов (параметров) – потенциально более детализированная картинка (и умная модель), но и файл (модель) занимает больше места т.к. описывает значительно большее количество объектов и их связей.

Пример: Llama 3 8B (8 миллиардов параметров), Llama 3 70B (70 миллиардов параметров). 70B модель значительно "тяжелее" 8B.

Параметры (parameters) в контексте нейронных сетей и LLM — это совокупность всех обучаемых (learnable) значений в модели. В подавляющем большинстве случаев это включает в себя:
Веса (Weights): Это числовые значения, которые определяют силу связи между нейронами в разных слоях сети. Это основная часть параметров в любой глубокой нейронной сети, включая LLM. Именно веса умножаются на входные данные или активации предыдущего слоя.
Смещения (Biases): Это дополнительные числовые значения, которые добавляются к результату взвешенной суммы в нейроне (перед применением функции активации). Они помогают модели лучше аппроксимировать данные, позволяя сдвигать функцию активации.
Ключевой момент: И веса, и смещения подбираются (обучаются) в процессе тренировки модели на данных.
Поэтому, хотя технически "параметры" включают и веса, и смещения, можно сказать, что:
Веса составляют абсолютное большинство параметров (часто >99% в больших моделях).
Когда говорят о "миллиардах параметров" LLM, в основном имеют в виду именно веса.
Так что да, для упрощенного понимания можно считать, что "параметры" — это в первую очередь "веса", просто помня, что технически туда входят еще и смещения. Это те самые числа, которые хранятся в файле модели и загружаются для работы.

Квантизация (Quantization):

Простыми словами: Это процесс "сжатия" модели LLM для уменьшения её размера и требований к памяти. Это достигается за счет снижения точности чисел, которыми представлены её параметры.

Аналогия: все мы используем(даже если не знаем об этом) бесконечное число π = 3.1415926535... Для многих даже космических расчетов достаточно использовать 3.14592. Мы потеряли в точности, но запись стала занимать весьма понятное количество памяти, да и оперировать с ним стало возможно с достаточной для определенных задач точностью. Квантизация делает то же самое с миллиардами параметров модели.

Пример:

Исходная модель может использовать формат FP16 (16 бит на параметр, высокая точность, большой размер).

Квантизованная модель может использовать Q4_K_M (в среднем 4 бита на параметр, точность ниже, размер значительно меньше). Модель Llama 3 70B в FP16 весит ~140 ГБ, а в Q4_K_M - около 40 ГБ! Это позволяет запустить её на более простых компьютерах.

Важно: Небольшая потеря точности часто почти незаметна для качества ответов, но выигрыш в размере и скорости (если, например, влезает в VRAM) огромен.

GGUF (ранее GGML):

Простыми словами: Это популярный формат файла, в котором хранятся квантизованные (сжатые) модели. Этот формат разработан специально для эффективной работы LLM на обычном железе (CPU + GPU) с помощью библиотеки llama.cpp.
17.04.202513:57
Huawei презентовала серверную ИИ-систему CloudMatrix.

Huawei представила новую стоечную систему AI CloudMatrix 384, которая должна конкурировать с GB200 NVL72 от Nvidia. Хотя CloudMatrix 384 менее энергоэффективна, а ее производительность в 2,6 раза ниже в показателе FLOP на ватт, это не считается ограничивающим фактором в Китае, поскольку страна располагает достаточными энергетическими ресурсами.

Система использует ускоритель Huawei Ascend 910C AI и позиционируется как мощное внутреннее решение в китайском технологическом ландшафте. Появление CloudMatrix 384 - результат продолжающейся технологической войны между США и Китаем.
scmp.com
🥇золото уже 3300 долларов за унцию
Аналогия: Как .zip или .rar являются форматами для сжатых архивов, так GGUF – это формат для сжатых LLM, оптимизированный для запуска на вашем ПК.

Пример: Вы скачиваете файл llama-3-70b-instruct.Q4_K_M.gguf – это квантизованная модель Llama 3 70B в формате GGUF.

Inference (Вывод / Генерация):

Простыми словами: Это процесс использования уже обученной LLM для получения ответа на ваш запрос (промпт). Когда вы задаете вопрос ChatGPT или локальной модели, происходит инференс.

Аналогия: Использование калькулятора для получения результата (2+2=4). Вы не создаете калькулятор, вы им пользуетесь.

Отличие от обучения: Обучение (Training) – это процесс создания модели с нуля или ее дообучение (Fine-tuning). Это требует огромных ресурсов и данных. Инференс требует гораздо меньше ресурсов (но все равно много VRAM для больших моделей).

Токены (Tokens):

Простыми словами: LLM обрабатывают текст не по буквам или целым словам, а по "кусочкам", которые называются токенами. Токен может быть словом, частью слова, символом.

Аналогия: Как слова состоят из букв, так текст для LLM состоит из токенов.

Пример: Фраза "Привет, мир!" может быть разбита примерно на токены: ["При", "вет", ",", " мир", "!"]. В среднем, 1 токен ~ 3/4 слова в английском, в русском может быть чуть меньше.

Важно: Размер контекстного окна и скорость генерации часто измеряются в токенах (например, "скорость 30 токенов/сек").

Контекстное окно (Context Window):

Простыми словами: Это максимальное количество токенов (из вашего запроса + истории диалога + ответа модели), которое модель может одновременно "держать в уме" при генерации ответа. Что то вроде контекста, но не совсем он.

Аналогия: Краткосрочная память человека во время разговора. Если разговор слишком длинный, начало забывается.

Пример: Модель с контекстным окном 4096 токенов может учитывать примерно 3000 слов из предыдущего диалога и вашего запроса. Если диалог превышает этот лимит, модель начнет "забывать" начало. Современные модели имеют окна 8K, 32K, 128K и даже миллион за бесплатно.
Или лучше так?:


Python теперь нативно в CUDA — и это меняет правила игры

На GTC 2025 NVIDIA представила то, чего ждали многие: полноценную поддержку Python в CUDA. Теперь можно писать высокопроизводительный GPU-код на чистом Python — без погружения в C++.

> «Это не просто обёртка над C. Всё должно ощущаться как нативный Python», — говорит Стивен Джонс, архитектор CUDA.



Что это даёт:

cuPyNumeric — альтернатива NumPy, которая работает на GPU.

JIT-компиляция и минимальные зависимости в новом CUDA Core.

Инструменты анализа и ускоренные библиотеки C++ — прямо из Python.

CuTile — новый подход к параллелизму: управляешь массивами, а не потоками.


Для ML и DS-разработчиков это буквально открывает дверь к «железу» — легко, быстро и без лишнего порога входа. В 2023 году с CUDA работали 4 млн человек. Теперь их может стать в разы больше.

Пока CuTile только для Python, но Rust, Julia и C++ — на подходе.

Если вы пишете на Python — теперь можно в полную силу использовать GPU. Уже пробовали? Поделитесь впечатлениями!

#Python #CUDA #NVIDIA #AI #ML #DataScience


---

[English]

Python Goes Native in CUDA — and That Changes Everything

At GTC 2025, NVIDIA announced what many developers have long hoped for: native Python support in CUDA. Now, you can write GPU-accelerated code directly in Python — no C++ required.

> “This isn’t a syntax wrapper. It’s designed to feel like real Python,” — said CUDA architect Stephen Jones.



What’s in the package:

cuPyNumeric — a NumPy-like library that runs on GPU.

JIT compilation and minimal dependencies in the redesigned CUDA Core.

Profiling tools and access to optimized C++ libraries — straight from Python.

CuTile — a fresh parallelism model that works with arrays, not threads.


For ML and DS engineers, this is a game-changer. In 2023, 4 million people used CUDA. That number could soon skyrocket.

CuTile is Python-first, but support for Rust, Julia, and even C++ is in the works.

If you’re a Python dev — you can now unlock the full power of GPUs. Have you tried it yet? Drop your thoughts below!

#Python #CUDA #NVIDIA #AI #MachineLearning #DeepLearning
Увайдзіце, каб разблакаваць больш функцый.