Внутри 3 части: – АИ на предприятии: Опыт семи передовых компаний – Практическое руководство по созданию агентов ИИ: Что агенты АИ могут сделать для ваших сотрудников? – Определение и масштабирование сценариев применения АИ: На чём концентрируются компании, первыми внедрившие АИ
Я полистал и там внутри много вещей на которых лично я набивал шишки в практике с GenAI, очень рекомендую корпоративным менеджерам
19.04.202514:40
Как просмотреть историю браузера в ТГ(она отдельная от твоего браузера):
Открыть браузер(перейдя например по ссылке внутри самого ТГ) -- нажать кнопку бургер(справа вверху) -- "история" и узнать много нового о себе😁
Можно нажать "настройки" и очистить всю историю или выключить вовсе встроенный браузер.
20.04.202509:07
Христос воскрес!🥰
14.04.202522:14
Основные термины в мире LLM:
LLM (Large Language Model / Большая Языковая Модель):
Простыми словами: Это очень большая и сложная компьютерная программа (нейросеть), которую научили понимать и генерировать человеческий текст на основе гигантского количества прочитанных ею книг, статей, сайтов и т.д.
Аналогия: Представьте себе невероятно умного попугая, который просмотрел всю библиотеку человечества и теперь может не просто повторять, а продолжать фразы, отвечать на вопросы или писать тексты в заданном стиле. Изначально необученная нейросеть выдаёт белый шум.
Пример: ChatGPT, Llama 3, Mixtral, Qwen – всё это LLM.
Веса/параметры (Parameters):
Простыми словами: Это сами "обученные нейрончики", их значения внутри нейросети (LLM). Их миллионы и миллиарды. В процессе обучения модели эти параметры подстраиваются так, чтобы модель лучше выполняла свои задачи. Чем больше параметров, тем потенциально модель умнее и способнее к сложным задачам, но как результат и тем она "тяжелее" (требует больше ресурсов).
Аналогия: векторная графика, где можно нарисовать синий круг и это будет всего 3 байта (круг+синий+размер). Больше объектов (параметров) – потенциально более детализированная картинка (и умная модель), но и файл (модель) занимает больше места т.к. описывает значительно большее количество объектов и их связей.
Пример: Llama 3 8B (8 миллиардов параметров), Llama 3 70B (70 миллиардов параметров). 70B модель значительно "тяжелее" 8B.
Параметры (parameters) в контексте нейронных сетей и LLM — это совокупность всех обучаемых (learnable) значений в модели. В подавляющем большинстве случаев это включает в себя: Веса (Weights): Это числовые значения, которые определяют силу связи между нейронами в разных слоях сети. Это основная часть параметров в любой глубокой нейронной сети, включая LLM. Именно веса умножаются на входные данные или активации предыдущего слоя. Смещения (Biases): Это дополнительные числовые значения, которые добавляются к результату взвешенной суммы в нейроне (перед применением функции активации). Они помогают модели лучше аппроксимировать данные, позволяя сдвигать функцию активации. Ключевой момент: И веса, и смещения подбираются (обучаются) в процессе тренировки модели на данных. Поэтому, хотя технически "параметры" включают и веса, и смещения, можно сказать, что: Веса составляют абсолютное большинство параметров (часто >99% в больших моделях). Когда говорят о "миллиардах параметров" LLM, в основном имеют в виду именно веса. Так что да, для упрощенного понимания можно считать, что "параметры" — это в первую очередь "веса", просто помня, что технически туда входят еще и смещения. Это те самые числа, которые хранятся в файле модели и загружаются для работы.
Квантизация (Quantization):
Простыми словами: Это процесс "сжатия" модели LLM для уменьшения её размера и требований к памяти. Это достигается за счет снижения точности чисел, которыми представлены её параметры.
Аналогия: все мы используем(даже если не знаем об этом) бесконечное число π = 3.1415926535... Для многих даже космических расчетов достаточно использовать 3.14592. Мы потеряли в точности, но запись стала занимать весьма понятное количество памяти, да и оперировать с ним стало возможно с достаточной для определенных задач точностью. Квантизация делает то же самое с миллиардами параметров модели.
Пример:
Исходная модель может использовать формат FP16 (16 бит на параметр, высокая точность, большой размер).
Квантизованная модель может использовать Q4_K_M (в среднем 4 бита на параметр, точность ниже, размер значительно меньше). Модель Llama 3 70B в FP16 весит ~140 ГБ, а в Q4_K_M - около 40 ГБ! Это позволяет запустить её на более простых компьютерах.
Важно: Небольшая потеря точности часто почти незаметна для качества ответов, но выигрыш в размере и скорости (если, например, влезает в VRAM) огромен.
GGUF (ранее GGML):
Простыми словами: Это популярный формат файла, в котором хранятся квантизованные (сжатые) модели. Этот формат разработан специально для эффективной работы LLM на обычном железе (CPU + GPU) с помощью библиотеки llama.cpp.
Huawei представила новую стоечную систему AI CloudMatrix 384, которая должна конкурировать с GB200 NVL72 от Nvidia. Хотя CloudMatrix 384 менее энергоэффективна, а ее производительность в 2,6 раза ниже в показателе FLOP на ватт, это не считается ограничивающим фактором в Китае, поскольку страна располагает достаточными энергетическими ресурсами.
Система использует ускоритель Huawei Ascend 910C AI и позиционируется как мощное внутреннее решение в китайском технологическом ландшафте. Появление CloudMatrix 384 - результат продолжающейся технологической войны между США и Китаем. scmp.com
16.04.202510:00
🥇золото уже 3300 долларов за унцию
14.04.202522:14
Аналогия: Как .zip или .rar являются форматами для сжатых архивов, так GGUF – это формат для сжатых LLM, оптимизированный для запуска на вашем ПК.
Пример: Вы скачиваете файл llama-3-70b-instruct.Q4_K_M.gguf – это квантизованная модель Llama 3 70B в формате GGUF.
Inference (Вывод / Генерация):
Простыми словами: Это процесс использования уже обученной LLM для получения ответа на ваш запрос (промпт). Когда вы задаете вопрос ChatGPT или локальной модели, происходит инференс.
Аналогия: Использование калькулятора для получения результата (2+2=4). Вы не создаете калькулятор, вы им пользуетесь.
Отличие от обучения: Обучение (Training) – это процесс создания модели с нуля или ее дообучение (Fine-tuning). Это требует огромных ресурсов и данных. Инференс требует гораздо меньше ресурсов (но все равно много VRAM для больших моделей).
Токены (Tokens):
Простыми словами: LLM обрабатывают текст не по буквам или целым словам, а по "кусочкам", которые называются токенами. Токен может быть словом, частью слова, символом.
Аналогия: Как слова состоят из букв, так текст для LLM состоит из токенов.
Пример: Фраза "Привет, мир!" может быть разбита примерно на токены: ["При", "вет", ",", " мир", "!"]. В среднем, 1 токен ~ 3/4 слова в английском, в русском может быть чуть меньше.
Важно: Размер контекстного окна и скорость генерации часто измеряются в токенах (например, "скорость 30 токенов/сек").
Контекстное окно (Context Window):
Простыми словами: Это максимальное количество токенов (из вашего запроса + истории диалога + ответа модели), которое модель может одновременно "держать в уме" при генерации ответа. Что то вроде контекста, но не совсем он.
Аналогия: Краткосрочная память человека во время разговора. Если разговор слишком длинный, начало забывается.
Пример: Модель с контекстным окном 4096 токенов может учитывать примерно 3000 слов из предыдущего диалога и вашего запроса. Если диалог превышает этот лимит, модель начнет "забывать" начало. Современные модели имеют окна 8K, 32K, 128K и даже миллион за бесплатно.
14.04.202511:49
Или лучше так?:
Python теперь нативно в CUDA — и это меняет правила игры
На GTC 2025 NVIDIA представила то, чего ждали многие: полноценную поддержку Python в CUDA. Теперь можно писать высокопроизводительный GPU-код на чистом Python — без погружения в C++.
> «Это не просто обёртка над C. Всё должно ощущаться как нативный Python», — говорит Стивен Джонс, архитектор CUDA.
Что это даёт:
cuPyNumeric — альтернатива NumPy, которая работает на GPU.
JIT-компиляция и минимальные зависимости в новом CUDA Core.
Инструменты анализа и ускоренные библиотеки C++ — прямо из Python.
CuTile — новый подход к параллелизму: управляешь массивами, а не потоками.
Для ML и DS-разработчиков это буквально открывает дверь к «железу» — легко, быстро и без лишнего порога входа. В 2023 году с CUDA работали 4 млн человек. Теперь их может стать в разы больше.
Пока CuTile только для Python, но Rust, Julia и C++ — на подходе.
Если вы пишете на Python — теперь можно в полную силу использовать GPU. Уже пробовали? Поделитесь впечатлениями!
#Python #CUDA #NVIDIA #AI #ML #DataScience
---
[English]
Python Goes Native in CUDA — and That Changes Everything
At GTC 2025, NVIDIA announced what many developers have long hoped for: native Python support in CUDA. Now, you can write GPU-accelerated code directly in Python — no C++ required.
> “This isn’t a syntax wrapper. It’s designed to feel like real Python,” — said CUDA architect Stephen Jones.
What’s in the package:
cuPyNumeric — a NumPy-like library that runs on GPU.
JIT compilation and minimal dependencies in the redesigned CUDA Core.
Profiling tools and access to optimized C++ libraries — straight from Python.
CuTile — a fresh parallelism model that works with arrays, not threads.
For ML and DS engineers, this is a game-changer. In 2023, 4 million people used CUDA. That number could soon skyrocket.
CuTile is Python-first, but support for Rust, Julia, and even C++ is in the works.
If you’re a Python dev — you can now unlock the full power of GPUs. Have you tried it yet? Drop your thoughts below!
Huawei представила новую стоечную систему AI CloudMatrix 384, которая должна конкурировать с GB200 NVL72 от Nvidia. Хотя CloudMatrix 384 менее энергоэффективна, а ее производительность в 2,6 раза ниже в показателе FLOP на ватт, это не считается ограничивающим фактором в Китае, поскольку страна располагает достаточными энергетическими ресурсами.
Система использует ускоритель Huawei Ascend 910C AI и позиционируется как мощное внутреннее решение в китайском технологическом ландшафте. Появление CloudMatrix 384 - результат продолжающейся технологической войны между США и Китаем. scmp.com
Внутри 3 части: – АИ на предприятии: Опыт семи передовых компаний – Практическое руководство по созданию агентов ИИ: Что агенты АИ могут сделать для ваших сотрудников? – Определение и масштабирование сценариев применения АИ: На чём концентрируются компании, первыми внедрившие АИ
Я полистал и там внутри много вещей на которых лично я набивал шишки в практике с GenAI, очень рекомендую корпоративным менеджерам
16.04.202510:00
🥇золото уже 3300 долларов за унцию
14.04.202522:14
Аналогия: Как .zip или .rar являются форматами для сжатых архивов, так GGUF – это формат для сжатых LLM, оптимизированный для запуска на вашем ПК.
Пример: Вы скачиваете файл llama-3-70b-instruct.Q4_K_M.gguf – это квантизованная модель Llama 3 70B в формате GGUF.
Inference (Вывод / Генерация):
Простыми словами: Это процесс использования уже обученной LLM для получения ответа на ваш запрос (промпт). Когда вы задаете вопрос ChatGPT или локальной модели, происходит инференс.
Аналогия: Использование калькулятора для получения результата (2+2=4). Вы не создаете калькулятор, вы им пользуетесь.
Отличие от обучения: Обучение (Training) – это процесс создания модели с нуля или ее дообучение (Fine-tuning). Это требует огромных ресурсов и данных. Инференс требует гораздо меньше ресурсов (но все равно много VRAM для больших моделей).
Токены (Tokens):
Простыми словами: LLM обрабатывают текст не по буквам или целым словам, а по "кусочкам", которые называются токенами. Токен может быть словом, частью слова, символом.
Аналогия: Как слова состоят из букв, так текст для LLM состоит из токенов.
Пример: Фраза "Привет, мир!" может быть разбита примерно на токены: ["При", "вет", ",", " мир", "!"]. В среднем, 1 токен ~ 3/4 слова в английском, в русском может быть чуть меньше.
Важно: Размер контекстного окна и скорость генерации часто измеряются в токенах (например, "скорость 30 токенов/сек").
Контекстное окно (Context Window):
Простыми словами: Это максимальное количество токенов (из вашего запроса + истории диалога + ответа модели), которое модель может одновременно "держать в уме" при генерации ответа. Что то вроде контекста, но не совсем он.
Аналогия: Краткосрочная память человека во время разговора. Если разговор слишком длинный, начало забывается.
Пример: Модель с контекстным окном 4096 токенов может учитывать примерно 3000 слов из предыдущего диалога и вашего запроса. Если диалог превышает этот лимит, модель начнет "забывать" начало. Современные модели имеют окна 8K, 32K, 128K и даже миллион за бесплатно.
14.04.202522:14
Основные термины в мире LLM:
LLM (Large Language Model / Большая Языковая Модель):
Простыми словами: Это очень большая и сложная компьютерная программа (нейросеть), которую научили понимать и генерировать человеческий текст на основе гигантского количества прочитанных ею книг, статей, сайтов и т.д.
Аналогия: Представьте себе невероятно умного попугая, который просмотрел всю библиотеку человечества и теперь может не просто повторять, а продолжать фразы, отвечать на вопросы или писать тексты в заданном стиле. Изначально необученная нейросеть выдаёт белый шум.
Пример: ChatGPT, Llama 3, Mixtral, Qwen – всё это LLM.
Веса/параметры (Parameters):
Простыми словами: Это сами "обученные нейрончики", их значения внутри нейросети (LLM). Их миллионы и миллиарды. В процессе обучения модели эти параметры подстраиваются так, чтобы модель лучше выполняла свои задачи. Чем больше параметров, тем потенциально модель умнее и способнее к сложным задачам, но как результат и тем она "тяжелее" (требует больше ресурсов).
Аналогия: векторная графика, где можно нарисовать синий круг и это будет всего 3 байта (круг+синий+размер). Больше объектов (параметров) – потенциально более детализированная картинка (и умная модель), но и файл (модель) занимает больше места т.к. описывает значительно большее количество объектов и их связей.
Пример: Llama 3 8B (8 миллиардов параметров), Llama 3 70B (70 миллиардов параметров). 70B модель значительно "тяжелее" 8B.
Параметры (parameters) в контексте нейронных сетей и LLM — это совокупность всех обучаемых (learnable) значений в модели. В подавляющем большинстве случаев это включает в себя: Веса (Weights): Это числовые значения, которые определяют силу связи между нейронами в разных слоях сети. Это основная часть параметров в любой глубокой нейронной сети, включая LLM. Именно веса умножаются на входные данные или активации предыдущего слоя. Смещения (Biases): Это дополнительные числовые значения, которые добавляются к результату взвешенной суммы в нейроне (перед применением функции активации). Они помогают модели лучше аппроксимировать данные, позволяя сдвигать функцию активации. Ключевой момент: И веса, и смещения подбираются (обучаются) в процессе тренировки модели на данных. Поэтому, хотя технически "параметры" включают и веса, и смещения, можно сказать, что: Веса составляют абсолютное большинство параметров (часто >99% в больших моделях). Когда говорят о "миллиардах параметров" LLM, в основном имеют в виду именно веса. Так что да, для упрощенного понимания можно считать, что "параметры" — это в первую очередь "веса", просто помня, что технически туда входят еще и смещения. Это те самые числа, которые хранятся в файле модели и загружаются для работы.
Квантизация (Quantization):
Простыми словами: Это процесс "сжатия" модели LLM для уменьшения её размера и требований к памяти. Это достигается за счет снижения точности чисел, которыми представлены её параметры.
Аналогия: все мы используем(даже если не знаем об этом) бесконечное число π = 3.1415926535... Для многих даже космических расчетов достаточно использовать 3.14592. Мы потеряли в точности, но запись стала занимать весьма понятное количество памяти, да и оперировать с ним стало возможно с достаточной для определенных задач точностью. Квантизация делает то же самое с миллиардами параметров модели.
Пример:
Исходная модель может использовать формат FP16 (16 бит на параметр, высокая точность, большой размер).
Квантизованная модель может использовать Q4_K_M (в среднем 4 бита на параметр, точность ниже, размер значительно меньше). Модель Llama 3 70B в FP16 весит ~140 ГБ, а в Q4_K_M - около 40 ГБ! Это позволяет запустить её на более простых компьютерах.
Важно: Небольшая потеря точности часто почти незаметна для качества ответов, но выигрыш в размере и скорости (если, например, влезает в VRAM) огромен.
GGUF (ранее GGML):
Простыми словами: Это популярный формат файла, в котором хранятся квантизованные (сжатые) модели. Этот формат разработан специально для эффективной работы LLM на обычном железе (CPU + GPU) с помощью библиотеки llama.cpp.
14.04.202511:49
Или лучше так?:
Python теперь нативно в CUDA — и это меняет правила игры
На GTC 2025 NVIDIA представила то, чего ждали многие: полноценную поддержку Python в CUDA. Теперь можно писать высокопроизводительный GPU-код на чистом Python — без погружения в C++.
> «Это не просто обёртка над C. Всё должно ощущаться как нативный Python», — говорит Стивен Джонс, архитектор CUDA.
Что это даёт:
cuPyNumeric — альтернатива NumPy, которая работает на GPU.
JIT-компиляция и минимальные зависимости в новом CUDA Core.
Инструменты анализа и ускоренные библиотеки C++ — прямо из Python.
CuTile — новый подход к параллелизму: управляешь массивами, а не потоками.
Для ML и DS-разработчиков это буквально открывает дверь к «железу» — легко, быстро и без лишнего порога входа. В 2023 году с CUDA работали 4 млн человек. Теперь их может стать в разы больше.
Пока CuTile только для Python, но Rust, Julia и C++ — на подходе.
Если вы пишете на Python — теперь можно в полную силу использовать GPU. Уже пробовали? Поделитесь впечатлениями!
#Python #CUDA #NVIDIA #AI #ML #DataScience
---
[English]
Python Goes Native in CUDA — and That Changes Everything
At GTC 2025, NVIDIA announced what many developers have long hoped for: native Python support in CUDA. Now, you can write GPU-accelerated code directly in Python — no C++ required.
> “This isn’t a syntax wrapper. It’s designed to feel like real Python,” — said CUDA architect Stephen Jones.
What’s in the package:
cuPyNumeric — a NumPy-like library that runs on GPU.
JIT compilation and minimal dependencies in the redesigned CUDA Core.
Profiling tools and access to optimized C++ libraries — straight from Python.
CuTile — a fresh parallelism model that works with arrays, not threads.
For ML and DS engineers, this is a game-changer. In 2023, 4 million people used CUDA. That number could soon skyrocket.
CuTile is Python-first, but support for Rust, Julia, and even C++ is in the works.
If you’re a Python dev — you can now unlock the full power of GPUs. Have you tried it yet? Drop your thoughts below!