Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Анализ данных (Data analysis) avatar

Анализ данных (Data analysis)

Data science, наука о данных.

@haarrp
- админ

@itchannels_telegram
- 🔥 главное в ит

@ai_machinelearning_big_data
- ML

@machinelearning_interview
- вопросы с собесдований по Ml
РКН: clck.ru/3FmyAp
TGlist 评分
0
0
类型公开
验证
未验证
可信度
不可靠
位置Росія
语言其他
频道创建日期Трав 28, 2022
添加到 TGlist 的日期
Лют 07, 2025
关联群组

记录

01.04.202513:43
45.3K订阅者
28.02.202516:56
400引用指数
02.03.202514:15
9.2K每帖平均覆盖率
25.02.202523:59
9.2K广告帖子的平均覆盖率
12.02.202507:30
12.79%ER
04.03.202508:31
20.41%ERR
订阅者
引用指数
每篇帖子的浏览量
每个广告帖子的浏览量
ER
ERR
БЕР '25КВІТ '25

Анализ данных (Data analysis) 热门帖子

📄 Sparrow интеллектуальный парсинг документов с помощью LLM. Этот проект сочетает компьютерное зрение и языковые модели для извлечения информации из счетов, банковских выписок и других сложных документов.

Инструмент имеет модульную архитектуру, позволяющую запускать pipelines как локально, так и в облаке через Hugging Face. Интересно, что Sparrow не просто распознает текст, а понимает семантику документов — система может извлекать конкретные поля по JSON-шаблону и даже обрабатывать многостраничные PDF с сохранением структуры.

🤖 GitHub

@data_analysis_ml
🧠 MaxKB — open-source ИИ-ассистент для бизнеса с RAG-движком. Это не просто чат-бот, а целая платформа для создания умных ассистентов на базе языковых моделей. Система умеет работать с документами, поддерживает сложные workflows и интеграцию через API.

Для своей работы инструмент использует комбинацию проверенных технологий: Django для бэкенда, LangChain для работы с LLM и pgvector для хранения эмбеддингов. Проект универсален, уже сейчас можно подключить как локальные модели, так и облачные.

🤖 GitHub

@data_analysis_ml
⚡️ Pydoll — это библиотека на Python, предназначенная для автоматизации браузеров на движке Chromium (Chrome и Microsoft Edge) без использования WebDriver.

Инструмент имитирует «реальные» действия пользователя и обеспечивает гибкость при работе с элементами интерфейса и сетевыми запросами.

🔗 Ключевые особенности
- Асинхронная автоматизация без WebDriver

- Позволяет обойтись без установки и настройки драйверов WebDriver, что упрощает процесс интеграции и обслуживания.

- Реализована на базе asyncio, поэтому поддерживает запуск нескольких задач одновременно.

- Обход Cloudflare Turnstile

- Имеется встроенный механизм для автоматического прохождения CAPTCHA:

- Синхронная блокировка (context manager), когда выполнение кода приостанавливается до момента решения задачи.

- Фоновый режим (non-blocking), когда автоматизация продолжает работу, пока CAPTCHA решается в фоне.

- Поддерживает «человеко-подобный» набор текста (имитация пауз, скорости).

- Распознаёт специальные клавиши и сочетания клавиш (нажатия SHIFT, CTRL, ALT и т.д.).

- Подключение к существующим сессиям

- Можно подсоединяться к уже запущенным экземплярам Chrome или Edge, что удобно для отладки или интеграции с имеющимися сессиями пользователя.

Благодаря отсутствию необходимости в WebDriver и возможности имитировать взаимодействие «как настоящий пользователь», Pydoll будет полезен в проектах, где требуется гибкая и реалистичная автоматизация.

📌 Github


@data_analysis_ml
🖥 Как установить Deep Seek локально с помощью Ollama LLM в Ubuntu 24.04

Подробное руководство от TecMint, демонстрирующее, как установить и запустить модель DeepSeek локально на Linux (Ubuntu 24.04) с использованием Ollama.

Гайд охватывает все этапы установки: обновление системы, инсталляцию Python и Git, настройку Ollama для управления DeepSeek, а также запуск модели через командную строку или с помощью удобного Web UI.

▪ Руководство также включает инструкции по автоматическому запуску Web UI при старте системы через systemd, что делает работу с моделью более комфортной и доступной.

Подойдет для тех, кто хочет исследовать возможности работы с крупными языковыми моделями без привязки к облачным сервисам, обеспечивая полный контроль над моделью и её настройками.

Читать
🔍 AgentOps — платформа для мониторинга AI-агентов. Проект предлагает готовые интеграции с популярными фреймворками вроде LangChain и AutoGen — достаточно добавить всего пару строк кода для подключения мониторинга.

Интересный момент: система умеет отслеживать не только ошибки, но и затраты на LLM-запросы, что особенно актуально для продакшн-сред.

🤖 GitHub
📌 FastRAG — фреймворк, предлагающий разработчикам современные инструменты для создания оптимизированных RAG-пайплайнов. Этот сервис, построенный на базе Haystack и Hugging Face, фокусируется на эффективном сочетании информационного поиска с генеративными возможностями LLM.

Фреймворк предоставляет готовые компоненты для работы с современными методами семантического поиска, оптимизированные под современные аппаратные ускорители, включая процессоры Intel Xeon и AI-акселераторы Gaudi.
При этом FastRAG активно развивается — от поддержки мультимодальности до примеров динамического синтеза промптов.

🤖 GitHub

@data_analysis_ml
🦉Модели Qwen 3 были опубликованы на ModelScope и затем были быстро удалены.



Теперь мы знаем параметры (0.6B / 1.7B / 4B / 8B / 30B-A3B / 238B ) и архитектуру.

> Tripled language coverage, новые архитектурные фишки и контекст до 32k — всё в одной серии моделей.

- 🔧 Новые техники: global-batch load balancing (MoE), qk layernorm, тонкая настройка гиперпараметров через scaling laws
- 🚀 Dens + Mixture-of-Experts линейка: разные размеры и режимы для любых задач
- 📈 Улучшена стабильность и качество выводов по сравнению с Qwen 2.5

🤖 Модель Qwen3-8B в цифрах
- Тип: causal language model
- Параметры всего: 8,2 B (6,95 B без эмбеддингов)
- Слои: 36
- Attention heads (GQA): 32 для Q и 8 для KV
- Контекстное окно: 32 768 токенов
- разработчикам — компактная, но мощная 8B-модель с длинным контекстом
- продвинутая MoE-архитектура
- это мультиязычная plug-and-play LLM и

https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@data_analysis_ml
🖥 GPT-4 больше не будет доступен с завтрашнего дня.

Прощай, легенда.

@data_analysis_ml
🕊️ Namsor - это ИИ для анализа имен собственных с лингвистическим интеллектом. Причем это не просто классификатор, а инструмент с глубоким пониманием культурных и лингвистических контекстов.

Проект удивляет точностью: он различает, является ли "Mercedes фамилией человека, названием города или автомобильным брендом, учитывая страну происхождения.

Технология особенно востребована в CRM-системах, соцсетях и базах данных, где критична корректная интерпретация имен.

🔗 Ссылка - *клик*
31.03.202516:04
Что такое torch.nn на самом деле?

Когда я начинал работать с PyTorch, мой самый большой вопрос был: "Что такое torch.nn?".

Эта статья довольно хорошо объясняет это.

📌 Читать
转发自:
Machinelearning avatar
Machinelearning
28.04.202521:16
🔥 Релиз Qwen 3 от Alibaba

В релиз вошли 2 MoE-модели и 6 Dense models (плотные модели), размером от 0.6B до 235B параметров.

🏆 Флагманская модель Qwen3-235B-A22B демонстрирует конкурентные результаты в задачах Кодина, математики и общих способностей, уверенно соперничая с передовыми моделями, такими как DeepSeek-R1, o1, o3-mini, Grok-3 и Gemini-2.5-Pro.
⚡ Небольшая MoE-модель Qwen3-30B-A3B превосходит QwQ-32B, испрльзуя в 10 раз больше параметров.
🔥 Компактная модель Qwen3-4B сопоставима по производительности с Qwen2.5-72B-Instruct.


🔜Blog: https://qwenlm.github.io/blog/qwen3/
🔜GitHub: https://github.com/QwenLM/Qwen3
🔜Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
🔜 ModelScope: https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@ai_machinelearning_big_data

#Qwen
✔️ Google анонсировали Genie 2 — крупномасштабную «foundation»-модель мира, способную на лету порождать интерактивные 3D-окружения. Ключевые моменты:

📌 Что такое Genie 2
Это автрорегрессивная латентно-диффузионная модель, обученная на огромном видеодатасете. Получив всего одно изображение-подсказку (например, кадр, сгенерированный Imagen 3), Genie 2 разворачивает целый виртуальный мир, в котором можно свободно перемещаться клавиатурой и мышью — как человеку, так и ИИ-агенту. Длительность консистентного эпизода достигает минуты.

Зачем она нужна
Главный барьер в исследованиях «телесных» (embodied) агентов — ограниченный спектр тренировочных сред. Genie 2 снимает это ограничение: модель способна бесконечно генерировать новые ландшафты, объекты, физику и взаимодействия, создавая «безграничный учебник» для RL-агентов.

В работе демонстрируется связка с SIMA — многоцелевым агентом DeepMind: тот получает языковые инструкции («открой синюю дверь») и действует внутри миров, созданных Genie 2. Такое сочетание позволяет быстро генерировать unseen-задачи для оценки или дообучения агентов.

Архитектура вкратце

✔️ Видео-кадр → автоэнкодер → латент.

Большой трансформер предсказывает следующий латент, учитывая прошлые кадры и действие.

Диффузионный декодер
восстанавливает видимый кадр; classifier-free guidance повышает управление действием.
После дистилляции возможен real-time рендер с умеренным падением качества.

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

@data_analysis_ml
Скайнет, который мы заслужили

@data_analysis_ml
⚡️Как Docker упрощает жизнь аналитиков и инженеров данных

Когда вы работаете с данными, анализируете их или строите модели машинного обучения, Docker позволяет сосредоточиться на самой работе, не отвлекаясь на настройку окружения.

На бесплатном вебинаре вы научитесь упаковывать приложения вместе со всеми зависимостями, избегать проблем с несовместимостью, а значит и повысите эффективность работы и сэкономите время на настройку окружения.

Что будем делать на вебинаре:
🟠Разберём основы Docker и как контейнеры упрощают работу;
🟠Выполним анализ данных, запустив Python прямо внутри контейнера;
🟠Автоматизируем окружение с помощью Docker Compose (Python + PostgreSQL);
🟠Настроим удобный доступ к результатам анализа;
🟠Организуем ускоренную обработку больших данных.

😶Зарегистрироваться на бесплатный вебинар
转发自:
Machinelearning avatar
Machinelearning
🦙 Встречайте, дамы и господа, LLaMA 4: мультимодальные MoE модели!

Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.

Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick, Llama 4 Behemoth.

У Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров, 16 экспертов, может быть запущена на 1ом GPU!

Llama 4 Maverick (400B) окно в 1M, 128 экспертов, 17B активных параметров.

У Бегемота окно в 2T!!!, 16 экспертов, 288B активных параметров.

- Model Card
- Веса
- Релиз

@ai_machinelearning_big_data
登录以解锁更多功能。