Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Data is my language avatar
Data is my language
Data is my language avatar
Data is my language
26.04.202507:44
Привет! ✋

🎬 Ловите бэкстейдж с прошедшего митапа! Кто был — вспоминаем лучшие моменты, кто пропустил — самое время наверстать.

📺 Запись уже на YouTube!
https://www.youtube.com/watch?v=aMmK6R434Sk

🚀 А мы тем временем готовим новых спикеров и свежие темы!
14.04.202505:04
5️⃣ Дониёр Умаров — «Как предсказать будущее? Временные ряды без мистики»
14.04.202505:02
2️⃣ Александр Сулейкин (Data Under Control) — «На пути от КХД и озер к современным Data Lakehouse: рекомендации по выбору компонентов Data Lakehouse платформы»
🎙 А вот и список наших спикеров:
🔹 Карина, L&D manager
🔹 Александр, CEO, Data Under Control
🔹 Фарход, Data Analyst, Click
🔹 Алексей и Ольга, Salesforce
🔹 Дониёр, Data Scientist, Click
🔹 Саидамир, CDO, KorzinkaGO


Кстати, у Саши есть свой тг-канал - загляните на огонек 🔥
➡️ https://t.me/dataundercontrol
04.01.202509:29
Привет! ✋

Вот и начались рабочие будни 2025 года, и мы снова с вами, чтобы ответить на вопросы о RAG, которые вы задавали во время нашего Data MeetUp.

❓ Если хотим, чтобы не было утечек данных, так как все API отправляют данные в глобал, что можно использовать в этом случае? Есть ли локальные альтернативы?

🔈 Если ваши данные содержат PII (персонально идентифицируемую информацию) или любую другую чувствительную информацию, важно максимально обезопасить себя от утечек, "приземлив" компоненты пайплайна:

▪️Используйте локальные векторные базы данных, такие как Weaviate, Milvus и другие, чтобы исключить передачу данных в облачные хранилища.
▪️Применяйте локальные модели для создания эмбеддингов и реранкинга. Список топовых моделей можно найти на Hugging Face MTEB Leaderboard.
▪️Разворачивайте локальные языковые модели, такие как Qwen, LLaMA, Gemma и другие, которые можно запустить на собственных серверах.

Менее затратным, но более рискованным подходом является маскирование данных перед их отправкой в облачные модели. Это позволяет скрыть чувствительную информацию, но требует тщательной проработки алгоритмов маскировки и демаскировки, чтобы не нарушить контекст обработки.

❓ Как быть, если LLM-модель многоязыковая? Когда готовим документы для обучения, различие в интерпретации языков может искажать смысл. Как тогда обучать модель, нужно ли для каждого языка делать отдельный процесс обучения?

🔈 Многоязыковая модель должна учитывать особенности каждого языка, чтобы избежать искажения смысла. Вот подходы, которые помогают справиться с этим:

▪️Параллельные корпуса: тексты, переведённые на несколько языков, помогают модели лучше понять, как одна и та же идея выражается на разных языках.
▪️Качественные переводы: если параллельные данные недоступны, используйте профессиональные переводы или проверенные системы машинного перевода, чтобы минимизировать ошибки интерпретации.
▪️Файнтюнинг на отдельных языках: если важна высокая точность для конкретного языка, можно дообучить модель на специализированном корпусе этого языка.

❓ Где вы применяете RAG в Click и какая в этом ценность для бизнеса? Есть ли примеры успешных применений RAG в реальных проектах?

🔈 В Click решения с использованием RAG-пайплайна применяются в службе поддержки операторов в качестве суфлёра. Это помогает:

▪️Быстрее отвечать на запросы пользователей за счёт подсказок от модели.
▪️Точнее формулировать ответы, так как информация берётся из актуальных источников.
▪️Повысить качество обслуживания клиентов, обеспечивая высокий уровень удовлетворённости.

RAG позволяет операторам сосредоточиться на сложных кейсах, автоматизируя рутинные запросы, что ускоряет работу и снижает нагрузку.

❓ Какую информацию извлекает модель RAG из внешних источников и как она решает, какие данные являются наиболее релевантными?

🔈 Для RAG-пайплайна релевантными документами считаются те, чьи эмбеддинги имеют наибольшее косинусное сходство с эмбеддингами запроса. Процесс выглядит так:
Запрос пользователя и документы из базы данных преобразуются в эмбеддинги (векторные представления).
Для каждого документа вычисляется косинусное сходство с запросом.
Документы с наибольшим сходством извлекаются, а их текстовая информация используется для ответа.
Это позволяет модели извлекать данные, которые наиболее соответствуют запросу по смыслу, независимо от формулировок. Важно отметить, что можно векторизовать не только текст, но и изображения или другие типы данных.

Если у вас остались вопросы — задавайте их в комментариях! 😊
23.12.202407:00
🎤 Выступить может каждый!
Серьёзно. Даже ты. Да-да, вот прямо ты, читающий этот пост.

Если ты работаешь с данными, решаешь нетривиальные задачи, внедряешь BI, строишь пайплайны, прогнозируешь отток, оптимизируешь модели — или просто есть чем поделиться — мы ждём тебя на сцене следующего Data MeetUp!

📣 Готов к публичным выступлениям и хочешь рассказать о своих достижениях?
Пиши в комментариях, о чём бы ты хотел рассказать — и мы добавим тебя в лонг-лист спикеров.

🔥 Это твой шанс рассказать о себе, вдохновить других и прокачать свой нетворк.
14.04.202505:03
4️⃣ Алексей Пинчук и Ольга Кузьмина — «ИИ-агенты в BI на примере Tableau»
14.04.202505:02
3️⃣ Фарход Аманов — «BI в бизнесе: как данные помогают принимать решения»
07.04.202509:44
Для всех кто не успел посмотреть в live! 🚀
📺 Запись трансляции уже доступна на YouTube: https://youtu.be/aMmK6R434Sk?feature=shared
14.04.202505:03
14.04.202505:00
А теперь материалы Data MeetUp! 🚀

1️⃣ Карина Кутдусова — «Данные и этика: как данные используют против нас»
06.04.202516:07
27.12.202408:41
Привет! ✋

Поздравляем с последним рабочим днём года! 🎉 Сегодня мы готовы ответить на вопросы, которые вы задавали в чате во время митапа. Тема обсуждения: «От Data-Driven к AI-Driven». На вопросы отвечает Роман Дьяконов, CDO в Click.

❓ Какие технологические платформы и инструменты поддерживают переход от Data-Driven к AI-Driven?
🔈 Сегодня многие BI-системы уже оснащены функциями AI-помощников, которые анализируют зависимости прямо на дашбордах. Также существуют сервисы для глубоких исследований, такие как Deep Research with Gemini (Google) и Perplexity. В основе этих решений лежат платформы для управления данными, обеспечения их качества, а также для выполнения и обучения моделей.

❓ Как вы измеряете эффективность перехода от Data-Driven к AI-Driven решениям? Какие сложности возникают?
🔈 Мы пока на пути к AI-Driven и ещё не проводили формальную оценку эффективности. Однако уже начали внедрение AI в бизнес-процессы, такие как исследования, анализ данных и принятие решений. Среди сложностей можно выделить качество данных, высокую стоимость сторонних сервисов и скептицизм руководства.

❓ Как оценить ROI при переходе от Data-Driven к AI-Driven?
🔈 Это сложный вопрос. Мы можем оценивать ROI через оптимизацию и автоматизацию процессов, но важно помнить: инвестиции в AI открывают новые возможности. Развивая AI, компания остаётся конкурентной на рынке, сохраняя клиентов и доходы.

❓ Что делать, если доступных данных недостаточно для поддержки моделей?
🔈 Есть два варианта: приобрести или сгенерировать данные. Под покупкой я подразумеваю легальное приобретение у телеком-операторов, бюро кредитных историй и других источников. Генерация данных может включать создание продуктов или условий, которые побуждают пользователей делиться информацией.

❓ Как интегрировать модель с платформами компании? В каком виде её получает пользователь?
🔈 Мы внедряем модели как сервисы или ассистенты. Главное, чтобы пользователь получил инструмент, который отвечает на его запросы. Мы исходим из потребностей пользователя, а не из стремления к сложным техническим решениям. Подробнее об этом можно почитать в концепции Human-Centered Design.

❓ Тема интересная! Какие ресурсы вы порекомендуете для изучения?
🔈 Рекомендую читать Harvard Business School (https://online.hbs.edu/blog/post/ai-driven-business-models) и подписаться на Medium (medium.com).

Если у вас остались вопросы или вы хотите продолжить обсуждение, пишите в комментариях! 😊
14.04.202505:05
6️⃣ Саидамир Маруфходжаев — «Кластеризация чеков и клиентов Корзинки»
14.04.202505:03
Привет! ✋

💥 Через 25 минут начинаем Data Meetup 2025! 💥

Готовь ноут, наливай чаек-кофеек и погнали!
Будет плотно, мощно и по-настоящему полезно.

🎯 Спикеры заряжены
📊 Кейсы готовы
🧠 Инсайты уже на старте
Привет! ✋
Вы это видели?! С ума сойти! 🤯

Data Meetup возвращается! 🥳

🗓 10 апреля, 17:00 (GMT+5, Ташкент)
📍 Онлайн, как всегда — в ZOOM
(ссылку кинем прямо сюда, в день ивента — не потеряешь)

⚡️ Никакого копипаста из блогов 2018-го и сферических коней в вакууме — только живой, настоящий опыт от тех, кто работает с данными в реальном бизнесе.

🎁 Для участников группы — уникальный контент:
кружки, видео, фото и все материалы 👀

✨ MAY THE DATA BE WITH YOU ✨
23.12.202407:00
#MeetUp #презентации
Shown 1 - 21 of 21
Log in to unlock more functionality.