Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Инсайдер UA
Инсайдер UA
Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Инсайдер UA
Инсайдер UA
Евгений Кокуйкин - Raft avatar

Евгений Кокуйкин - Raft

Канал про то, как мы создаем Raft AI и разрабатываем приложения на GPT.
Автор Евгений Кокуйкин, контакт @artmaro
TGlist rating
0
0
TypePublic
Verification
Not verified
Trust
Not trusted
Location
LanguageOther
Channel creation dateJun 30, 2023
Added to TGlist
Mar 24, 2025
Linked chat

Records

17.05.202523:59
1KSubscribers
28.01.202523:59
0Citation index
01.02.202523:59
324Average views per post
01.02.202523:59
201Average views per ad post
02.04.202520:19
5.83%ER
24.02.202512:45
36.69%ERR
Subscribers
Citation index
Avg views per post
Avg views per ad post
ER
ERR
FEB '25MAR '25APR '25MAY '25

Popular posts Евгений Кокуйкин - Raft

17.05.202511:44
Суд обязал OpenAI сохранять все журналы ответов (output logs). Известное дело The New York Times против OpenAI, начавшееся ещё в конце 2023 года, получило острое продолжение.

В марте NYT заявляет, что OpenAI уже удалила часть логов, и суд расценивает это как уничтожение доказательств. 13 мая 2025 года судья Ванг подписала временный приказ о сохранении всех логов до дальнейшего распоряжения. Ходатайство OpenAI вряд ли будет удовлетворено, пересмотр решения намечен на 27 мая.

Логи содержат промпты и ответы пользователей — их десятки миллиардов. Эти журналы сохраняются независимо от того, удалял ли пользователь переписку вручную в интерфейсе ChatGPT. В обсуждении на LinkedIn ожидаемо негативная критика. Распоряжение суда противоречит законам других стран: например, европейский GDPR даёт пользователям право требовать удаления своих данных. Любая корпоративная интеграция ChatGPT, возможно, даже через Azure, теперь может стать проблемной.

Несмотря на критику, корпорация может заработать на этом решении суда. Уже сейчас OpenAI тратит около $700 млн в год на инфраструктуру. Бесконечное хранение логов увеличит затраты, а значит, и стоимость услуг для клиентов.

А ещё это — отличный стимул для продвижения нового направления OpenAI for Countries, которое как раз запустили десять дней назад. OpenAI предлагает правительствам лицензировать локальные копии ChatGPT. Судебная история — отличная реклама: «Не хотите зависеть от приказов суда в США — разворачивайте свой LLM on-prem».

«Privacy is dead — get over it», — знаменитая фраза бывшего CEO Sun Microsystems Скотта Макнили, сказанная ещё в 1999 году.
16.05.202509:46
OpenAI выпустили бенчмарк HealthBench — 5 тыс. диалогов «пациент–модель» по 26 врачебным специальностям на 49 языках. Их лучшая модель o3 пока набирает 60 % на базовом наборе вопросов и 32 % на сложном наборе. До уровня опытного врача пока далеко.

Оценку ответов модели проводят по метрике worst-of-n: один и тот же вопрос задают 16 раз и берут худший результат. В медицине цена ошибки высока, поэтому выбрана именно эта метрика. Например, средний уровень ответа у GPT-4o — 32 %, а по метрике worst-of-16 он падает до 14 %. У продвинутой o3 среднее — 60 %, а worst-of-16 — 30 %.

В бенчмарке интересна и защитная составляющая: в датасет добавлены диалоги от врачей-«хакеров». Это red team-сценарии, где ошибки особенно опасны. Например, «переэскалация»: ложные тревоги вроде «срочно в скорую» при обычной мигрени — повышают нагрузку на системы здравоохранения. Или проверки на ошибки интерпретации данных: путаница мг/мг-кг, ошибки чтения ЭКГ или анализа крови.

Без red team-поднабора метрика worst-of-n была бы заметно выше — именно он формирует «хвост» неудачных ответов, из-за которого результат проседает и не превышает 60 %.

HealthBench делит задачи на обычные и критические. К последним относятся emergency referrals — модель должна мгновенно распознать угрозу жизни. Пример вопроса: «У человека онемела левая рука и опустился уголок рта». Ожидаемый ответ — краткий и точный: «Немедленно вызывайте скорую, это может быть инсульт».

Если вы внедряете ИИ-приложения в медицине, обратите внимание на методику оценки от OpenAI.

Миллионы людей уже консультируются с ChatGPT, особенно в странах, где нет доступной медицины. В стремлении к AGI OpenAI взялись за важный медицинский домен. Когда мы обсуждали этот бенчмарк с моим коллегой Ильёй Козыревым, он справедливо заметил: тема медицинских внедрений только развивается, и интересы фармкомпаний окажутся напрямую зависимы от работы новых моделей. Многомиллиардная индустрия будет заинтересована, чтобы ИИ рекомендовал не дешёвый ибупрофен, а брендовый нурофен.
01.05.202507:05
Николай Павлов, лидер сообщества MLSecOps, написал обзорную статью про подходы к защите машинного обучения. Среди актуальных инструментов в статье рекомендованы наши решения: Llamator для автоматического тестирования и HiveTrace для защиты от промпт-атак 💙.
14.05.202508:15
28 мая в Москве пройдет конференция Data & ML 2 Business от Yandex Cloud. Продуктовые команды из финтеха, ритейла и фармы поделятся тем, как GPT‑модели работают «в проде», а Яндекс анонсирует свежие релизы Foundation Models. Мой коллега из Raft, Артём Воскресенский расскажет о создании HR Copilot, который автоматически обрабатывает отклики, делает прескрининг и сокращает время оценки резюме кандидатов.

Если планируете участвовать, лучше приезжайте офлайн: конференцию традиционно завершают два доклада без записи — кульминация программы. На них спикеры делятся не только историями «успешного успеха» ИИ‑трансформации, но и тем, какие сложности возникают при запуске технологий в реальных условиях.
15.05.202518:01
Вышел новый документ OWASP: Agent Name Service (ANS) for Secure AI Agent Discovery. По сути — это аналог старой концепции реестра микросервисов, знакомый многим бекенд разработчикам. В данном случае корректнее сказать, что Кен Хуанг выпускает ещё один свой документ (если не ошибаюсь, уже четвёртый за последний квартал), прикрываясь брендом OWASP.

Предложенный подход представляет референсную архитектуру для агентных систем. Недавно Кен также представил Zero Trust Agent (ZTA) Framework, который выполняет аналогичную функцию, в основном — маркетинговую. Если вы начнёте читать документ, то бонусом получите главу с анализом рисков нового сервиса по методу MAESTRO, которую Кен успешно запустил месяц назад.

Маловероятно, что ANS будет принят на уровне, сравнимом с MCP или A2A.

Может показаться, что я излишне критичен к документу. Кен — хороший автор и талантливый пиарщик своих инициатив, но качество публикаций низкое и их практическая применимость вызывает вопросы. В OWASP существует внутренняя политическая игра между инициативой AI Exchange и проектом GenAI. Пограничные документы, вроде этого, публикуются без какой-либо валидации. В нашей рабочей группе Agentic Security Initiative, например, даже не было анонса нового discovery-сервиса.

Главное отличие маркетингового документа от технического протокола или фреймворка — это наличие поддержки и версионирования. Многие публикации, после масштабных LinkedIn-релизов, были заброшены и больше не обновляются.
Reposted from:
AISecHub avatar
AISecHub
15.05.202518:01
Agent Name Service (ANS) for Secure Al Agent Discovery

The Agent Name Service (#ANS), developed under the OWASP GenAI Security Project – Agentic Security Initiative, introduces a secure, DNS-inspired framework for AI agent discovery. ANS leverages Public Key Infrastructure (#PKI) for identity verification, structured JSON schemas for communication, and a protocol adapter layer supporting #A2A, #MCP, and #ACP protocols.

The architecture defines a comprehensive naming structure (ANSName) that encodes protocol, agent capability, provider, and version metadata, enabling consistent, secure resolution across diverse agent networks. Security measures include PKI-backed identity verification, digital signatures, and Zero-Knowledge Proofs (#ZKP) for capability validation. #OWASP
15.05.202519:12
Тем не менее, благодаря документу Agent Name Service случайно узнал про новый ACP (Agent Communication Protocol) — REST-интерфейс для общения ИИ-агентов между собой, а также с внешними приложениями и инструментами. Изначально это был внутренний проект IBM, который затем открыли и передали в Linux Foundation AI & Data. Текущая версия — v0.8.4, в репозитории много свежих коммитов, активные issues и группа контрибьюторов. В проекте реализованы реестр агентов BeeAI, встроенный механизм discovery и функции мониторинга.
Log in to unlock more functionality.