
FUTURE × SIMPLE ⛩
👨💻 Авторське медіа про штучний інтелект: новини, тренди, український контекст, факапи, дрібка мемів та офтопчик.
👾 Для зв'язку: @thats_not_ai_samurai
📝 Підтримка: base.monobank.ua/3Ai2pY7W6vWm6G
👾 Для зв'язку: @thats_not_ai_samurai
📝 Підтримка: base.monobank.ua/3Ai2pY7W6vWm6G
TGlist reytingi
0
0
TuriOmmaviy
Tekshirish
TekshirilmaganIshonchnoma
ShubhaliJoylashuvУкраїна
TilBoshqa
Kanal yaratilgan sanaMay 18, 2023
TGlist-ga qo'shildi
Aug 14, 2024Muxrlangan guruh
"FUTURE × SIMPLE ⛩" guruhidagi so'nggi postlar
Repost qilingan:
Ооо нейромережеве🤖

08.04.202508:59
Лол, Google понад рік платить роботягам зарплату за те, що вони нічого не роблять. Не повірите, але це їх стратегія в ШІ-перегонах 😂
Виявляється, робота мрії це: бути досвідченим розробником ШІ й підписати з Google контракт, який забороняє перехід до конкурентів. Корпа готова цілий рік платити вам повну ЗП просто за те, що ви такий красивий і не працюєте на конкурентів.
Що іронічно, метод працює — моделі Гугла зараз вибилися в топ 😁
ооо нейромережеве
Виявляється, робота мрії це: бути досвідченим розробником ШІ й підписати з Google контракт, який забороняє перехід до конкурентів. Корпа готова цілий рік платити вам повну ЗП просто за те, що ви такий красивий і не працюєте на конкурентів.
Що іронічно, метод працює — моделі Гугла зараз вибилися в топ 😁
ооо нейромережеве


05.04.202513:58
«Всім, хто вважає, що всі ці падіння ринку пов'язані з економічною політикою президента, я можу сказати, що падіння ринку почалося з оголошення китайської компанії DeepSeek про створення штучного інтелекту», — Міністр фінансів США 🥴
🤕 Який сюр.
🫦 FUTURE : SIMPLE
01.04.202514:05
👾 Тихий світ Telegram, тут тепер мешкає Grok. Йому кинули виклик — створити найдовший текст, цілих 4096 символів
Сонце сходило вже тричі. Три доби титанічних обчислень та, ймовірно, глибоких медитацій для бідної LLM.
🧠 Глибоко... Думка, що дійсно заслуговує на увіковічнення, на те, щоб бути викарбуваною на скрижалях.
Або на баг-репорт.
🫦 FUTURE : SIMPLE
Сонце сходило вже тричі. Три доби титанічних обчислень та, ймовірно, глибоких медитацій для бідної LLM.
🐈⬛ Зрештою, Grok звільнився від пут логіки й контексту, після чого світ побачив відповідь, що повертає нас до основ буття:
«Вибач, щось пішло не так. Я тут, щоб допомогти! Як справи у тебе?».
🧠 Глибоко... Думка, що дійсно заслуговує на увіковічнення, на те, щоб бути викарбуваною на скрижалях.
Або на баг-репорт.
🫦 FUTURE : SIMPLE


28.03.202516:51
😁 Gemini 2.5 Pro: перші враження та відчуття
У AI-сфері складно уникати цинізму, особливо коли йдеться про нові релізи моделей, які кожного разу подають під соусом «рЕвОлЮціЇ».
Але ось уже кілька днів тестую Gemini 2.5 Pro, і відчуваю: щось все таки змінилося.
🤑 Тому вирішив трішки розібратись з технічними деталями — ось основне.
Відразу поясню, Google традиційно не розкриває всі архітектурні деталі своїх моделей в офіційних анонсах.
👉 Частина інформації базується на неофіційних технічних публікаціях та аналізі спільноти ШІ-дослідників, тож сприймайте її з розумною долею скептицизму.
Що офіційно підтверджено Google:
В технічному середовищі обговорюють кілька цікавих архітектурних рішень, які, теоретично, пояснюють відчутне покращення в роботі моделі.
😎 Ймовірно, що «драйвер інновацій» — 12-мільярдна підмодель Chain-of-Thought Verifier. Вона проводить 7-етапну верифікацію відповідей.
Це особливо помітно під час тестування: модель демонструє значно вищу точність та здатність виявляти власні помилки, ніж попередні версії.
💪 Архітектурно Gemini 2.5 Pro — це, за попередньою інформацією, гібридна MoE-Transformer зі 128 мільярдами параметрів.
В ній динамічно активується ± 16 експертів, при цьому кожен «експерт» в системі має власний механізм вторинної спеціалізації.
Мільйонне контекстне вікно (яке саме по собі звучало прикольно, але на практиці не те, щоб було ефективним) зараз працює з ієрархічною системою пам'яті.
🥲 Велике контекстне вікно Google ми бачили й раніше, але практично користі від нього було мало — моделі губилися в таких обсягах даних.
Справа тут у тому, що Gemini навчилася розбивати великі масиви інформації на ієрархічні кластери з різними рівнями важливості.
🧠 Схоже на пірамідальну структуру пам'яті: найважливіша інформація завжди «на поверхні», менш важлива — глибше, але все ще доступна.
Раніше це було більше схоже на лінійний список — першими «забувалися» найдавніші чанки, незалежно від їхньої важливості.
Нюанс в тому, що хоча модель краще міркує, проблема в тому, що Gemini все ще Gemini в тому, як вона подає інформацію — форматування, стиль та, загалом, «форма» — тут все ще справи йдуть погано.
💻 Поки що це лише перше враження — тестування триває і багато чого ще потребує глибшого аналізу. Більш розгорнутий допис ще буде згодом.
🫦 FUTURE : SIMPLE
У AI-сфері складно уникати цинізму, особливо коли йдеться про нові релізи моделей, які кожного разу подають під соусом «рЕвОлЮціЇ».
✨ До ШІ-розробок Google я ставився особилво скептично — занадто часто анонси не відповідали реальним можливостям, а продукти факапились. Такий собі Bard-шлейф.
Але ось уже кілька днів тестую Gemini 2.5 Pro, і відчуваю: щось все таки змінилося.
🤑 Тому вирішив трішки розібратись з технічними деталями — ось основне.
Відразу поясню, Google традиційно не розкриває всі архітектурні деталі своїх моделей в офіційних анонсах.
👉 Частина інформації базується на неофіційних технічних публікаціях та аналізі спільноти ШІ-дослідників, тож сприймайте її з розумною долею скептицизму.
Що офіційно підтверджено Google:
• Контекстне вікно в 1 мільйон токенів (з планами розширення до 2 мільйонів)
• Мультимодальні можливості (розуміння тексту, зображень, аудіо, відео)
• Значно покращені можливості для міркування та кодування
• Висока продуктивність на бенчмарках, особливо в LMArena
В технічному середовищі обговорюють кілька цікавих архітектурних рішень, які, теоретично, пояснюють відчутне покращення в роботі моделі.
😎 Ймовірно, що «драйвер інновацій» — 12-мільярдна підмодель Chain-of-Thought Verifier. Вона проводить 7-етапну верифікацію відповідей.
✨ Іншими словами, у Gemini може бути окрема спеціалізована підмодель, яка активно шукає помилки, перевіряє факти і виявляє суперечності, перш ніж основна модель завершить роботу.
Це особливо помітно під час тестування: модель демонструє значно вищу точність та здатність виявляти власні помилки, ніж попередні версії.
💪 Архітектурно Gemini 2.5 Pro — це, за попередньою інформацією, гібридна MoE-Transformer зі 128 мільярдами параметрів.
В ній динамічно активується ± 16 експертів, при цьому кожен «експерт» в системі має власний механізм вторинної спеціалізації.
🔍 Аналізуючи поведінку моделі, можна помітити механізм динамічного виділення обчислювальних ресурсів — модель витрачає помітно більше часу на складні запити, але водночас швидко обробляє прості.
Мільйонне контекстне вікно (яке саме по собі звучало прикольно, але на практиці не те, щоб було ефективним) зараз працює з ієрархічною системою пам'яті.
🥲 Велике контекстне вікно Google ми бачили й раніше, але практично користі від нього було мало — моделі губилися в таких обсягах даних.
Справа тут у тому, що Gemini навчилася розбивати великі масиви інформації на ієрархічні кластери з різними рівнями важливості.
🧠 Схоже на пірамідальну структуру пам'яті: найважливіша інформація завжди «на поверхні», менш важлива — глибше, але все ще доступна.
Раніше це було більше схоже на лінійний список — першими «забувалися» найдавніші чанки, незалежно від їхньої важливості.
✨ На бенчмарках це все виглядає як сухі цифри — 84% тут, 84% там. Але відчувається це зараз вже ближче до розмови з моделлю, яка все ж намагається зрозуміти проблему, а не просто згенерувати «заглушку».
Нюанс в тому, що хоча модель краще міркує, проблема в тому, що Gemini все ще Gemini в тому, як вона подає інформацію — форматування, стиль та, загалом, «форма» — тут все ще справи йдуть погано.
💻 Поки що це лише перше враження — тестування триває і багато чого ще потребує глибшого аналізу. Більш розгорнутий допис ще буде згодом.
🫦 FUTURE : SIMPLE


27.03.202513:04
🧠 Як перетворити AI на свій Digital мозок? Покрокова інструкція + готові промпти
Хочете, щоб AI був не просто асистентом для рутинних завдань, а повноцінним ментором у мисленні та прийнятті рішень?
У свіжому епізоді подкасту «Flow: про книги, бізнес та ідеї» — покрокова інструкція від українського IT-підприємця Юри Гнатюка. До речі, це також популярний авторський телеграм-канал про бізнес.
Отож, у новому випуску — про те, як на практиці використати потенціал штучного інтелекту для взаємодії з самим собою. З власними думками, досвідом, знаннями. А саме:
🎧 як побудувати AI-екосистему мислення для прийняття ефективних рішень;
🎧 playbook, що покроково пояснить, як завдяки AI структурувати ідеї, поєднувати знання з книг, подкастів, зустрічей, та створити справжній цифровий мозок;
🎧 які промпти для цього треба використовувати;
🎧 також рекомендуємо послухати епізод про книгу «Запасний мозок»: як організувати думки, ідеї та нотатки для підвищення продуктивності і покращення життя → слухати
20 епізодів подкасту зекономлять вам час на прочитання 20 бестселлерів (!) про бізнес. Тому підписуйтеся.
Якщо що, подкаст доступний на всіх популярних платформах:
Хочете, щоб AI був не просто асистентом для рутинних завдань, а повноцінним ментором у мисленні та прийнятті рішень?
У свіжому епізоді подкасту «Flow: про книги, бізнес та ідеї» — покрокова інструкція від українського IT-підприємця Юри Гнатюка. До речі, це також популярний авторський телеграм-канал про бізнес.
Отож, у новому випуску — про те, як на практиці використати потенціал штучного інтелекту для взаємодії з самим собою. З власними думками, досвідом, знаннями. А саме:
🎧 як побудувати AI-екосистему мислення для прийняття ефективних рішень;
🎧 playbook, що покроково пояснить, як завдяки AI структурувати ідеї, поєднувати знання з книг, подкастів, зустрічей, та створити справжній цифровий мозок;
🎧 які промпти для цього треба використовувати;
🎧 також рекомендуємо послухати епізод про книгу «Запасний мозок»: як організувати думки, ідеї та нотатки для підвищення продуктивності і покращення життя → слухати
20 епізодів подкасту зекономлять вам час на прочитання 20 бестселлерів (!) про бізнес. Тому підписуйтеся.
Якщо що, подкаст доступний на всіх популярних платформах:
Repost qilingan:
Ооо нейромережеве🤖

26.03.202511:59
OpenAI відкрили свою OpenAI Academy для всіх — там є:
🪙 Онлайн-вебінари;
🪙 Навчальні відоси;
🪙 Практичні поради для різних професій від вчителів до програмістів;
🪙 Є гайди по всім інструментам OpenAI: від ChatGPT до Sora;
🔤🔤🔤🔤🔤🔤🔤🔤🔤🔤🔤
Реєстрація туточки 🫡
ооо нейромережеве
🪙 Онлайн-вебінари;
🪙 Навчальні відоси;
🪙 Практичні поради для різних професій від вчителів до програмістів;
🪙 Є гайди по всім інструментам OpenAI: від ChatGPT до Sora;
🔤🔤🔤🔤🔤🔤🔤🔤🔤🔤🔤
Реєстрація туточки 🫡
ооо нейромережеве


24.03.202512:41
👀 50% вашої рутини може виконувати ChatGPT — треба тільки знати як.
Про це — на безплатній лекції від Kukurudza.
📌 Про що ви дізнаєтесь?
• 8 завдань в SMM, які можна делегувати AI, аби вивільнити час та забути про рутину.
• Як 20% SMM-спеціалістів вже використовують ChatGPT для контенту, аналітики та маркетингу.
• 5 фатальних помилок, через які ChatGPT не дає потрібної відповіді.
🗓 Дата: 27 березня, 18:00 - 19:30
🎁 За реєстрацію одразу отримаєте бонус — промпт, який покращить відповіді ChatGPT в 90%.
👉🏻 Зареєструватись та забрати подарунок 👈🏻
Про це — на безплатній лекції від Kukurudza.
📌 Про що ви дізнаєтесь?
• 8 завдань в SMM, які можна делегувати AI, аби вивільнити час та забути про рутину.
• Як 20% SMM-спеціалістів вже використовують ChatGPT для контенту, аналітики та маркетингу.
• 5 фатальних помилок, через які ChatGPT не дає потрібної відповіді.
🗓 Дата: 27 березня, 18:00 - 19:30
🎁 За реєстрацію одразу отримаєте бонус — промпт, який покращить відповіді ChatGPT в 90%.
👉🏻 Зареєструватись та забрати подарунок 👈🏻


19.03.202512:15
💻 Вайб-кодер: таксономія та поведінкові особливості в природному середовищі ІТ
Вайб-кодер (лат. Vibecoderus Copypasticus) — це особливий підвид програміста, який повністю відмовився від традиційного написання коду і довірив свою долю та кар'єру штучному інтелекту.
З наукової точки зору, вайб-кодер — це істота, що перебуває у постійному стані «потоку» (flow), де ключовим є не точність чи логіка, а «вайб», тобто інтуїтивне відчуття успіху.
🧠 На відміну від звичайного програміста, який витрачає роки на вивчення синтаксису та алгоритмів, вайб-кодер досяг вищої форми програмування.
Він просто «бачить всілякі штуки, каже інші всілякі штуки, запускає якісь незрозумілі штуки та, загалом, копіпастить те, чого не розуміє».
🧠 Типовою поведінкою вайб-кодера є повторне натискання кнопки «Regenerate response», аж допоки код магічним чином не запрацює.
Будь-які помилки виправляються методом випадкових змін і повторних запитів до ШІ.
💪 Водночас вайб-кодери мають надзвичайну стійкість до стресу: вони не бояться багів, бо тупо не знають про їхнє існування.
👹 Незважаючи на це, популяція вайб-кодерів стрімко зростає завдяки простоті входження в «професію» та можливості створювати додатки без необхідності знати, що таке змінна або цикл.
🫦 FUTURE : SIMPLE
Вайб-кодер (лат. Vibecoderus Copypasticus) — це особливий підвид програміста, який повністю відмовився від традиційного написання коду і довірив свою долю та кар'єру штучному інтелекту.
🔻 Вайб-кодер характеризується високим рівнем довіри до нейромереж, мінімальним (або навіть негативним) розумінням того, що саме відбувається у згенерованому коді, та максимальним рівнем впевненості у власних здібностях копіювати й вставляти результат роботи чатбота.
З наукової точки зору, вайб-кодер — це істота, що перебуває у постійному стані «потоку» (flow), де ключовим є не точність чи логіка, а «вайб», тобто інтуїтивне відчуття успіху.
🧠 На відміну від звичайного програміста, який витрачає роки на вивчення синтаксису та алгоритмів, вайб-кодер досяг вищої форми програмування.
Він просто «бачить всілякі штуки, каже інші всілякі штуки, запускає якісь незрозумілі штуки та, загалом, копіпастить те, чого не розуміє».
🧠 Типовою поведінкою вайб-кодера є повторне натискання кнопки «Regenerate response», аж допоки код магічним чином не запрацює.
🔻 Експерти застерігають: цей вид програмістів може бути небезпечним для бізнесу, оскільки їхній код часто працює за принципом «воно якось саме зробилося».
Будь-які помилки виправляються методом випадкових змін і повторних запитів до ШІ.
💪 Водночас вайб-кодери мають надзвичайну стійкість до стресу: вони не бояться багів, бо тупо не знають про їхнє існування.
👹 Незважаючи на це, популяція вайб-кодерів стрімко зростає завдяки простоті входження в «професію» та можливості створювати додатки без необхідності знати, що таке змінна або цикл.
🫦 FUTURE : SIMPLE


Repost qilingan:
Ооо нейромережеве🤖

18.03.202510:19
Зараз буде дуже смішний доказ того, що вайбкодери ніколи не замінять реальних програмістів, приготуйтеся 👌
Чувак з твіттеру вихвалявся, що навайбкодив сервіс, який приносить йому гроші:
1️⃣6️⃣ березня хтось почав шукати вразливості в роботі сервісу. Наш герой ВІДВАЙБКОДИВ кібератаку 😁
1️⃣7️⃣ березня він зізнався, що атака була успішна — хтось поцупив його API, зламав систему підписки (можна було користуватися платними послугами без неї) й почав заливати сміття в базу даних.
До речі, успішний сервіс у 2025 році виглядає як... 10 користувачів з підпискою по 20$ 🤣
Що можна сказати в підсумку? Роль кібербезпеки переоцінена.
ооо нейромережеве
Чувак з твіттеру вихвалявся, що навайбкодив сервіс, який приносить йому гроші:
Тепер, ви можете й далі нити або почати діяти
1️⃣6️⃣ березня хтось почав шукати вразливості в роботі сервісу. Наш герой ВІДВАЙБКОДИВ кібератаку 😁
1️⃣7️⃣ березня він зізнався, що атака була успішна — хтось поцупив його API, зламав систему підписки (можна було користуватися платними послугами без неї) й почав заливати сміття в базу даних.
До речі, успішний сервіс у 2025 році виглядає як... 10 користувачів з підпискою по 20$ 🤣
Що можна сказати в підсумку? Роль кібербезпеки переоцінена.
ооо нейромережеве


14.03.202509:31
💻 Вирішив я вчора вночі попрацювати трішки над розширенням — закрити буквально одну проблему
🐈⬛ Насправді ж просто хочу показати вам геніальне рішення, яке мені запропонував Клодіс з extended thinking.
👍 Найкраща модель, по-іншому й не скажеш.
🫦 FUTURE : SIMPLE
✨ Оскільки вайб-кодинг сесія була короткою — вирішив це робити через звичайний Claude Desktop, запустив MCP для взаємодії з локальними файлами проєкту — ну добре, це я просто, щоб нагадати, що у мене є стаття про MCP)))))
🐈⬛ Насправді ж просто хочу показати вам геніальне рішення, яке мені запропонував Клодіс з extended thinking.
👍 Найкраща модель, по-іншому й не скажеш.
🫦 FUTURE : SIMPLE


13.03.202511:04
🤑 Фейк-чек довжини контексту: як нас на🤬ють з мільйонними токенами
OpenAI, Anthropic, Google і т. д. — всі вони давненько беруть участь у своєрідному змаганні «у кого довший контекст».
😑 «У нас 100K токенів!», «А в нас мільйон!» — і всі плескають своїми маленькими руцями в екстазі.
Але в реальності все трішки не ✅.
Почнемо з головного — а як взагалі перевірити, наскільки ефективно модель працює з контекстом?
Щоб вирішити цю проблемку придумали трішки елегантніший підхід: замість буквальних збігів — асоціативні зв'язки.
Умовно:
Щоб знайти відповідь, модель має знати, що Житній ринок знаходиться на Подолі — тут немає жодного однакового слова між питанням та «голкою».
Дослідники ускладнили завдання та створили двоступеневі асоціації.
❓ Запитання: «Який персонаж побував в Києві?»
Тепер модель має з'єднати Житній ринок з Подолом, а Подол з Києвом. Вже складніше.
Ну і тепер про головне — результати тестів.
💻 Тестували 12 топових, на момент проведення дослідження, LLM (GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet та інші) — і всі вони благополучно лажанули на довгих контекстах.
При контексті у 32K токенів (що в 4 рази менше, ніж заявлені 128K) 10 з 12 моделей показали менше 50% від своєї короткоконтекстної продуктивності.
😀 Для загального розуміння, результат GPT-4o впав з 99.3% до 69.7% — і це був найкращий результат серед усіх протестованих моделей.
І знаєте, скільки вона складає для більшості моделей? Барабанний дріб... 2K токенів! ПРИ ЗАЯВЛЕНИХ 128K!
Пояснюється це досить просто.
👀 Механізм уваги в трансформерах стає все менш ефективним зі збільшенням контексту — і це не те, щоб був для когось секрет.
Але це стає критичним та особливо помітним, коли модель не отримує прямих лексичних підказок.
Ще кілька цікавих нюансів з дослідження:
По суті, LLM не «розуміють» довгий контекст — вони просто шукають кореляції. Коли ці кореляції стають менш очевидними — все, допобачення.
Що це нам дає з практичної точки зору?
😣 Сліпо вірити заявленим розробниками цифрам і кидати багатосторінкові документи з наївною вірою, що моделька покрутить якісь там гаєчки та розбереться сама — погана ідея.
Як працювати з цими нюансами?
Найбільш очевидне: розбивайте тексти на логічні шматки — краще 5 шматків по 2K токенів, ніж один на 10K. Не дуже зручно, але вже як є.
👹 Як варіант, переформулюйте свої запити — додайте ключові слова, які точно є в документі. Уявіть, що це SEO для LLM.
Насправді ось це дослідження — це не привід для песимізму, а просто холодний душ реальності.
😁 Так, моделі вдосконалюються, але не настільки швидко, як розповідають інвесторам.
🧠 Тому коли наступного разу почуєте гучні заяви про мільйони токенів контексту, пам'ятайте — цифри на папері та реальні можливості часто знаходяться в паралельних всесвітах.
🫦 FUTURE : SIMPLE
OpenAI, Anthropic, Google і т. д. — всі вони давненько беруть участь у своєрідному змаганні «у кого довший контекст».
😑 «У нас 100K токенів!», «А в нас мільйон!» — і всі плескають своїми маленькими руцями в екстазі.
Але в реальності все трішки не ✅.
🐈⬛ Натрапив на одне відносно свіже дослідження, яке буквально розмазало більшість цих заяв по стіночці.
Почнемо з головного — а як взагалі перевірити, наскільки ефективно модель працює з контекстом?
🗒 Традиційні тести «голка-в-копиці-сіна» (NIAH) не дуже підходить, адже коли питання і відповідь мають однакові слова — це не тест на розуміння, а просто пошук буквальних збігів.
Щоб вирішити цю проблемку придумали трішки елегантніший підхід: замість буквальних збігів — асоціативні зв'язки.
Умовно:
⚫️ Факт: «Насправді, Антон живе поряд з Житнім ринком»
⚫️ Запитання: «Який персонаж часто буває на Подолі?»
Щоб знайти відповідь, модель має знати, що Житній ринок знаходиться на Подолі — тут немає жодного однакового слова між питанням та «голкою».
Дослідники ускладнили завдання та створили двоступеневі асоціації.
❓ Запитання: «Який персонаж побував в Києві?»
Тепер модель має з'єднати Житній ринок з Подолом, а Подол з Києвом. Вже складніше.
Ну і тепер про головне — результати тестів.
💻 Тестували 12 топових, на момент проведення дослідження, LLM (GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet та інші) — і всі вони благополучно лажанули на довгих контекстах.
• На коротких дистанціях (до 1K токенів) все було чудово — моделі легко знаходили правильні відповіді. Але з ростом обсягу тексту все швидко зійшло на рівень багнюки.
При контексті у 32K токенів (що в 4 рази менше, ніж заявлені 128K) 10 з 12 моделей показали менше 50% від своєї короткоконтекстної продуктивності.
😀 Для загального розуміння, результат GPT-4o впав з 99.3% до 69.7% — і це був найкращий результат серед усіх протестованих моделей.
👉 Найцікавіший показник — «ефективна довжина контексту», тобто максимальна довжина, при якій модель зберігає принаймні 85% від базової продуктивності.
І знаєте, скільки вона складає для більшості моделей? Барабанний дріб... 2K токенів! ПРИ ЗАЯВЛЕНИХ 128K!
Пояснюється це досить просто.
👀 Механізм уваги в трансформерах стає все менш ефективним зі збільшенням контексту — і це не те, щоб був для когось секрет.
Але це стає критичним та особливо помітним, коли модель не отримує прямих лексичних підказок.
Ще кілька цікавих нюансів з дослідження:
1️⃣ Коли в експерименті додавали прямі текстові збіги, продуктивність злітала до небес навіть на довгих контекстах.
2️⃣ При цьому, якщо в текст додати речення з ключовими словами з питання, але не пов'язувати його з відповіддю, ситуація ставала ще гіршою.
3️⃣ Порядок інформації теж критично важливий — «інвертовані» факти (де спочатку йде ключове слово, а потім відповідь) моделі обробляють значно гірше.
По суті, LLM не «розуміють» довгий контекст — вони просто шукають кореляції. Коли ці кореляції стають менш очевидними — все, допобачення.
Що це нам дає з практичної точки зору?
😣 Сліпо вірити заявленим розробниками цифрам і кидати багатосторінкові документи з наївною вірою, що моделька покрутить якісь там гаєчки та розбереться сама — погана ідея.
Як працювати з цими нюансами?
Найбільш очевидне: розбивайте тексти на логічні шматки — краще 5 шматків по 2K токенів, ніж один на 10K. Не дуже зручно, але вже як є.
👹 Як варіант, переформулюйте свої запити — додайте ключові слова, які точно є в документі. Уявіть, що це SEO для LLM.
Насправді ось це дослідження — це не привід для песимізму, а просто холодний душ реальності.
😁 Так, моделі вдосконалюються, але не настільки швидко, як розповідають інвесторам.
🧠 Тому коли наступного разу почуєте гучні заяви про мільйони токенів контексту, пам'ятайте — цифри на папері та реальні можливості часто знаходяться в паралельних всесвітах.
🫦 FUTURE : SIMPLE
12.03.202510:08
😉 Давненько не ділився моїми улюбленими діджитал-артами — насолоджуйтесь, надихайтесь, живіть, кохайте, їжте, катарсисуйте, цілуйтесь, любіться та шукайте сенси там, де їх немає.
🫦 FUTURE : SIMPLE
10.03.202510:33
😁 Claude Sonnet 3.7: так, розумніший, але що з того?
Як і обіцяв, після тривалого та активного тестування Claude 3.7 Sonnet, ділюсь спостереженнями та враженнями. Так, трішки запізнився, буває.
Отже, почнемо з найочікуванішого — режим extended thinking.
Так, прогрес у математичних здібностях більш ніж відчутний.
Проте, хоч Anthropic і створили переконливу метафору — вона все ж залишається первинно цінною саме як метафора в межах цього релізу.
Тобто по суті нічого інноваційного, але працює ефективно — і це головне.
Але для мене значно цікавіше те, що відбувається за межами режиму мислення.
😑 Нудятину про бенчмарки розводити не буду, ви й так все бачили самі.
У моїх тестах модель суттєво покращила відстеження взаємозв'язків між елементами на великих дистанціях контексту (понад 100K токенів).
😎 Якщо раніше доводилося мінімально структурувати вхідні дані, зараз модель сама справляється з неоптимізованим контекстом набагато краще.
Крім того, оновлена версія навчилася бачити взаємозв'язки між різними частинами великого тексту на іншому рівні.
Технічно це означає серйозні зміни у тому, як модель опрацьовує текст — наскільки розумію, то вона, замість послідовного аналізу, формує щось на кшталт карти всього документа.
🤕 Інколи просиш написати, умовно, план для дослідження якоїсь теми, а він тобі відразу і план сформував і вже накидав якісь приклади і піздує далі писати своє полотно тексту, яке ти не просив.
Це часто перевантажує результат, коли треба конкретика — у Sonnet 3.5 такого не було зовсім.
Також помітив цікаву особливість — токени на початку інструкцій мають непропорційно високий вплив на весь подальший діалог.
☝️ Якщо Claude щось неправильно інтерпретував, то переконати його змінити напрямок «думок» було обісратись як складно.
Особливо тупо це буває, коли точно знаєш, що модель помиляється.
🤯 Фактично розробники знизили температуру моделі, пожертвувавши креативністю заради консистентності.
Важливий особистий момент: встиг протестувати Sonnet 3.7 при розробці розширення.
Згодом буде друга частина статті про розробку.
⚫️ Ще один нюанс — модель дуже схильна ускладнювати прості завдання, тому для певних тасків версія 3.5 все ще є оптимальним варіантом.
Якщо ваші завдання в цих категоріях — ви зміни дійсно відчуєте.
😞 Чи це якийсь революційний прорив? Навряд чи.
Скоріше еволюційний розвиток у правильному напрямку.
💻 Отже, загалом, наразі це цілком прийнятний компроміс між очікуваннями та реальністю, проте справжні переваги нової моделі помітять далеко не всі користувачі.
Як і обіцяв, після тривалого та активного тестування Claude 3.7 Sonnet, ділюсь спостереженнями та враженнями. Так, трішки запізнився, буває.
Отже, почнемо з найочікуванішого — режим extended thinking.
✨ Anthropic активно просували наратив, що їхній підхід принципово відрізняється від конкурентів, які нібито розглядають «мислення» як окрему функцію, тоді як вони інтегрували цю здатність в єдину архітектуру.
Так, прогрес у математичних здібностях більш ніж відчутний.
Проте, хоч Anthropic і створили переконливу метафору — вона все ж залишається первинно цінною саме як метафора в межах цього релізу.
👉 Реалізовано це, наскільки розумію, через систему токенового бюджетування — коли активується розширене мислення, Claude просто виділяє більше токенів на додаткові ітерації.
Тобто по суті нічого інноваційного, але працює ефективно — і це головне.
Але для мене значно цікавіше те, що відбувається за межами режиму мислення.
😑 Нудятину про бенчмарки розводити не буду, ви й так все бачили самі.
У моїх тестах модель суттєво покращила відстеження взаємозв'язків між елементами на великих дистанціях контексту (понад 100K токенів).
😎 Якщо раніше доводилося мінімально структурувати вхідні дані, зараз модель сама справляється з неоптимізованим контекстом набагато краще.
Крім того, оновлена версія навчилася бачити взаємозв'язки між різними частинами великого тексту на іншому рівні.
🤨 Якщо спрощувати та переходити на рівень «відчуттів», то це як різниця між студентом, який просто прочитав підручник, і викладачем, який розуміє, як усі розділи пов'язані між собою.
Технічно це означає серйозні зміни у тому, як модель опрацьовує текст — наскільки розумію, то вона, замість послідовного аналізу, формує щось на кшталт карти всього документа.
✨ Один з нюансів, які складно не помітити — Claude 3.7 став помітно «академічнішим» у поясненнях.
✨ На це ще й накладається надмірна багатослівність, що створює комбінацію, яка при взаємодії з Клодом зараз є дуже неприємною.
🤕 Інколи просиш написати, умовно, план для дослідження якоїсь теми, а він тобі відразу і план сформував і вже накидав якісь приклади і піздує далі писати своє полотно тексту, яке ти не просив.
Це часто перевантажує результат, коли треба конкретика — у Sonnet 3.5 такого не було зовсім.
Також помітив цікаву особливість — токени на початку інструкцій мають непропорційно високий вплив на весь подальший діалог.
☝️ Якщо Claude щось неправильно інтерпретував, то переконати його змінити напрямок «думок» було обісратись як складно.
Особливо тупо це буває, коли точно знаєш, що модель помиляється.
😀 Технічно це пов'язано з тим, що Anthropic, схоже, посилили вагові коефіцієнти для початкових токенів у кожному смисловому блоці.
Це забезпечує більш послідовні та зв'язні відповіді, але зменшує гнучкість при зміні контексту.
🤯 Фактично розробники знизили температуру моделі, пожертвувавши креативністю заради консистентності.
Важливий особистий момент: встиг протестувати Sonnet 3.7 при розробці розширення.
🤕 З попередньою версією я застряг в глухому куті — оновлення змогло вирішити проблему, тому процес знову рухається далі, з чим я вас та себе і вітаю.
Згодом буде друга частина статті про розробку.
⚫️ Ще один нюанс — модель дуже схильна ускладнювати прості завдання, тому для певних тасків версія 3.5 все ще є оптимальним варіантом.
Коротше, якщо дивитись на технічну сторону оновлення, то воно має найбільше розкритись у трьох сценаріях: складні технічні рішення, робота з кодом і глибокий аналіз даних.
Якщо ваші завдання в цих категоріях — ви зміни дійсно відчуєте.
😞 Чи це якийсь революційний прорив? Навряд чи.
Скоріше еволюційний розвиток у правильному напрямку.
Самі ж Antrhopic позиціонують нового Sonnet'a приблизно так само, бо якби «ставки» були вищими — ми б побачили цю версію під номером «4», а не «3.7». І тоді б розчаруванню не було меж.
💻 Отже, загалом, наразі це цілком прийнятний компроміс між очікуваннями та реальністю, проте справжні переваги нової моделі помітять далеко не всі користувачі.


05.03.202512:21
Скоро будуть, чесно😁


24.02.202519:46
😐 Сталось.
Не все, про що писав потрапило в реліз — інтернети ввели адміна в оману.
👉 Головне — оновлення базової моделі та функціонал extended thinking.
Але це не означає, що інші фічі не підвезуть в наступні релізи.
Деталі щодо оновлення тут.
😑 Але неймінг, відверто, нікчемний — Sonnet 3.7.
З бенчмарками все гуд, але я іншого й не очікував.
👹 Коротше, я вже тестую, розгорнутий допис буде згодом.
🫦 FUTURE : SIMPLE
Не все, про що писав потрапило в реліз — інтернети ввели адміна в оману.
👉 Головне — оновлення базової моделі та функціонал extended thinking.
Але це не означає, що інші фічі не підвезуть в наступні релізи.
Деталі щодо оновлення тут.
😑 Але неймінг, відверто, нікчемний — Sonnet 3.7.
Хоча треба подякувати, що це не «Claude 3.5 Sonnet (new) (new)».
👉 Такими темпами ще чекаємо на Sonnet 3.999 — що не зробиш, щоб не використовувати «4».
З бенчмарками все гуд, але я іншого й не очікував.
👹 Коротше, я вже тестую, розгорнутий допис буде згодом.
🫦 FUTURE : SIMPLE


Rekordlar
10.04.202523:59
1.9KObunachilar14.03.202523:59
100Iqtiboslar indeksi07.04.202509:18
5.5KBitta post qamrovi15.02.202516:31
4KReklama posti qamrovi27.02.202515:00
21.05%ER08.03.202516:36
305.25%ERRKo'proq funksiyalarni ochish uchun tizimga kiring.