Мир сегодня с "Юрий Подоляка"
Мир сегодня с "Юрий Подоляка"
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Труха⚡️Україна
Труха⚡️Україна
Николаевский Ванёк
Николаевский Ванёк
Лёха в Short’ах Long’ует
Лёха в Short’ах Long’ует
QAMania avatar

QAMania

प्रौद्योगिकी
Ламповий блог про тестування, пишемо про те, що нам цікаво та власний досвід.
А ще в нас є
🌐 https://qamania.org
📺 https://youtube.com/@QAMania
TGlist रेटिंग
0
0
प्रकारसार्वजनिक
सत्यापन
असत्यापित
विश्वसनीयता
अविश्वसनीय
स्थानУкраїна
भाषाअन्य
चैनल निर्माण की तिथिAug 13, 2024
TGlist में जोड़ा गया
Jul 06, 2023
संलग्न समूह

रिकॉर्ड

04.03.202523:59
4.4Kसदस्य
23.04.202423:59
500उद्धरण सूचकांक
14.11.202323:59
2.9Kप्रति पोस्ट औसत दृश्य
18.01.202521:56
1.5Kप्रति विज्ञापन पोस्ट औसत दृश्य
29.10.202423:59
11.79%ER
14.11.202323:59
73.16%ERR

QAMania के लोकप्रिय पोस्ट

से पुनः पोस्ट किया:
DOU avatar
DOU
У третю річницю повномасштабної війни ми запускаємо “Меморіал IT-спільноти”. Це проєкт DOU, де ми вшановуємо загиблих айтівців у російсько-українській війні. Тут зібрані короткі біографії військових, які віддали життя за Україну, а також цивільних, які загинули від рук росіян. Нехай ніхто не буде забутий.

Дякуємо агенції Artycoders за розробку і дизайн проєкту.
07.03.202509:11
Метатести для LLM або хто потестить тести
#ai #bugseverywhere

Всіх давно вже цікавить питання: коли ж AI замінить нас на роботі. І надто це питання цікавить розробників. Проте в конструктивному руслі: "коли AI почне фіксити нудні баги замість нас, а ми нарешті зможемо продовжувати їх створювати більше творити?".
Для відповіді на це питання існують різні методології оцінювання ефективності LLM на реальних задачах, зокрема от й на задачах по багфіксу. Одна з найвідоміших - SWE-bench.
Якщо коротко, то SWE-bench - це набір даних, який перевіряє здатність AI агентів автоматично виправляти реальні баги на GitHub. 2,294 GitHub issues з 12 популярних Python репозиторіїв та unit тести для перевірки багфіксів - дозволяють отримати конкретну числову оцінку для того чи іншого поєднання агента та LLM.
Наприклад найспроможніший агент на даний момент на "Verified" наборі - AI Programming Agent від Weights & Biases, який спромігся пофіксити 64,6% багів.

Але є одне але. А що там з тестами, тобто з багами?
Іншими словами: а чи перевіряв хтось, крім авторів SWE-bench релевантність цього датасету, на якому оцінюють здатність LLM агентів фіксити реальні баги?

Такі дослідники знайшлись. Й перевірили SWE-bench датасет на відповідність поставленій задачі.
Жодним чином не піддаючи сумніву важливість цього бенчу і йому подібних - лише вказуючи й пропонуючи можливості покращення методології оцінки LLM агентів.

TL;DR
Автори дослідження з'ясували що більшість "успішних" патчів для GitHub issues з SWE-bench набору - насправді сильно під питанням, бо третина з цих issues містила правильний фікс в коментарях до issue, ще третина мали трохи неадекватні тести для того щоб перевірити фікс, тобто тести зеленіли не тому що проблему було реально пофікшено, а тому що в пулреквесті містився код на якому тести зеленіють :) Таким чином дві третини "фіксів" від LLM coding assistants дуже під питанням.
Потім автори дослідження ще упоролись й дослідили чи входять потенційно фікси від цих issue в дані, на яких міг навчатись LLM, переробили тестовий датасет таким чином щоб були тільки GitHub issues створені точно пізніше ніж зріз навчання LLM - і тоді ефективність фіксів дропнулась взагалі до лічених відсотків: у найкращої моделі на той момент, chatGPT 4o - з 18,8% на "Full" датасеті до 3,83%!

Висновки:
Забавно що тести це баги, але не дуже забавно те що тести з багами :)
Або іншими словами: тестові дані - наше всьо, і від їх якості залежить якість результатів, які ми хочемо і можемо отримати від LLM.
Щодо фіксу реальних багів - поки що "такоє"..

Якщо когось прям от сильно зацікавило, то ось додаткові посилання:
1) сама стаття: link
2) відео на ютубчику з розбором статті: link

А у вас як? Що ви фіксите за допомогою LLM?
Діліться в коментах! Всім справді цікаво!
#звіт за РЕБ

Привіт друзі! Новини останнього дня, м'яко кажучи, погані. Руки опускаються.
Тож, щоб трохи нас всіх розкрутити, хочу відзвітувати по збору на РЕБ!
Ми тримаємось, бо ми є один в одного!

Пристрій було замовлено, доставлено і вчора протестовано хлопцями. За що вам всім велика подяка. 🇺🇦
अधिक कार्यक्षमता अनलॉक करने के लिए लॉगिन करें।