
QAMania
Ламповий блог про тестування, пишемо про те, що нам цікаво та власний досвід.
А ще в нас є
🌐 https://qamania.org
📺 https://youtube.com/@QAMania
А ще в нас є
🌐 https://qamania.org
📺 https://youtube.com/@QAMania
TGlist рейтинг
0
0
ТипАчык
Текшерүү
ТекшерилбегенИшенимдүүлүк
ИшенимсизОрдуУкраїна
ТилиБашка
Канал түзүлгөн датаAug 13, 2024
TGlistке кошулган дата
Jul 06, 2023Тиркелген топ
Катталгандар
4 429
24 саат00%Жума
50.1%Ай
581.3%
Цитация индекси
200
Эскерүүлөр2Каналдарда бөлүштү0Каналдарда эскерүүлөр2
1 посттун орточо көрүүлөрү
962
12 саат462
42.1%24 саат9620%48 саат1 0070%
Катышуу (ER)
5.82%
Кайра посттошту0Комментарийлер0Реакциялар56
Көрүүлөр боюнча катышуу (ERR)
21.72%
24 саат0%Жума
4.46%Ай
0.51%
1 жарнама посттун орточо көрүүлөрү
962
1 саат24325.26%1 – 4 саат14114.66%4 - 24 саат23224.12%
Акыркы 24 саатта бардык посттор
1
Динамика
1
"QAMania" тобундагы акыркы жазуулар
Кайра бөлүшүлгөн:
Hot testing Channel

16.04.202510:02
🚀 Я з величезним захопленням оголошую відкриття реєстрації на мій стартап — CYBORG TESTS! 🤖
Зустрічайте CyborgTests — революційну платформу, яка поєднує ручні, автоматизовані та AI-тести в єдиний та зручний процес!
🔍 Чому саме CyborgTests?
🧩 Усі тести в одному місці: Ручні, автоматизовані, AI та кіборг-тести пишуться прямо в коді, тож більше не потрібно окремих систем управління тестами (допобачення TestRail)!
🛠️ Є тести, які неможливо повністю автоматизувати? Не біда! Тепер ти можеш автоматизувати все аж до моменту, де автоматизація неможлива (наприклад, перевірка якості відеодзвінків), повністю автоматизуючи всі прекондішини (логін, початок дзвінка тощо).
⚙️ Playwright всередині: Використовуй можливості найсучаснішого фреймворку Playwright для надійних і потужних автоматизованих тестів!
🤖 AI на повну: Використовуй силу штучного інтелекту, щоб вивести тестування на новий рівень і звільнити тестувальників для більш цікавих та складних сценаріїв!
📊 Все в одному звіті: Отримуй єдині звіти, які містять результати всіх видів тестування (ручного, автоматичного, аі і кіборг-тестування), з підтримкою паралельного запуску та шардингу!
CyborgTests допомагає QA-командам стати ефективнішими, прибирає зайву роботу та значно прискорює процес випуску релізів!
🔗 Дізнавайся більше та реєструйся на ранній доступ тут: https://www.cyborgtests.com/
Зустрічайте CyborgTests — революційну платформу, яка поєднує ручні, автоматизовані та AI-тести в єдиний та зручний процес!
🔍 Чому саме CyborgTests?
🧩 Усі тести в одному місці: Ручні, автоматизовані, AI та кіборг-тести пишуться прямо в коді, тож більше не потрібно окремих систем управління тестами (допобачення TestRail)!
🛠️ Є тести, які неможливо повністю автоматизувати? Не біда! Тепер ти можеш автоматизувати все аж до моменту, де автоматизація неможлива (наприклад, перевірка якості відеодзвінків), повністю автоматизуючи всі прекондішини (логін, початок дзвінка тощо).
⚙️ Playwright всередині: Використовуй можливості найсучаснішого фреймворку Playwright для надійних і потужних автоматизованих тестів!
🤖 AI на повну: Використовуй силу штучного інтелекту, щоб вивести тестування на новий рівень і звільнити тестувальників для більш цікавих та складних сценаріїв!
📊 Все в одному звіті: Отримуй єдині звіти, які містять результати всіх видів тестування (ручного, автоматичного, аі і кіборг-тестування), з підтримкою паралельного запуску та шардингу!
CyborgTests допомагає QA-командам стати ефективнішими, прибирає зайву роботу та значно прискорює процес випуску релізів!
🔗 Дізнавайся більше та реєструйся на ранній доступ тут: https://www.cyborgtests.com/
14.04.202517:25
Сьогодні я був в суді
Привіт друзі! Новина не про тестування, але дуже чутлива для мене. Пам'ятаєте, 2 роки тому ми разом зібрали на Мавік для 18 ОБМП, але поставник мене кинув?
Ось мій пост про це - https://dou.ua/forums/topic/46184/
Минулого тижня отримав повістку в суд по цій справі (хоча пройшло 2 роки і я думав, що правосуддя не дочекаюсь). Сьогодні був на першому засіданні. 2/3 учасників схеми на лаві підсудних. Одна - в міжнародному розшуку.
Якщо будуть суттєві зрушення - імовірно напишу про це.
Якщо хочете знати, як виглядає засідання суду - уявіть собі, що на мітинг зібрали всіх можливих людей, потім почали шукати вільний мітинг-рум (залу засідань). Потім - знайомство учасників і вирішення 2 питань - чи всім ок тут бути і коли зібратись на наступний мітинг. На все про все 4 години.
Типовий дейлік в ентерпрайз проєкті 😁
Привіт друзі! Новина не про тестування, але дуже чутлива для мене. Пам'ятаєте, 2 роки тому ми разом зібрали на Мавік для 18 ОБМП, але поставник мене кинув?
Ось мій пост про це - https://dou.ua/forums/topic/46184/
Минулого тижня отримав повістку в суд по цій справі (хоча пройшло 2 роки і я думав, що правосуддя не дочекаюсь). Сьогодні був на першому засіданні. 2/3 учасників схеми на лаві підсудних. Одна - в міжнародному розшуку.
Якщо будуть суттєві зрушення - імовірно напишу про це.
Якщо хочете знати, як виглядає засідання суду - уявіть собі, що на мітинг зібрали всіх можливих людей, потім почали шукати вільний мітинг-рум (залу засідань). Потім - знайомство учасників і вирішення 2 питань - чи всім ок тут бути і коли зібратись на наступний мітинг. На все про все 4 години.
Типовий дейлік в ентерпрайз проєкті 😁
11.04.202507:50
⭐️ Неочікуваний звіт
Привіт друзі! Зазвичай я звертаюсь до вас про допомогу, коли не маю можливості самостійно закрити запити від військових. Всі відносно дрібні запити намагаюсь закрити самотужки, бо так швидше і простіше для мене, і звітувати ні перед ким не треба.
Але тут вирішив поділитись гарною історією. Торік ми з Михайлом проводили платний вебінар, щоб зібрати кошти на детектори Кара-Даг. Нещодавно зі мною зв'язались виробники, щоб отримати зворотній зв'язок. І повідомили, що вони розширили виробничі потужності і взагалі, якщо в нас є потреба - один детектор вони поставлять безкоштовно, бо його вже оплатили спонсори/волонтери. Я перепитав у командування 18 ОБМП і замовив ще 3 пристрої, оплативши тільки 2 🔥
Зазвичай в таких випадках мені достатньо отримати в сігналі
але цього разу хлопці навіть відео записали, тож чом би не поділитись
Як багато хто, я сам дуже пригнічений через новини і тривоги, але розуміння, що я корисний - допомагає рухатись далі! Тримайтесь, підтримуйте друзів в ЗСУ і в тилу, ми є один в одного!
Привіт друзі! Зазвичай я звертаюсь до вас про допомогу, коли не маю можливості самостійно закрити запити від військових. Всі відносно дрібні запити намагаюсь закрити самотужки, бо так швидше і простіше для мене, і звітувати ні перед ким не треба.
Але тут вирішив поділитись гарною історією. Торік ми з Михайлом проводили платний вебінар, щоб зібрати кошти на детектори Кара-Даг. Нещодавно зі мною зв'язались виробники, щоб отримати зворотній зв'язок. І повідомили, що вони розширили виробничі потужності і взагалі, якщо в нас є потреба - один детектор вони поставлять безкоштовно, бо його вже оплатили спонсори/волонтери. Я перепитав у командування 18 ОБМП і замовив ще 3 пристрої, оплативши тільки 2 🔥
Зазвичай в таких випадках мені достатньо отримати в сігналі
++, отримали
але цього разу хлопці навіть відео записали, тож чом би не поділитись
Як багато хто, я сам дуже пригнічений через новини і тривоги, але розуміння, що я корисний - допомагає рухатись далі! Тримайтесь, підтримуйте друзів в ЗСУ і в тилу, ми є один в одного!


10.04.202515:37
💪🏻 Якщо ми на дні — то далі шлях тільки вгору. Як пережити скорочення і знайти нову роботу
Привіт друзі! Поки готував доповідь на DOU Day - назбирав купу матеріалу, дуже цікавого, але який фізично не можна було б вмістити в 30-хв доповідь. Тож за порадою програмного комітету все, що не вмістилось у доповідь, я описав у вигляді статті - https://dou.ua/goto/HtXc
Про що написав:
✅ короткий переказ того, як я шукав роботу
✅ статистика з опитування людей, що опинились в аналогічній ситуації
Про що буде доповідь:
✅ що ми, як спеціалісти, можемо зробити, щоб працювати ефективніше
✅ як нашу ефективність грамотно описати в CV
Привіт друзі! Поки готував доповідь на DOU Day - назбирав купу матеріалу, дуже цікавого, але який фізично не можна було б вмістити в 30-хв доповідь. Тож за порадою програмного комітету все, що не вмістилось у доповідь, я описав у вигляді статті - https://dou.ua/goto/HtXc
Про що написав:
✅ короткий переказ того, як я шукав роботу
✅ статистика з опитування людей, що опинились в аналогічній ситуації
Про що буде доповідь:
✅ що ми, як спеціалісти, можемо зробити, щоб працювати ефективніше
✅ як нашу ефективність грамотно описати в CV
10.04.202513:58
📣 Збір для активного учасника нашої спільноти на авто для механіків ракетно-артилерійського підрозділу ЗСУ
🎯 Ціль: 200 000 грн
Допомогти можна переказом:
Синенко Ірина Олександрівна
https://send.monobank.ua/jar/7VVsJdWbw4
4441111123438719 - банка моно,або
IBAN: UA713220010000026200356409105
Дякую за кожну гривню і репост!
Посилання на пост збору: https://www.facebook.com/100006089448894/posts/3828737010672576/?mibextid=wwXIfr&rdid=bIMrzETIzZ2CKVkF#
Мій брат — військовий механік. Разом із побратимами він часто виїжджає на різні гарячі напрямки, щоб тримати техніку ЗСУ в строю. Їхня робота — рятувати пошкоджену техніку, лагодити її просто в полях, часто — під обстрілами, по бездоріжжю, вдень і вночі.
Їм потрібен пікап або бус, щоб мати змогу швидко виїжджати на виклики.
Цей автомобіль стане робочою конячкою, яка дозволить зберегти десятки одиниць бойової техніки — а отже, і життя наших захисників.
🎯 Ціль: 200 000 грн
Допомогти можна переказом:
Синенко Ірина Олександрівна
https://send.monobank.ua/jar/7VVsJdWbw4
4441111123438719 - банка моно,або
IBAN: UA713220010000026200356409105
Дякую за кожну гривню і репост!
Посилання на пост збору: https://www.facebook.com/100006089448894/posts/3828737010672576/?mibextid=wwXIfr&rdid=bIMrzETIzZ2CKVkF#


08.04.202509:03
Трохи про ORM
Привіт друзі! Тільки вчора нажалівся вам, що не маю з ким поговорити про код, який я пишу, тож поділюсь із вами, бо нарешті маю трохи вільного часу 😃
В програмуванні є різні підходи до роботи з базами даних - можна написати код, який просто виконує SQL запити. А можна використати ORM (Object-relational mapping) - технологію, що зв'язує кожен запис в табліці БД з відповідним об'єктом. Як от
Це зручно для розробника:
🟢створив об'єкт - додався запис в базу
🟢змінив - і зміни вже там
🟢видалив - ви зрозуміли
🟢а працювати з даними з пов'язаних таблиць - дуже просто і приємно!
Але на практиці і я, і багато моїх колег і знайомих все ще частіше користуємось старим добрим SQL в коді. Тому що
І от, нещодавно в мене з'явилась задача написати тести, що використовують дані з 10+ нових таблиць, при чому в коді вже був написаний абстрактний шар коду з SQL на інші 10 таблиць. І я вирішив спробувати мігрувати все на ORM, щоб дізнатись, наскільки це складно і довго насправді.
Пишу на Python і обрав для роботи одну з найпопулярніших ORM - SQLAlchemy.
✅ По-перше, я стоврив моделі - скопіював структуру таблиць у вигляді SQL запитів (будь-який редактор таке вміє) і попросив Copilot згенерувати мені моделі. На все витратив десь годину
✅ По-друге, переписав існуючі функції, що читали чи модифікували дані, замінюючи SQL відповідними моделями. Витратив ще годину.
✅ По-третє, написав нові функції вже на нові таблиці. Їх було багато, тож 2 години.
✅ Запустив тести, щоб перевірити, чи нічого не зламав, пофіксив кілька перетворень типів і все! На повну міграцію я витратив менше 1 дня! Проте тепер і я, і інші інженери використовують ці моделі для швидкого написання інтеграційних тестів для перевірки прототипів. Код став красивіший і зрозуміліший.
Тож якщо ви сумніваєтесь - рекомендую спробувати. З ШІ це питання годин, а не днів😉
Привіт друзі! Тільки вчора нажалівся вам, що не маю з ким поговорити про код, який я пишу, тож поділюсь із вами, бо нарешті маю трохи вільного часу 😃
В програмуванні є різні підходи до роботи з базами даних - можна написати код, який просто виконує SQL запити. А можна використати ORM (Object-relational mapping) - технологію, що зв'язує кожен запис в табліці БД з відповідним об'єктом. Як от
User(id=1, name="John", age=30)
буде відповідати запису в SQL таблиці з трьома колонками з відповідними іменами.Це зручно для розробника:
🟢створив об'єкт - додався запис в базу
🟢змінив - і зміни вже там
🟢видалив - ви зрозуміли
🟢а працювати з даними з пов'язаних таблиць - дуже просто і приємно!
Але на практиці і я, і багато моїх колег і знайомих все ще частіше користуємось старим добрим SQL в коді. Тому що
та там щось складно, це ж розбиратись треба
ну ми вже багато написали, переписувати довго буде
а якщо щось зміниться, як мігрувати?
І от, нещодавно в мене з'явилась задача написати тести, що використовують дані з 10+ нових таблиць, при чому в коді вже був написаний абстрактний шар коду з SQL на інші 10 таблиць. І я вирішив спробувати мігрувати все на ORM, щоб дізнатись, наскільки це складно і довго насправді.
Пишу на Python і обрав для роботи одну з найпопулярніших ORM - SQLAlchemy.
✅ По-перше, я стоврив моделі - скопіював структуру таблиць у вигляді SQL запитів (будь-який редактор таке вміє) і попросив Copilot згенерувати мені моделі. На все витратив десь годину
✅ По-друге, переписав існуючі функції, що читали чи модифікували дані, замінюючи SQL відповідними моделями. Витратив ще годину.
✅ По-третє, написав нові функції вже на нові таблиці. Їх було багато, тож 2 години.
✅ Запустив тести, щоб перевірити, чи нічого не зламав, пофіксив кілька перетворень типів і все! На повну міграцію я витратив менше 1 дня! Проте тепер і я, і інші інженери використовують ці моделі для швидкого написання інтеграційних тестів для перевірки прототипів. Код став красивіший і зрозуміліший.
Тож якщо ви сумніваєтесь - рекомендую спробувати. З ШІ це питання годин, а не днів😉


07.04.202515:20
❤️ Люди дають натхнення
Привіт всім! Я дуже мало пишу останнім часом. Льоша-менеджер писав набагато більше і різноманітніше, ніж Льоша-інженер. Я сам це розумію, але ніц не можу з цим зробити. Не тому, що "втомився" чи стало не цікаво. Просто стало менше тем, якими хотілося б поділитись.
Зараз мій типовий робочий день - подивитись статус автотестів в пайплайні, проаналізувати баги, якщо вони є і далі - кодити нові автотести. Раніше я спілкувався з багатьма людьми: тестерами, розробниками, аналітиками, менеджерами і замовниками. Консультував і вирішував проблеми. Я не стверджую, що одна робота цікавіша за іншу, але я сумую за людьми! Спілкування дає натхнення!
В мене вже разів з 10 було - придумав і запрограмував дуже крутий алгоритм, який не просто вирішує задачу, а ще й робить це ефективно по часу і ресурсам, і код красиво виглядає. А похвалитися нема кому - якщо в коді нема проблем, то мій Pool Request просто заапрувлять.
Це я все до чого! Цінуйте ваших колег, корисні мітинги і можливість просто поточити ляси з колегами 🫰
Привіт всім! Я дуже мало пишу останнім часом. Льоша-менеджер писав набагато більше і різноманітніше, ніж Льоша-інженер. Я сам це розумію, але ніц не можу з цим зробити. Не тому, що "втомився" чи стало не цікаво. Просто стало менше тем, якими хотілося б поділитись.
Зараз мій типовий робочий день - подивитись статус автотестів в пайплайні, проаналізувати баги, якщо вони є і далі - кодити нові автотести. Раніше я спілкувався з багатьма людьми: тестерами, розробниками, аналітиками, менеджерами і замовниками. Консультував і вирішував проблеми. Я не стверджую, що одна робота цікавіша за іншу, але я сумую за людьми! Спілкування дає натхнення!
В мене вже разів з 10 було - придумав і запрограмував дуже крутий алгоритм, який не просто вирішує задачу, а ще й робить це ефективно по часу і ресурсам, і код красиво виглядає. А похвалитися нема кому - якщо в коді нема проблем, то мій Pool Request просто заапрувлять.
Це я все до чого! Цінуйте ваших колег, корисні мітинги і можливість просто поточити ляси з колегами 🫰


03.04.202511:41
Тачка для десантників 🛻
#збір
Мало хто знає, але на початку в цьому каналі крім Льоши і мене було ще декілька адмінів, які теж троха писали, але потім запал пропав.
Проте не пропав запал підтримувати своїх, на фронті.
Зараз наш друг, й в далекому минулому теж адмін цього каналу, разом з фондом збирає на автівку для підрозділу свого Бро.
Його брат – ще до повномасштабного вторгнення він ніс службу у ЗСУ та пройшов АТО. У перший рік великої війни він готував бойові літаки до вильоту в одній із бригад тактичної авіації. Згодом, змінив кілька військових професій і нині служить штаб-сержантом у 77 ОАЕМБр на куп'янському напрямку.
Зараз у його підрозділі вкрай критична ситуація з транспортом: автівок находу не залишилося. Тому ми відкриваємо збір на автівку для Бро! Щоб хлопці й дівчата могли ефективно виконувати бойові завдання.
Тож і ми спробуємо допомогти чим зможемо.
🫙Моно-банка https://send.monobank.ua/jar/3b8DB7T97M
Маленьких донатів не буває!
Наперед велике Дякуємо! 💛💙
#збір
Мало хто знає, але на початку в цьому каналі крім Льоши і мене було ще декілька адмінів, які теж троха писали, але потім запал пропав.
Проте не пропав запал підтримувати своїх, на фронті.
Зараз наш друг, й в далекому минулому теж адмін цього каналу, разом з фондом збирає на автівку для підрозділу свого Бро.
Його брат – ще до повномасштабного вторгнення він ніс службу у ЗСУ та пройшов АТО. У перший рік великої війни він готував бойові літаки до вильоту в одній із бригад тактичної авіації. Згодом, змінив кілька військових професій і нині служить штаб-сержантом у 77 ОАЕМБр на куп'янському напрямку.
Зараз у його підрозділі вкрай критична ситуація з транспортом: автівок находу не залишилося. Тому ми відкриваємо збір на автівку для Бро! Щоб хлопці й дівчата могли ефективно виконувати бойові завдання.
Тож і ми спробуємо допомогти чим зможемо.
🫙Моно-банка https://send.monobank.ua/jar/3b8DB7T97M
Маленьких донатів не буває!
Наперед велике Дякуємо! 💛💙


31.03.202509:01
Я буду на DOU Day 2025
Привіт друзі! Цього року я виступатиму на Dou Day!
Буду розказувати про скорочення, як ефективніше шукати роботу не тільки з власного досвіду, а ще й базуючись на статистиці і відгуках опитування, що я проводив раніше.
Минулого року я був в захваті від організації події - цього року вона має бути ще крутіша, ще масштабніша, ще цікавіша!
Тож не пропустіть!
Привіт друзі! Цього року я виступатиму на Dou Day!
Буду розказувати про скорочення, як ефективніше шукати роботу не тільки з власного досвіду, а ще й базуючись на статистиці і відгуках опитування, що я проводив раніше.
Минулого року я був в захваті від організації події - цього року вона має бути ще крутіша, ще масштабніша, ще цікавіша!
Тож не пропустіть!


Кайра бөлүшүлгөн:
DOU

28.03.202508:48
Тестувальниця, яку вже три роки утримують росіяни, звернулася до української влади
https://dou.ua/goto/c194
Публікуємо продовження історії Ірини Горобцової — тестувальниці з Херсона, яку росіяни викрали і засудили до десяти з половиною років ув’язнення. Колеги і рідні розповіли, як справи в Ірини, та передали редакції листа, з яким айтівиця звернулася до української влади. З дозволу рідних ми публікуємо його текст.
https://dou.ua/goto/c194
Публікуємо продовження історії Ірини Горобцової — тестувальниці з Херсона, яку росіяни викрали і засудили до десяти з половиною років ув’язнення. Колеги і рідні розповіли, як справи в Ірини, та передали редакції листа, з яким айтівиця звернулася до української влади. З дозволу рідних ми публікуємо його текст.


27.03.202511:31
OpenAI Academy
#learnit #ai
Тут OpenAI курси свої відкрила на широкий загал пару днів тому в свіжествореній Академії.
Виглядає дуже корисно.
Вже є 40+ лекцій, організованих в декілька потоків.
Я собі вже курс підібрав :) І ви не баріться ;)
#learnit #ai
Тут OpenAI курси свої відкрила на широкий загал пару днів тому в свіжествореній Академії.
Виглядає дуже корисно.
Вже є 40+ лекцій, організованих в декілька потоків.
Я собі вже курс підібрав :) І ви не баріться ;)


07.03.202509:11
Метатести для LLM або хто потестить тести
#ai #bugseverywhere
Всіх давно вже цікавить питання: коли ж AI замінить нас на роботі. І надто це питання цікавить розробників. Проте в конструктивному руслі: "коли AI почне фіксити нудні баги замість нас, а ми нарешті зможемопродовжувати їх створювати більше творити?".
Для відповіді на це питання існують різні методології оцінювання ефективності LLM на реальних задачах, зокрема от й на задачах по багфіксу. Одна з найвідоміших - SWE-bench.
Якщо коротко, то SWE-bench - це набір даних, який перевіряє здатність AI агентів автоматично виправляти реальні баги на GitHub. 2,294 GitHub issues з 12 популярних Python репозиторіїв та unit тести для перевірки багфіксів - дозволяють отримати конкретну числову оцінку для того чи іншого поєднання агента та LLM.
Наприклад найспроможніший агент на даний момент на "Verified" наборі - AI Programming Agent від Weights & Biases, який спромігся пофіксити 64,6% багів.
Але є одне але. А що там з тестами, тобто з багами?
Іншими словами: а чи перевіряв хтось, крім авторів SWE-bench релевантність цього датасету, на якому оцінюють здатність LLM агентів фіксити реальні баги?
Такі дослідники знайшлись. Й перевірили SWE-bench датасет на відповідність поставленій задачі.
Жодним чином не піддаючи сумніву важливість цього бенчу і йому подібних - лише вказуючи й пропонуючи можливості покращення методології оцінки LLM агентів.
TL;DR
Автори дослідження з'ясували що більшість "успішних" патчів для GitHub issues з SWE-bench набору - насправді сильно під питанням, бо третина з цих issues містила правильний фікс в коментарях до issue, ще третина мали трохи неадекватні тести для того щоб перевірити фікс, тобто тести зеленіли не тому що проблему було реально пофікшено, а тому що в пулреквесті містився код на якому тести зеленіють :) Таким чином дві третини "фіксів" від LLM coding assistants дуже під питанням.
Потім автори дослідження ще упоролись й дослідили чи входять потенційно фікси від цих issue в дані, на яких міг навчатись LLM, переробили тестовий датасет таким чином щоб були тільки GitHub issues створені точно пізніше ніж зріз навчання LLM - і тоді ефективність фіксів дропнулась взагалі до лічених відсотків: у найкращої моделі на той момент, chatGPT 4o - з 18,8% на "Full" датасеті до 3,83%!
Висновки:
Забавно що тести це баги, але не дуже забавно те що тести з багами :)
Або іншими словами: тестові дані - наше всьо, і від їх якості залежить якість результатів, які ми хочемо і можемо отримати від LLM.
Щодо фіксу реальних багів - поки що "такоє"..
Якщо когось прям от сильно зацікавило, то ось додаткові посилання:
1) сама стаття: link
2) відео на ютубчику з розбором статті: link
А у вас як? Що ви фіксите за допомогою LLM?
Діліться в коментах! Всім справді цікаво!
#ai #bugseverywhere
Всіх давно вже цікавить питання: коли ж AI замінить нас на роботі. І надто це питання цікавить розробників. Проте в конструктивному руслі: "коли AI почне фіксити нудні баги замість нас, а ми нарешті зможемо
Для відповіді на це питання існують різні методології оцінювання ефективності LLM на реальних задачах, зокрема от й на задачах по багфіксу. Одна з найвідоміших - SWE-bench.
Якщо коротко, то SWE-bench - це набір даних, який перевіряє здатність AI агентів автоматично виправляти реальні баги на GitHub. 2,294 GitHub issues з 12 популярних Python репозиторіїв та unit тести для перевірки багфіксів - дозволяють отримати конкретну числову оцінку для того чи іншого поєднання агента та LLM.
Наприклад найспроможніший агент на даний момент на "Verified" наборі - AI Programming Agent від Weights & Biases, який спромігся пофіксити 64,6% багів.
Але є одне але. А що там з тестами, тобто з багами?
Іншими словами: а чи перевіряв хтось, крім авторів SWE-bench релевантність цього датасету, на якому оцінюють здатність LLM агентів фіксити реальні баги?
Такі дослідники знайшлись. Й перевірили SWE-bench датасет на відповідність поставленій задачі.
Жодним чином не піддаючи сумніву важливість цього бенчу і йому подібних - лише вказуючи й пропонуючи можливості покращення методології оцінки LLM агентів.
TL;DR
Автори дослідження з'ясували що більшість "успішних" патчів для GitHub issues з SWE-bench набору - насправді сильно під питанням, бо третина з цих issues містила правильний фікс в коментарях до issue, ще третина мали трохи неадекватні тести для того щоб перевірити фікс, тобто тести зеленіли не тому що проблему було реально пофікшено, а тому що в пулреквесті містився код на якому тести зеленіють :) Таким чином дві третини "фіксів" від LLM coding assistants дуже під питанням.
Потім автори дослідження ще упоролись й дослідили чи входять потенційно фікси від цих issue в дані, на яких міг навчатись LLM, переробили тестовий датасет таким чином щоб були тільки GitHub issues створені точно пізніше ніж зріз навчання LLM - і тоді ефективність фіксів дропнулась взагалі до лічених відсотків: у найкращої моделі на той момент, chatGPT 4o - з 18,8% на "Full" датасеті до 3,83%!
Висновки:
Забавно що тести це баги, але не дуже забавно те що тести з багами :)
Або іншими словами: тестові дані - наше всьо, і від їх якості залежить якість результатів, які ми хочемо і можемо отримати від LLM.
Щодо фіксу реальних багів - поки що "такоє"..
Якщо когось прям от сильно зацікавило, то ось додаткові посилання:
1) сама стаття: link
2) відео на ютубчику з розбором статті: link
А у вас як? Що ви фіксите за допомогою LLM?
Діліться в коментах! Всім справді цікаво!
01.03.202511:40
#звіт за РЕБ
Привіт друзі! Новини останнього дня, м'яко кажучи, погані. Руки опускаються.
Тож, щоб трохи нас всіх розкрутити, хочу відзвітувати по збору на РЕБ!
Ми тримаємось, бо ми є один в одного!
Пристрій було замовлено, доставлено і вчора протестовано хлопцями. За що вам всім велика подяка. 🇺🇦
Привіт друзі! Новини останнього дня, м'яко кажучи, погані. Руки опускаються.
Тож, щоб трохи нас всіх розкрутити, хочу відзвітувати по збору на РЕБ!
Ми тримаємось, бо ми є один в одного!
Пристрій було замовлено, доставлено і вчора протестовано хлопцями. За що вам всім велика подяка. 🇺🇦








+2
Кайра бөлүшүлгөн:
DOU

24.02.202512:14
У третю річницю повномасштабної війни ми запускаємо “Меморіал IT-спільноти”. Це проєкт DOU, де ми вшановуємо загиблих айтівців у російсько-українській війні. Тут зібрані короткі біографії військових, які віддали життя за Україну, а також цивільних, які загинули від рук росіян. Нехай ніхто не буде забутий.
Дякуємо агенції Artycoders за розробку і дизайн проєкту.
Дякуємо агенції Artycoders за розробку і дизайн проєкту.


05.02.202514:57
🗣 Сороміцька співбесіда і пріоритети
Привіт друзі! Настав час розказати вам про співбесіду, за яку мені було реально соромно, але яка допомогла мені чіткіше визначити свої пріоритети пошуку роботи.
У вільний час я іноді пишу код не тільки на Python, але й на JS/TS - чи то просто з цікавості, коли прочитав про якусь прикольну бібліотеку, чи, щоб PoC зробити для порівняння. Тож, коли я почав шукати роботу, я написав створив собі новий проєкт у VS Code і переписав свої автотести для домашнього проєкту з Python на TS. І оскільки було не складно, я вирішив розширити свій пошук не тільки тест менеджментом і автоматизацією на Python, а ще й на JS.
І навіть отримав кілька запрошень на співбесіди! Одну навіть пройшов. Що ж могло піти не так?
Запросили мене на співбесіду в одну велику компанію, на мітинг прийшло кілька хлопців, які знали, хто я, а я знав одного з них. Тож отримав до себе заздалегідь дуже гарне ставлення. Вони запропонували мені live-coding сессію, я почав писати код. І тільки тут я зрозумів, що я взагалі нічого не знаю про TS, а все, що було написано раніше - працює суто випадково 😄 Задачі, що хлопці питали - прості для них, виявились невирішуваними для мене. З підказками я зробив одну, скіпнув другу, але, оскільки ставлення до мене було дуже хороше, мене всіляко підбадьорювали ❤️ і пропонували написати ще кілька прикладів.
І ось, зробивши третю задачу, запускаю код і він не працює через синтаксичну помилку. Але VS Code не може сказати, де саме вона, тому що рішення було написани в найкращих традиціях JS/TS і код закінчувався чимось типу )))})})}}))}}} Кілька разів безуспішно його зарефакторивши, ми всі разом вирішили, що простіше ресетнути задачу і написати її з нуля - тільки тоді вона запрацювала. Але саме в цей момент я усвідомив, що мені це не подобається і я точно не хочу наступний рік колупати дужки.
Тож я зробив те єдине, що могло покращити цю співбесіду - попросив пробачення за витрачений час; подякував хлопцям за чудову співбесіду і нереальний рівень довіри та підтримки; і завершив її. Після чого відмінив всі подальші інтерв'ю по JS/TS і прибрав ці мови з пошукових фільтрів.
Дуже вдячний, що в результаті я чітко зміг побачити для себе не просто те, що я хочу робити з задоволенням а й те, чого я точно робити не хочу:)
А які у вас були фейли на співбесідах?
Привіт друзі! Настав час розказати вам про співбесіду, за яку мені було реально соромно, але яка допомогла мені чіткіше визначити свої пріоритети пошуку роботи.
У вільний час я іноді пишу код не тільки на Python, але й на JS/TS - чи то просто з цікавості, коли прочитав про якусь прикольну бібліотеку, чи, щоб PoC зробити для порівняння. Тож, коли я почав шукати роботу, я написав створив собі новий проєкт у VS Code і переписав свої автотести для домашнього проєкту з Python на TS. І оскільки було не складно, я вирішив розширити свій пошук не тільки тест менеджментом і автоматизацією на Python, а ще й на JS.
І навіть отримав кілька запрошень на співбесіди! Одну навіть пройшов. Що ж могло піти не так?
Запросили мене на співбесіду в одну велику компанію, на мітинг прийшло кілька хлопців, які знали, хто я, а я знав одного з них. Тож отримав до себе заздалегідь дуже гарне ставлення. Вони запропонували мені live-coding сессію, я почав писати код. І тільки тут я зрозумів, що я взагалі нічого не знаю про TS, а все, що було написано раніше - працює суто випадково 😄 Задачі, що хлопці питали - прості для них, виявились невирішуваними для мене. З підказками я зробив одну, скіпнув другу, але, оскільки ставлення до мене було дуже хороше, мене всіляко підбадьорювали ❤️ і пропонували написати ще кілька прикладів.
І ось, зробивши третю задачу, запускаю код і він не працює через синтаксичну помилку. Але VS Code не може сказати, де саме вона, тому що рішення було написани в найкращих традиціях JS/TS і код закінчувався чимось типу )))})})}}))}}} Кілька разів безуспішно його зарефакторивши, ми всі разом вирішили, що простіше ресетнути задачу і написати її з нуля - тільки тоді вона запрацювала. Але саме в цей момент я усвідомив, що мені це не подобається і я точно не хочу наступний рік колупати дужки.
Тож я зробив те єдине, що могло покращити цю співбесіду - попросив пробачення за витрачений час; подякував хлопцям за чудову співбесіду і нереальний рівень довіри та підтримки; і завершив її. Після чого відмінив всі подальші інтерв'ю по JS/TS і прибрав ці мови з пошукових фільтрів.
Дуже вдячний, що в результаті я чітко зміг побачити для себе не просто те, що я хочу робити з задоволенням а й те, чого я точно робити не хочу:)
А які у вас були фейли на співбесідах?


Рекорддор
16.04.202510:59
4.4KКатталгандар23.04.202423:59
500Цитация индекси14.11.202323:59
2.9K1 посттун көрүүлөрү18.01.202521:56
1.5K1 жарнама посттун көрүүлөрү29.10.202423:59
11.79%ER14.11.202323:59
73.16%ERRӨнүгүү
Катталуучулар
Citation индекси
Бир посттун көрүүсү
Жарнамалык посттун көрүүсү
ER
ERR
Көбүрөөк функцияларды ачуу үчүн кириңиз.