Иногда эти ошибки оборачиваются небольшими багами, а иногда — глобальным даунтаймом, потерей данных и увольнениями.
Кто-то учится на своих ошибках. Кто-то — на чужих. Второй путь выгоднее, потому что цена собственной ошибки может быть слишком высокой. Даже один неверный шаг может стоить бизнесу репутации, денег и клиентов. GitLab удалил продовую базу и потерял данные.
Amazon S3 уронил половину интернета. А в «МТС» инженер случайно заблокировал внутреннюю сеть.
В IT многое уже было — не надо изобретать грабли. Сложные архитектуры, API, процессы деплоя и мониторинга — почти всё уже пробовали другие команды. Велосипеды уже изобретены. Даже в нейросетях не было глобального прорыва логики. Да, можно делать по-своему. Но эффективнее — адаптировать то, что уже доказало свою состоятельность.
Ошибки 2000-х до сих пор живут в каждом втором проекте. А значит, регулярное чтение постмортемов, багрепортов и технических разборов — это профилактика слепоты.
Если что, постмортем — это документ, где описывается инцидент, его разрешение и меры, которые можно принять, чтобы такого больше не повторилось.
Культура постмортемов — основа инженерной зрелости. В сильных командах ошибки не замалчиваются. Их разбирают. Google пишет постмортемы по каждому инциденту. Netflix выкладывает открытые отчёты с причинами и действиями. Так создаётся среда, в которой не боятся ошибиться — и постоянно учатся.
Джун, который читает фейлы Google, Netflix, Yandex и смотрит на то, как они с этим справились, прокачивается быстрее. Он уже знает, что бывает. Это ускоряет путь от «делать как умею» к «делать как надо».
Команда, в которой учатся на ошибках — быстрее договаривается, легче приоритизирует риски и понимает, зачем нужны процессы.
Если однажды релиз сорвался из-за неотключенного кэша — на следующий день это фиксируется в чек-листе.
Если баги долго не исправлялись — появляется SLA.
В GitLab (2017) — случайно удалили продовую базу. 8 часов восстановления, потеря данных. Бэкапы не работали. https://habr.com/ru/articles/320988/
Knight Capital (2012) — баг в алгоритме трейдинга уничтожил компанию. $460 млн убытка за 45 минут. https://tproger.ru/news/–samyj-dorogoj-kompyuternyj-bag-v-istorii—5-18-mln-sek—8-65-mlrd-za-28-minut
NASA (1999) — зонд разбился из-за разных единиц измерения. Фунты против ньютонов. Ущерб — $327 млн. https://habr.com/ru/articles/399529/
Amazon S3 (2017) — удалили важную часть инфраструктуры. Половина интернета была недоступна. https://habr.com/ru/articles/322932/
Facebook (2021) — удалили маршруты BGP. Компания ушла из интернета на 6 часов. https://habr.com/ru/companies/flant/articles/581560/
Вместо итога. Ошибки — это нормально. Но жить в цикле «наступил на грабли — сделал вывод» — долго и дорого.
Развиваться быстрее можно только одним способом: 📌 Системно изучать чужие ошибки. Разбирать. Делать выводы. И не повторять.