SRE doing Chaos Engineering
*본 과정은 삼성전자 무선사업부 클라우드팀의 김선학님이 베스피니어 대상으로 진행해주신 내부 강의입니다.
장애를 고치기 위해 허락된 시간은 단 4분.
새벽에 장애가 발생한다면 4분 안에 그것을 바로잡을 수 있을까?
Alert Now 알람에 우선 한번에 일어나야 하고, 컴퓨터를 켜야 하고, 로그인해서 분석하는 시간만 해도 4분 이상의 시간이 걸린다. 사람이 4분 안에 장애를 고치기엔 한계가 있다.
그렇다면 내 서비스의 SLA를 99.9%로 만드는 일은 과연 불가능할까?
이런 상황에서 구글이나 넷플릭스와 같이 문제를 해결할 수 있다면 좋겠지만, 쉽지 않습니다. 구글이나 넷플릭스의 문화와 현재 회사의 문화는 다르기 때문입니다.
중요한 것은 자신과 맞던 잘 맞지 않던, 현재 소속되어 있는 회사의 문화를 이해하고 그 속에서 어떻게 문제를 해결할 수 있을지 고민을 하는 것이라고 선학님은 강조하셨습니다.
남들이 하는 엔지니어링을 할 줄 아는 것도 중요하지만, 소속된 회사의 문화에 맞는 엔지니어링을 고민하다보면 Chaos Engineering과 같은 것이 얼마든지 탄생할 수 있다고 합니다.
*이 외에도 강의를 통해 아래의 내용도 확인해보실 수 있습니다.
– 실리콘벨리에서 SRE Engineer에게 요구하는 덕목
– 명확한 SLO의 정의가 중요한 이유
– VALET Dashboard
– 문제 해결을 위해 고려해야 할 3가지 회사 문화
– Chaos Engineer의 특징
– Extreme Automation
– 기술 선택 시 꼭 고려해야될 점
– 진정한 의미의 엔지니어링이란?
– 지금 하는 엔지니어링을 꾸준히 해야 하는 이유
– QA Ops
– 2020년 이후의 Ops는?
-Discussion: 엔지니어의 미래
[Original Agenda]
SRE
• Key Qualifications
• SLO/SLIs
• Centralized Logging
• VALET Dashboard
• Escalation policy for SLO
Culture
• SW vs HW
• A view from C.
• Reality In us
Chaos
• Implements DevOps
• Extreme Automation
• Classification of experiments
• Challenge SLO
Course Features
- Lectures 1
- Quizzes 0
- Duration 50 hours
- Skill level All levels
- Language Korean
- Students 38
- Certificate No
- Assessments Yes
-
SRE doing Chaos Engineering