Skip to main content

Staff Back-end Engineer (Site Reliability Engineering)

Location Seoul, South Korea
Updated

Description

Staff Back-end Engineer (Site Reliability Engineering)  

쿠팡은 고객 감동 실현을 위해 존재합니다. 고객들이 "쿠팡 없이 그동안 어떻게 살았을까?" 라고 말할 때, 비로소 우리의 미션을 실현하고 있음을 알 수 있습니다. 고객들의 쇼핑과 식사, 생활 전반을 편하게 만들겠다는 유일한 집념으로 쿠팡은 수억 달러 규모의 이커머스 산업 전반의 혁신을 이끌고 있습니다. 쿠팡은 가장 빠르게 성장하는 이커머스 기업 중 하나로, 국내 커머스 업계에서의 독보적인 입지와, 고객 신뢰를 구축했습니다. 

쿠팡은 스타트업 문화를 기반으로 한 글로벌 대형 상장사라고 자부합니다. 이것이 창립 당시의 기민함을 유지하며, 신규 서비스를 끊임없이 출시하며 비즈니스를 확장해 나가는 우리의 성장 동력입니다. 쿠팡의 모든 임직원에게는 기업가 정신을 갖추고 새로운 혁신과 이니셔티브를 추진할 수 있는 기회가 주어집니다. 주저 없이 일에 뛰어들어 성과를 이루고자 하는 과감성이, 바로 쿠팡이 일하는 방식의 본질입니다. 쿠팡에서는 여러분 자신, 동료, 팀 그리고 회사 전체가 매일 성장하는 모습을 목격할 것입니다. 

쿠팡의 모든 직원은 커머스의 미래를 만들겠다는 쿠팡의 미션에 진심입니다. 우리는 고객의 문제를 해결해 나가고, 전통적인 관념과 통념에 맞서며 실현 가능한 한계를 뛰어넘고 있습니다. 고가용성 (always-on) 과 최첨단의 앞선 기술 (high-tech), 초연결사회 (hyper-connected world) 에서의 놀라운 업무 경험을 원하신다면, 지금 바로 쿠팡에 합류하세요. 

 

조직설명  

사이트 안정성 팀은 최종 고객에게 보다 안정적이고 가용하며 신뢰할 수 있는 플랫폼을 보장하기 위해 모든 Coupang 서비스에 대한 가용성, 가동 시간 및 전반적인 경고, 모니터링 및 사고 관리 전략을 개선할 책임이 있습니다. 이 팀은 서비스 장애를 모니터링하고 분류하는 데 있어 다양한 도메인 팀과 긴밀하게 협력하며, 프로세스, 기술 전문 지식을 확립하고 여러 도메인 팀의 주제 전문가와 긴밀히 협력하여 가동 시간 및 사이트 가용성에 대한 전반적인 SLA를 개선합니다. 

 

업무내용  

  • AWS, Azure, Oracle 또는 Google Cloud 제품과 같은 클라우드 서비스 프로바이더에 대한 전반적인 문제 해결 능력 
  • POSIX 시스템 및 로그의 데이터 검토와 같은 일반적인 문제 해결(Splunk, Graylog 등)에 대한 익숙함
  • VictorOps, CloudWatch와 같은 경고 및 모니터링 툴과 사고 관리 프로세스 처리 방법에 대한 숙지 
  • Python, Perl 또는 기타 프로그래밍 언어의 사용과 같은 강력한 DevOps/SRE 배경, Java 기반 애플리케이션에서 실행되는 기술 스택을 이해하는 기능 

 

자격요건  

  • Java, Linux 및 AWS 서비스에 대한 강력한 이해
  • Dynatrace와 같은 경고 및 모니터링 툴을 다뤄본 경험이 있습니다.
  • DataDog, VictorOps, GrayLog, Splunk, CloudWatch 등이 있습니다. 

 

우대사항  

  • AWS, Azure, Oracle 또는 Google Cloud 제품과 같은 클라우드 서비스 프로바이더에 대한 전반적인 문제 해결 능력 
  • 고객 지원 기술에 대한 강한 감각과 문제 해결을 위한 마음가짐 

 

 

Staff Back-end Engineer (Site Reliability Engineering)  

 

Company Overview  

 We exist to wow our customers. We know we’re doing the right thing when we hear our customers say, “How did we ever live without Coupang?” Born out of an obsession to make shopping, eating, and living easier than ever, we’re collectively disrupting the multi-billion-dollar e-commerce industry from the ground up. We are one of the fastest-growing e-commerce companies that established an unparalleled reputation for being a dominant and reliable force in South Korean commerce. 

We are proud to have the best of both worlds — a startup culture with the resources of a large global public company. This fuels us to continue our growth and launch new services at the speed we have been since our inception. We are all entrepreneurial surrounded by opportunities to drive new initiatives and innovations. At our core, we are bold and ambitious people that like to get our hands dirty and make a hands-on impact. At Coupang, you will see yourself, your colleagues, your team, and the company grow every day. 

Our mission to build the future of commerce is real. We push the boundaries of what’s possible to solve problems and break traditional tradeoffs. Join Coupang now to create an epic experience in this always-on, high-tech, and hyper-connected world. 

 

About this Role 

Site Reliability team will be responsible for availability, uptime and improving the overall alerting, monitoring and incident management strategy for all Coupang services to ensure a more stable, available and a reliable platform to our end customer. This team will work closely with various domain teams in monitoring and triaging any service failures and will establish process, technical expertise and work closely with subject matter experts from multiple domain teams to improve our overall SLAs for uptime and site availability. 

 

Key Responsibilities 

  • Overall good sense of troubleshooting Cloud Service Providers like AWS, Azure, Oracle or Google Cloud products 
  • Familiarity with POSIX systems and general troubleshooting like reviewing data from logs (Splunk, Graylog etc.) 
  • Familiarity with alerting and monitoring tools like VictorOps, CloudWatch and how to handle incident management process 
  • Strong DevOps/SRE background like use of Python, Perl or any other programming language, ability to understand technology stack running on Java based applications 

 

Essential Qualifications 

  • Strong understanding of Java, Linux and AWS services 
  • Experience in dealing with alerting and monitoring tools like Dynatrace, 
  • DataDog, VictorOps, GrayLog, Splunk, CloudWatch etc. 

 

Preferred Qualifications 

  • Overall good sense of troubleshooting Cloud Service Providers like AWS, Azure, Oracle or Google Cloud products 
  • A strong sense of customer support skills and mindset to escalate issues.