to navigate

to select

to close

On this page

모니터링 시스템 구축기 1편- Metric

이 글은 우아한테크코스 백엔드 6기 냥인, 러쉬, 명오에 의해 작성되었습니다.

구축 배경

3차: 서비스 운영 환경 구축

로깅 프레임워크 적용

API 문서 작성

(로그, 메트릭) 모니터링 대시보드 구성

백엔드 3차 요구사항으로 ‘모니터링 대시보드 구성하기’가 주어졌습니다.

팀 크루루는 아직 개발 환경만 구축되어 있기 때문에 개발 환경에 모니터링을 구축하였습니다.

모니터링 도구 선택 기준

💡 ▶︎ 요구사항에서 언급된 대로 빠르게 구축할 수 있어야 한다.
▶︎ 스프링 부트와 연동하기 쉬워야 한다.

▶︎ 비용이 저렴해야 한다.

위 기준에 따라 메트릭 모니터링 도구는 Spring Actuator와 Prometheus 그리고 Grafana로 선택하였습니다.

고려했던 또 다른 서비스로 Prometheus + Grafana외에도 AWS의 CloudWatch도 있습니다. 그러나 CloudWatch는 기본적으로 GC 및 Heap Memory 등 JVM 메트릭을 수집하지 않는다는 점, 그리고 CloudWatch를 사용하는 비용보다 Prometheus + Grafana를 띄울 모니터링 서버용 EC2 인스턴스를 새로 생성하는 금전적 비용이 더 저렴하다는 점에서 Prometheus + Grafana로 최종 결정하였습니다.

구조

Public subnet에 위치한 인스턴스(이하 인스턴스 A)에는 스프링부트와 MySQL이 Docker Container를 통해 실행되고 있습니다. Private subnet에 위치한 인스턴스(이하 인스턴스 B)에는 Prometheus와 Grafana가 Docker Container를 통해 실행되고 있습니다.

모니터링 흐름

다음은 메트릭 정보를 수집하고 Grafana를 통해 모니터링 하는 흐름입니다.

인스턴스 B에 있는 Prometheus는 인스턴스 A에 위치한 스프링 부트로부터 메트릭 정보를 수집합니다. Grafana는 Prometheus에 저장된 메트릭 정보를 가져와 시각화 합니다. 관리자가 Grafana 모니터링 도메인에 접속하게 되면, NGNIX의 리버스 프록시를 통해 Grafana에 접속할 수 있게됩니다.

WAS와 모니터링 서버 분리

팀 크루루는 다음 목적을 위해 WAS와 모니터링 서버를 분리하였습니다.

가용성 확보

WAS와 모니터링 서버를 분리하지 않을 경우, 한 곳에서 발생한 장애가 다른 곳에 영향을 미치게 됩니다. 즉, 장애가 전파되는 것이죠. WAS와 모니터링 서버를 분리하면 한 서버에서 발생한 장애가 다른 서버에 영향을 미치지 않게 됩니다. WAS에 문제가 생겨도 모니터링은 가능하며, 반대의 경우도 가능합니다.
보안 강화

메트릭과 로그 데이터는 보안상 외부에 노출시키지 않는 것이 적합하다고 생각했습니다. 따라서 모니터링 서버는 WAS와 달리 Private subnet에 별도로 두었습니다.

리버스 프록시 적용

Grafana에 접근하기 위해서는 3000 포트에 접근해야합니다. 하지만 인바운드 규칙에는 80, 443 포트만 허용되었으며 IAM 권한상 규칙을 추가할 수 없었습니다. 따라서 Ngnix의 리버스 프록시를 적용했습니다. grafana.cruru.kr URL의 443 port로의 요청을 모니터링_서버_privte_ip:3000 으로 전달하도록 설정했습니다. 결과적으로 인바운드 규칙을 추가하지 않고 모니터링 서버로 접근할 수 있게 했습니다.

포트 포워딩

Prometheus가 Spring Actuator의 Metric을 가져오기 위해서는 Actuator가 제공하는 엔드포인트에 접근해야 합니다. 저희는 Actuator의 엔드포인트는 별도의 포트에서 제공되도록 설정했습니다. 따라서 Prometheus가 이 포트로 요청할 수 있도록 도커 컨테이너를 설정했습니다. 이를 위해 도커 컨테이너를 실행할 때, 해당 포트를 외부와 연결하고 포워딩하기 위한 설정을 docker-compose.yml 파일에 추가했습니다.