본문으로 건너뛰기

브로커 상세

각 브로커 별 메트릭을 상세하게 조회할 수 있으며 상단에서 메트릭 요약 정보를 확인할 수 있어요. 상세 메트릭은 크게 브로커 메트릭노드 메트릭, 에러 메트릭 탭으로 구성되어 있어요. 브로커 메트릭은 카프카 브로커에서 수집된 데이터이며, 노드 메트릭은 카프카 브로커가 실행되고 있는 노드 혹은 파드에서 수집된 데이터에요.

broker_details

상세보기 정보

구분설명
⓵ 컨트롤러브로커가 컨트롤러일 경우 표시
⓶ 메트릭 요약 정보브로커 메트릭 요약 정보
⓷ 브로커 메트릭카프카 브로커로부터 수집된 데이터
⓸ 노드 메트릭카프카 브로커가 동작하는 노드 혹은 파드로부터 수집된 데이터
⓹ 에러 메트릭카프카 브로커에서 발생된 에러 메트릭
메트릭 요약 정보
구분설명
⓵ 파티션해당 브로커에 저장된 토픽 파티션 개수
⓶ 유입량해당 브로커의 초당 메시지 유입량 (바이트 단위)
⓷ 소비량해당 브로커의 초당 메시지 소비량 (바이트 단위) (Consumer 및 Follower 포함)
⓸ CPU 사용률해당 브로커의 CPU 사용률
⓹ 디스크 사용률해당 브로커의 디스크 사용량 평균 (주요 마운트별 디스크 사용량의 평균값)
⓺ 파일 디스크립터해당 브로커에 오픈 파일 개수 및 최대 오픈 파일 개수

브로커 메트릭

카프카 브로커로부터 직접 수집된 데이터를 시계열 그래프로 조회할 수 있어요.

처리량

broker_details_throughput

  • 유입량
    해당 브로커의 초당 메시지 생성 바이트 수 히스토리
  • 소비량
    해당 브로커의 초당 메시지 소비 바이트 수 히스토리. Consumer 및 Follower 포함

지연시간

broker_details_latency

  • 유입
    Producer의 메시지 생성 요청 시 지연 시간 메트릭 히스토리
  • 소비
    Consumer의 메시지 Fetch 요청 시 지연 시간 메트릭 히스토리
  • 팔로워
    Partition Follwer의 메시지 Fetch 요청 시 지연 시간 메트릭 히스토리
표시되는 히스토리는 99%의 요청을 처리하는 데 걸린 시간 값 (99th percentile) 이에요.
상세 보기

각 그래프 포인트를 클릭하면 해당 지연 시간의 상세 정보를 백분위별로 확인할 수 있어요. (99.9%, 99%, 95%, 90%, 50%)

broker_details_latency_modal

구분설명
request_queue_time요청이 request queue에 머문 시간
request_local_time응답이 response queue에 머문 시간
request_remote_time요청이 로컬에서 처리된 시간 (ex; write buffer에 기록하는 데 사용된 시간)
response_queue_time요청이 리모트에서 처리된 시간 (ex; follower가 복제하는 데 걸린 시간)
response_send_time응답을 보내는 데 걸린 시간
  • E2E
    Blackbox Exporter를 사용하여 프로듀서가 메세지가 생성된 시간부터 컨슈머가 해당 메세지를 가져가는 시간까지의 지연 시간을 나타낸 지표로, 현재 브로커의 성능을 판별할 수 있어요.

    • 평균: 평균적인 E2E 지연 시간을 나타내는 지표로 전반적인 시스템의 성능을 파악하는데 유용하지만, 극단적인 값들이 평균에 영향을 미칠 수 있어요.
    • 최소: 가장 낮은 지연 시간(즉, 가장 빠른 응답 시간)을 나타내며, 시스템이 최적으로 동작하는 상태를 의미해요.
    • 최대: 가장 높은 지연 시간(즉, 가장 느린 응답 시간)을 나타내며, 시스템이 극단적으로 동작하는 상태를 의미해요.

큐 상태

broker_details_queue

  • 요청
    요청이 request_queue에 머문 시간 히스토리
  • 응답
    응답이 response_queue에 머문 시간 히스토리

네트워크 유휴율

broker_details_network_idle

  • 백분율(Percent)
    네트워크 유휴율(idle) 히스토리

주키퍼 연결 상태

broker_details_zookeeper

  • 연결
    주키퍼에 연결된 횟수 히스토리
  • 연결 끊어짐
    주키퍼 연결이 끊어진 횟수 히스토리
  • 만료 (세션 타임아웃)
    주키퍼 연결이 만료된 횟수 히스토리
주키퍼 연결 만료
  • 연결된 횟수가 끊어진 횟수보다 항상 1만큼 큰 것이 정상이에요.
  • 끊어진 횟수가 계속 증가하면 네트워크 장애를 의심할 수 있어요.
  • 네트워크 지연이 심각하거나 문제가 있는 경우 연결 만료 현상이 발생해요.

노드 메트릭

카프카 브로커가 동작하는 노드 혹은 파드로부터 수집된 데이터를 시계열 그래프로 조회할 수 있어요. 컨테이너 환경의 경우 노드 메트릭은 상황에 따라 워커 노드의 데이터를 표시할 수 있어요.

디스크 사용량

broker_details_disk_usage

  • 백분율(Percent)
    주요 마운트 포인트별 디스크 사용률 히스토리
  • 바이트(Bytes)
    주요 마운트 포인트별 디스크 사용량 히스토리

메모리 사용량

broker_details_memory_usage

  • 백분율(Percent)
    메모리 사용률 히스토리
  • 바이트(Bytes)
    메모리 사용량 히스토리

CPU 사용률

broker_details_cpu_usage

  • 백분율(Percent)
    CPU 사용량 히스토리

에러 메트릭

카프카 브로커에서 메시지 처리(Produce, Consume) 에서 발생한 에러와 처리 실패를 시계열 그래프로 조회할 수 있어요. 발생한 시점을 클릭하면 상세 정보를 볼 수 있어요.

전체 에러 수

broker_details_total_error 메시지 처리 (Produce, Consume) 중 발생한 전체 에러 메트릭에요. 에러 카운트가 발생한 시점을 클릭하면 어떤 리퀘스트로 에러들이 몇 번 발생했는지 상세 정보를 볼 수 있어요.

  • 유입량
    Production 과정에 발생한 오류 횟수
  • 소비량
    Consumption 과정에 발생한 오류 횟수

처리 실패 수

broker_details_total_fail 메시지 처리 (Produce, Consume) 중 발생할 수 있는 에러 범위를 좁힌 메트릭에요. 에러 카운트가 발생한 시점을 클릭하면 어떤 토픽에서 처리 실패가 발생했는지 상세 정보를 볼 수 있어요.

  • 유입량
    Production 과정에 발생한 오류 횟수
  • 소비량
    Consumption 과정에 발생한 오류 횟수