브로커 상세
각 브로커 별 메트릭을 상세하게 조회할 수 있으며 상단에서 메트릭 요약 정보를 확인할 수 있어요. 상세 메트릭은 크게 브로커 메트릭 과 노드 메트릭, 에러 메트릭 탭으로 구성되어 있어요. 브로커 메트릭은 카프카 브로커에서 수집된 데이터이며, 노드 메트릭은 카프카 브로커가 실행되고 있는 노드 혹은 파드에서 수집된 데이터에요.

상세보기 정보
| 구분 | 설명 |
|---|---|
| ⓵ 컨트롤러 | 브로커가 컨트롤러일 경우 표시 |
| ⓶ 메트릭 요약 정보 | 브로커 메트릭 요약 정보 |
| ⓷ 브로커 메트릭 | 카프카 브로커로부터 수집된 데이터 |
| ⓸ 노드 메트릭 | 카프카 브로커가 동작하는 노드 혹은 파드로부터 수집된 데이터 |
| ⓹ 에러 메트릭 | 카프카 브로커에서 발생된 에러 메트릭 |
| 구분 | 설명 |
|---|---|
| ⓵ 파티션 | 해당 브로커에 저장된 토픽 파티션 개수 |
| ⓶ 유입량 | 해당 브로커의 초당 메시지 유입량 (바이트 단위) |
| ⓷ 소비량 | 해당 브로커의 초당 메시지 소비량 (바이트 단위) (Consumer 및 Follower 포함) |
| ⓸ CPU 사용률 | 해당 브로커의 CPU 사용률 |
| ⓹ 디스크 사용률 | 해당 브로커의 디스크 사용량 평균 (주요 마운트별 디스크 사용량의 평균값) |
| ⓺ 파일 디스크립터 | 해당 브로커에 오픈 파일 개수 및 최대 오픈 파일 개수 |
브로커 메트릭
카프카 브로커로부터 직접 수집된 데이터를 시계열 그래프로 조회할 수 있어요.
처리량

- 유입량
해당 브로커의 초당 메시지 생성 바이트 수 히스토리 - 소비량
해당 브로커의 초당 메시지 소비 바이트 수 히스토리. Consumer 및 Follower 포함
지연시간

- 유입
Producer의 메시지 생성 요청 시 지연 시간 메트릭 히스토리 - 소비
Consumer의 메시지 Fetch 요청 시 지연 시간 메트릭 히스토리 - 팔로워
Partition Follwer의 메시지 Fetch 요청 시 지연 시간 메트릭 히스토리
각 그래프 포인트를 클릭하면 해당 지연 시간의 상세 정보를 백분위별로 확인할 수 있어요. (99.9%, 99%, 95%, 90%, 50%)

| 구분 | 설명 |
|---|---|
| request_queue_time | 요청이 request queue에 머문 시간 |
| request_local_time | 응답이 response queue에 머문 시간 |
| request_remote_time | 요청이 로컬에서 처리된 시간 (ex; write buffer에 기록하는 데 사용된 시간) |
| response_queue_time | 요청이 리모트에서 처리된 시간 (ex; follower가 복제하는 데 걸린 시간) |
| response_send_time | 응답을 보내는 데 걸린 시간 |
-
E2E
Blackbox Exporter를 사용하여 프로듀서가 메세지가 생성된 시간부터 컨슈머가 해당 메세지를 가져가는 시간까지의 지연 시간을 나타낸 지표로, 현재 브로커의 성능을 판별할 수 있어요.- 평균: 평균적인 E2E 지연 시간을 나타내는 지표로 전반적인 시스템의 성능을 파악하는데 유용하지만, 극단적인 값들이 평균에 영향을 미칠 수 있어요.
- 최소: 가장 낮은 지연 시간(즉, 가장 빠른 응답 시간)을 나타내며, 시스템이 최적으로 동작하는 상태를 의미해요.
- 최대: 가장 높은 지연 시간(즉, 가장 느린 응답 시간)을 나타내며, 시스템이 극단적으로 동작하는 상태를 의미해요.
큐 상태

- 요청
요청이 request_queue에 머문 시간 히스토리 - 응답
응답이 response_queue에 머문 시간 히스토리
네트워크 유휴율

- 백분율(Percent)
네트워크 유휴율(idle) 히스토리
주키퍼 연결 상태

- 연결
주키퍼에 연결된 횟수 히스토리 - 연결 끊어짐
주키퍼 연결이 끊어진 횟수 히스토리 - 만료 (세션 타임아웃)
주키퍼 연결이 만료된 횟수 히스토리
- 연결된 횟수가 끊어진 횟수보다 항상 1만큼 큰 것이 정상이에요.
- 끊어진 횟수가 계속 증가하면 네트워크 장애를 의심할 수 있어요.
- 네트워크 지연이 심각하거나 문제가 있는 경우 연결 만료 현상이 발생해요.
노드 메트릭
카프카 브로커가 동작하는 노드 혹은 파드로부터 수집된 데이터를 시계열 그래프로 조회할 수 있어요. 컨테이너 환경의 경우 노드 메트릭은 상황에 따라 워커 노드의 데이터를 표시할 수 있어요.
디스크 사용량

- 백분율(Percent)
주요 마운트 포인트별 디스크 사용률 히스토리 - 바이트(Bytes)
주요 마운트 포인트별 디스크 사용량 히스토리
메모리 사용량

- 백분율(Percent)
메모리 사용률 히스토리 - 바이트(Bytes)
메모리 사용량 히스토리
CPU 사용률

- 백분율(Percent)
CPU 사용량 히스토리
에러 메트릭
카프카 브로커에서 메시지 처리(Produce, Consume) 에서 발생한 에러와 처리 실패를 시계열 그래 프로 조회할 수 있어요. 발생한 시점을 클릭하면 상세 정보를 볼 수 있어요.
전체 에러 수
메시지 처리 (Produce, Consume) 중 발생한 전체 에러 메트릭에요. 에러 카운트가 발생한 시점을 클릭하면 어떤 리퀘스트로 에러들이 몇 번 발생했는지 상세 정보를 볼 수 있어요.
- 유입량
Production 과정에 발생한 오류 횟수 - 소비량
Consumption 과정에 발생한 오류 횟수
처리 실패 수
메시지 처리 (Produce, Consume) 중 발생할 수 있는 에러 범위를 좁힌 메트릭에요. 에러 카운트가 발생한 시점을 클릭하면 어떤 토픽에서 처리 실패가 발생했는지 상세 정보를 볼 수 있어요.
- 유입량
Production 과정에 발생한 오류 횟수 - 소비량
Consumption 과정에 발생한 오류 횟수