Rule Metrics
아래 컴포넌트 유형 별 알림 룰 메트릭에 대한 상세 설명을 제공해요.
- 브로커
- 카프카 네트워크
- 파티션
- 노드
- 주키퍼
- 스키마 레지스트리
- 컨슈머 그룹
- 토픽
- 커넥트
- CMPS
- 커넥터
- 데이터 미러링
브로커 메트릭
| 구분 | 설명 |
|---|---|
| 클러스터 내 브로커 개수 | 온라인 브로커 수가 메트릭 상세 설정에 충족되면 알림이 발생 |
| 브로커 상태 이상 | 브로커 상태가 실행 중이 아닌 다른 상태일 때 알림이 발생 |
| 활성화된 컨트롤러 브로커 개수 이상 | 활성화 상태인 컨트롤러 브로커가 없을 때 알림이 발생 |
| 브로커 간 디스크 불균형 | 디스크 사용량이 가장 큰 브로커와 가장 작은 브로커를 비교하여 디스크 사용량의 분포를 계산한 후 이 분포가 메트릭 상세 설정에 충족되면 디스크 사용량을 불균형으로 판단하고 알림이 발생 |
| 프로듀서 요청 실패 증가 | 프로듀서 요청 시 실패 비율이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 브로커 인스턴스 다운 | 모든 브로커의 인스턴스(서버)가 다운되었을 경우 알림이 발생 |
| 유입된 메시지량 | 유입된 메시지의 양이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 유입된 메시지 크기(바이트) | 유입된 메시지의 크기(바이트)가 메트릭 상세 설정에 충족되면 알림이 발생 |
| 소비된 메시지 크기(바이트) | 컨슈머가 소비한 메시지의 크기(바이트)가 메트릭 상세 설정에 충족되면 알림이 발생 |
| 컨슈머 랙(lag) | 컨슈머 랙(프로듀서가 넣은 데이터의 오프셋과 컨슈머가 가져간 데이터의 오프셋 차이)의 크기가 메트릭 상세 설정에 충족되면 알림이 발생 |
| 크래프트(KRaft) 컨트롤러 브로커 다운 | 크래프트 클러스터에서 컨트롤러 역할을 가진 브로커가 다운될 경우 알림이 발생 |
카프카 네트워크 메트릭
| 구분 | 설명 |
|---|---|
| 가용 네트워크 자원 | 총 네트워크 자원에 유휴 상태인 네트워크 자원이 차지하고 있는 비율을 유휴율로 계산한 후, 이 유휴율이 메트릭 상세 설정에 부합할 경우 알림이 발생 |
| 파티션 복제 요청 지연 시간 | 파티션의 팔로워 레플리카가 복제 요청을 보낸 후 응답을 받는 데 걸리는 시간이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 컨슈머 요청 지연 시간 | 컨슈머가 컨슈밍 요청을 보낸 후 응답을 받는 데 걸리는 시간이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 프로듀스 요청 지연 시간 | 클라이언트가 프로듀스 요청을 보낸 후 응답을 받는 데 걸리는 시간이 메트릭 상세 설정에 충족되면 알림이 발생 |
파티션 메트릭
| 구분 | 설명 |
|---|---|
| 브로커 파티션 불균형 | 가장 많은 파티션을 가진 브로커와 가장 적은 파티션을 가진 브로커의 파티션 수의 분포를 계산한 후 이 분포가 메트릭 상세 설정에 충족되면 알림이 발생 |
| 리더 파티션 불균형 | 가장 많은 리더 파티션을 가진 브로커와 가장 적은 리더 파티션을 가진 브로커의 리더 파티션 수의 분포를 계산한 후 이 분포가 메트릭 상세 설정에 충족되면 알림이 발생 |
| 오프라인 파티션 개수 | 오프라인 파티션의 개수가 메트릭 상세 설정에 충족되면 알림이 발생 |
| 브로커 내 파티션 개수 | 브로커 내 총 파티션 개수가 메트릭 상세 설정에 충족되면 알림이 발생 |
| 클러스터 내 파티션 개수 | 총 파티션 개수가 메트릭 상세 설정에 충족되면 알림이 발생 |
| 최소 복제본 수 미충족인 파티션 개수 | ISR(리터 파티션과 동기화된 팔로워 레플리카(복제본)의 개수)에 충족돼야 하는 최소 레플리카 수를 충족하지 못한 파티션의 개수가 메트릭 상세 설정에 충족되면 알림이 발생 |
| 복제되지 않은 파티션 개수 | 복제되지 않은 파티션 개수가 메트릭 상세 설정에 충족되면 알림이 발생 |
노드 메트릭
| 구분 | 설명 |
|---|---|
| CPU 사용량 | CPU에 사용량(%)이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 노드 디스크 사용량 | 노드 디스크에 사용량(%)이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 노드 다운 | 노드가 모두 다운되었을 때 알림이 발생 |
| 메모리 사용량 | 메모리 사용량(%)이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 마운트 포인트 별 노드 디스크 사용량 | 마운트 포인트 별 노드 디스크에 사용량(%)이 메트릭 상세 설정에 충족되면 알림이 발생 |
주키퍼 메트릭
| 구분 | 설명 |
|---|---|
| 주키퍼 접속 상태 이상 | 브로커와 주키퍼의 접속 상태가 끊겼을 때 알림이 발생 |
| 주키퍼 인스턴스 다운 | 등록된 주키퍼의 인스턴스(서버)가 모두 다운됐을 때 알림이 발생 |
스키마 레지스트리 메트릭
| 구분 | 설명 |
|---|---|
| 스키마 레지스트리 인스턴스 다운 | 등록된 스키마 레지스트리 클러스터의 인스턴스(서버)가 모두 다운됐을 때 알림이 발생 |
컨슈머 그룹 메트릭
| 구분 | 설명 |
|---|---|
| 컨슈머 그룹 랙(lag) | 컨슈머 그룹의 랙(프로듀서가 넣은 데이터의 오프셋과 컨슈머가 가져간 데이터의 오프셋 차이)의 크기가 메트릭 상세 설정에 충족되면 알림이 발생 |
| 컨슈머 그룹 상태 이상 | 컨슈머 그룹 내에서 컨슈밍이 지연되고 있거나, 중지, 되감기 상태인 파티션이 1개 이상 감지되었을 경우에 해당 컨슈머 그룹의 상태가 이상 있다고 평가되어 알림이 발생 |
| 컨슈머 그룹 내 컨슈머 인스턴스 개수 | 컨슈머 그룹 내 컨슈머 인스턴스의 개수가 메트릭 상세 설정에 충족되면 알림이 발생 |
토픽 메트릭
| 구분 | 설명 |
|---|---|
| 초당 토픽 메시지 유입량 | 토픽에 유입된 초당 메시지의 양이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 초당 토픽 유입량(바이트) | 토픽에 유입된 초당 메시지의 크기(바이트)가 메트릭 상세 설정에 충족되면 알림이 발생 |
| 초당 토픽 소비량(바이트) | 토픽에서 소비된 초당 메시지의 크기(바이트)가 메트릭 상세 설정에 충족되면 알림이 발생 |
| 최근 T분 간 토픽 메시지 유입량 증가량 | 토픽에 최근 T 분 간 유입된 메시지 양의 증가량이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 최근 T분 간 토픽 메시지 유입 크기 증가량 | 토픽에 최근 T 분 간 유입된 메시지 크기(바이트)의 증가량이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 최근 T분 간 토픽 메시지 소비 크기 증가량 | 토픽에서 최근 T 분 간 소비된 메시지 크기(바이트)의 증가량이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 최근 T시간 간 토픽 메시지 유입량 증가량 | 토픽에 최근 T 시간 간 유입된 메시지양의 증가량이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 최근 T시간 간 토픽 메시지 유입 크기 증가량 | 토픽에 최근 T 시간 간 유입된 메시지 크기(바이트)의 증가량이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 최근 T시간 간 토픽 메시지 소비 크기 증가량 | 토픽에서 최근 T 시간 간 소비된 메시지 크기(바이트)의 증가량이 메트릭 상세 설정에 충족되면 알림이 발생 |
커넥트 메트릭
| 구분 | 설명 |
|---|---|
| 커넥트 인스턴스 다운 | 등록된 커넥트 클러스터의 인스턴스(서버)가 모두가 다운되었을 때 알림이 발생 |
CMPS 메트릭
| 구분 | 설명 |
|---|---|
| 초당 클러스터 메시지 소비량 | 초당 클러스터 메시지 소비량이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 초당 클러스터 메시지 소비량 (컨슈머 그룹 단위) | 컨슈머그룹 별 초당 클러스터 메시지 소비량이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 초당 클러스터 메시지 소비량 (컨슈머 그룹 - 토픽 단위) | 컨슈머 그룹 - 토픽 별 초당 클러스터 메시지 소비량이 메트릭 상세 설정에 충족되면 알림이 발생 |
커넥터 메트릭
| 구분 | 설명 |
|---|---|
| 태스크 상태 이상(Failed) | 태스크 상태가 실패로 변경되었을 때 알림이 발생 |
| 초당 폴링한 메시지량(poll) [소스 커넥터] | 소스 커넥터가 초당 폴링한 메시지의 양이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 초당 쓴 메시지량(write) [소스 커넥터] | 소스 커넥터가 초당 쓴 메시지의 양이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 초당 읽어온 메시지량(read) [싱크 커넥터] | 싱크 커넥터가 초당 읽어온 메시지의 양이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 초당 송신한 메시지량(send) [싱크 커넥터] | 싱크 커넥터가 초당 송신한 메시지의 양이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 커넥터 처리 실패 레코드 수 | 커넥터가 처리에 실패한 레코드 수가 메트릭 상세 설정에 충족되면 알림이 발생 |
| DLT (Dead Letter Topic)에 쓰기 실패 수 | 커넥터가 처리에 실패한 레코드들에 대해 DLT 에 쓰려고 시도하였으나 실패한 횟수를 의미. 설정한 값이 메트릭 상세 설정에 충족되면 알림이 발생 |
데이터 미러링 메트릭
| 구분 | 설명 |
|---|---|
| 토픽 별 초당 처리된 메시지 량(bytes) | 토픽 별 초당 복제된 메시지 량(bytes)이 메트릭 상세 설정에 충족되면 알림이 발생 |
| 미러링 작업 랙(lag) | 미러링 작업 랙(lag)이 메트릭 상세 설정에 충족되면 알림이 발생 |