Infograb logo
클러스터 모니터링

Teleport는 건강 상태 확인 메커니즘을 제공하여 시스템의 상태가 양호하고 트래픽을 처리할 준비가 되었는지 확인합니다. 메트릭, 추적, 그리고 프로파일링은 클러스터 성능과 응답성을 추적하는 심층 데이터를 제공합니다.

상태 모니터링 활성화

Teleport 인스턴스의 건강 상태를 모니터링하는 방법입니다.

Teleport의 진단 HTTP 엔드포인트는 기본적으로 비활성화되어 있습니다. 다음을 통해 활성화할 수 있습니다:

--diag-addr 플래그가 설정된 teleport 인스턴스를 시작하여 진단 엔드포인트가 수신 대기할 로컬 주소를 지정하세요:

sudo teleport start {{ flags }} --diag-addr=127.0.0.1:3000

teleport 인스턴스의 구성 파일(/etc/teleport.yaml가 기본값임)을 편집하여 다음을 포함하세요:

teleport:
    diag_addr: 127.0.0.1:3000

디버그 로그를 활성화하려면:

log:
    severity: DEBUG

Teleport가 이제 진단 엔드포인트를 제공하는지 확인하세요:

curl http://127.0.0.1:3000/healthz

이제 여러 엔드포인트에서 모니터링 정보를 수집할 수 있습니다. 이러한 정보는 Kubernetes 프로브와 같은 것들이 Teleport 프로세스의 건강 상태를 모니터링하는 데 사용될 수 있습니다.

/healthz

http://127.0.0.1:3000/healthz 엔드포인트는 프로세스가 실행 중이면 {"status":"ok"} 본문과 HTTP 200 OK 상태 코드를 응답합니다.

이는 Teleport 프로세스가 여전히 실행 중인지 확인하는 체크입니다.

/readyz

http://127.0.0.1:3000/readyz 엔드포인트는 /healthz와 유사하지만, 응답에는 프로세스의 상태에 대한 정보가 포함되어 있습니다.

응답 본문은 다음과 같은 형식의 JSON 객체입니다:

{ "status": "여기에 상태 메시지가 있습니다" }

/readyz와 하트비트

만약 Teleport 구성 요소가 하트비트 절차를 실행하지 못하면, 이는 저하된 상태가 됩니다. 하트비트가 성공적으로 완료되면 Teleport는 이 상태에서 복구를 시작합니다.

첫 번째 성공적인 하트비트는 Teleport를 복구 상태로 전환합니다. 두 번째 연속적인 성공적인 하트비트는 Teleport를 OK 상태로 전환합니다.

Teleport 하트비트는 건강할 때 약 60초마다 실행되며, 실패한 하트비트는 약 5초마다 재시도됩니다. 이는 하트비트의 타이밍에 따라 연결이 복원된 후에 /readyz가 다시 건강하다고 보고하기 시작하는 데 60-70초가 걸릴 수 있음을 의미합니다.

상태 코드

응답의 상태 코드는 다음 중 하나일 수 있습니다:

  • HTTP 200 OK: Teleport가 정상적으로 작동 중
  • HTTP 503 서비스 이용 불가: Teleport가 연결 오류가 발생하여 저하된 상태에서 실행 중입니다. 이는 Teleport 하트비트가 실패할 때 발생합니다.
  • HTTP 400 잘못된 요청: Teleport가 초기 시작 단계에 들어가고 있거나 저하된 상태에서 복구를 시작하기 시작합니다.

동일한 상태 정보는 /metrics 엔드포인트 아래의 process_state 메트릭을 통해서도 사용할 수 있습니다.

메트릭

Teleport는 모든 구성 요소에 대한 메트릭을 노출하여 클러스터의 상태를 통찰할 수 있도록 돕습니다. 이 가이드는 Teleport 클러스터에서 수집할 수 있는 메트릭을 설명합니다.

메트릭 활성화

Teleport의 진단 HTTP 엔드포인트는 기본적으로 비활성화되어 있습니다. 다음을 통해 활성화할 수 있습니다:

--diag-addr 플래그가 설정된 teleport 인스턴스를 시작하여 진단 엔드포인트가 수신 대기할 로컬 주소를 지정하세요:

sudo teleport start {{ flags }} --diag-addr=127.0.0.1:3000

teleport 인스턴스의 구성 파일(/etc/teleport.yaml가 기본값임)을 편집하여 다음을 포함하세요:

teleport:
    diag_addr: 127.0.0.1:3000

디버그 로그를 활성화하려면:

log:
    severity: DEBUG

Teleport가 이제 진단 엔드포인트를 제공하는지 확인하세요:

curl http://127.0.0.1:3000/healthz

이는 Teleport가 추적하는 메트릭을 제공하는 http://127.0.0.1:3000/metrics 엔드포인트를 활성화합니다. Prometheus 수집기와 호환됩니다.

다음 메트릭이 제공됩니다:

Teleport Enterprise(클라우드 호스팅)는 인증 서비스 및 프록시 서비스에 대한 모니터링 엔드포인트를 노출하지 않습니다.

Auth Service and backends

이름타입컴포넌트설명
audit_failed_disk_monitoringcounterTeleport Audit Log디스크 모니터링 실패 횟수.
audit_failed_emit_eventscounterTeleport Audit Log감사 이벤트를 전송하지 못한 횟수입니다.
audit_percentage_disk_space_usedgaugeTeleport Audit Log사용된 디스크 공간의 백분율입니다.
audit_server_open_filesgaugeTeleport Audit Log열려 있는 감사 파일 수입니다.
auth_generate_requests_throttled_totalcounterTeleport Auth새 서버 키를 생성하기 위한 조절된 요청 수입니다.
auth_generate_requests_totalcounterTeleport Auth새 서버 키 생성 요청 수입니다.
auth_generate_requestsgaugeTeleport Auth현재 생성 요청 수입니다.
auth_generate_secondshistogramTeleport Auth요청 생성을 위한 지연 시간입니다.
backend_batch_read_requests_totalcountercache백엔드에 대한 읽기 요청 수입니다.
backend_batch_read_secondshistogramcache배치 읽기 작업의 지연 시간입니다.
backend_batch_write_requests_totalcountercache백엔드에 대한 배치 쓰기 요청 수입니다.
backend_batch_write_secondshistogramcache백엔드 배치 쓰기 작업의 지연 시간입니다.
backend_read_requests_totalcountercache백엔드에 대한 읽기 요청 수입니다.
backend_read_secondshistogramcache읽기 작업의 지연 시간입니다.
backend_requestscountercache백엔드에 대한 요청(읽기, 쓰기, 저장) 수입니다.
backend_write_requests_totalcountercache백엔드에 대한 쓰기 요청 수입니다.
backend_write_secondshistogramcache백엔드 쓰기 작업의 지연 시간입니다.
cluster_name_not_found_totalcounterTeleport Auth클러스터를 찾을 수 없는 횟수입니다.
dynamo_requests_totalcounterDynamoDBDynamoDB API에 대한 총 요청 수입니다.
dynamo_requestscounterDynamoDB결과별로 그룹화된 DynamoDB API에 대한 총 요청 수입니다.
dynamo_requests_secondshistogramDynamoDBDynamoDB API 요청의 지연 시간입니다.
etcd_backend_batch_read_requestscounteretcdetcd 데이터베이스에 대한 읽기 요청 수입니다.
etcd_backend_batch_read_secondshistogrametcdetcd 읽기 작업의 지연 시간.
etcd_backend_read_requestscounteretcdetcd 데이터베이스에 대한 읽기 요청 수입니다.
etcd_backend_read_secondshistogrametcdetcd 읽기 작업의 지연 시간.
etcd_backend_tx_requestscounteretcd데이터베이스에 대한 트랜잭션 요청 수입니다.
etcd_backend_tx_secondshistogrametcdetcd 트랜잭션 작업의 지연 시간.
etcd_backend_write_requestscounteretcd데이터베이스에 대한 쓰기 요청 수입니다.
etcd_backend_write_secondshistogrametcdetcd 쓰기 작업의 지연 시간.
teleport_etcd_eventscounteretcd처리된 총 etcd 이벤트 수입니다.
teleport_etcd_event_backpressurecounteretcd이벤트 처리에 배압이 발생한 총 횟수입니다.
firestore_events_backend_batch_read_requestscounterGCP Cloud FirestoreCloud Firestore 이벤트에 대한 배치 읽기 요청 수입니다.
firestore_events_backend_batch_read_secondshistogramGCP Cloud FirestoreCloud Firestore 이벤트 배치 읽기 작업의 지연 시간입니다.
firestore_events_backend_batch_write_requestscounterGCP Cloud FirestoreCloud Firestore 이벤트에 대한 배치 쓰기 요청 수입니다.
firestore_events_backend_batch_write_secondshistogramGCP Cloud FirestoreCloud Firestore 이벤트 배치 쓰기 작업의 지연 시간입니다.
firestore_events_backend_write_requestscounterGCP Cloud FirestoreCloud Firestore 이벤트에 대한 쓰기 요청 수입니다.
firestore_events_backend_write_secondshistogramGCP Cloud FirestoreCloud Firestore 이벤트 쓰기 작업의 지연 시간.
gcs_event_storage_downloads_secondshistogramGCP GCSGCS 다운로드 작업의 지연 시간.
gcs_event_storage_downloadscounterGCP GCSGCS 백엔드에서 다운로드한 수입니다.
gcs_event_storage_uploads_secondshistogramGCP GCSGCS 업로드 작업의 지연 시간.
gcs_event_storage_uploadscounterGCP GCSGCS 백엔드에 업로드한 수입니다.
grpc_server_started_totalcounterTeleport Auth서버에서 시작된 총 RPC 수입니다.
grpc_server_handled_totalcounterTeleport Auth성공 여부에 관계없이 서버에서 완료된 총 RPC 수입니다.
grpc_server_msg_received_totalcounterTeleport Auth서버에서 받은 총 RPC 스트림 메시지 수입니다.
grpc_server_msg_sent_totalcounterTeleport Auth서버에서 보낸 총 gRPC 스트림 메시지 수입니다.
heartbeat_connections_received_totalcounterTeleport Auth인증 서비스가 하트비트 연결을 받은 횟수로, 총 심박수 에이전트를 나타냅니다.
s3_requests_totalcounterAmazon S3S3 API에 대한 총 요청 수입니다.
s3_requestscounterAmazon S3결과별로 그룹화된 S3 API에 대한 총 요청 수입니다.
s3_requests_secondshistogramAmazon S3S3 API에 대한 지연 시간을 요청합니다.
teleport_audit_emit_eventscounterTeleport Audit Log방출된 감사 이벤트 수입니다.
teleport_audit_parquetlog_batch_processing_secondshistogramTeleport Audit LogParquet 형식 감사 로그에서 단일 배치 이벤트를 처리하는 기간입니다.
teleport_audit_parquetlog_s3_flush_secondshistogramTeleport Audit LogParquet 형식 감사 로그에서 Parquet 파일을 S3로 플러싱하는 시간입니다.
teleport_audit_parquetlog_delete_events_secondshistogramTeleport Audit LogParquet 형식 감사 로그의 SQS 삭제 이벤트 기간입니다.
teleport_audit_parquetlog_batch_sizehistogramTeleport Audit LogParquet 형식 감사 로그의 단일 배치에 있는 이벤트의 전체 크기입니다.
teleport_audit_parquetlog_batch_countcounterTeleport Audit LogParquet 형식 감사 로그의 단일 배치에 있는 총 이벤트 수입니다.
teleport_audit_parquetlog_last_processed_timestampgaugeTeleport Audit LogParquet 형식 감사 로그의 마지막 처리 시간 수입니다.
teleport_audit_parquetlog_age_oldest_processed_messagegaugeTeleport Audit LogParquet 형식 감사 로그에서 가장 오래된 이벤트의 연령입니다.
teleport_audit_parquetlog_errors_from_collect_countcounterTeleport Audit LogParquet 형식 감사 로그의 수집 실패 수입니다.
teleport_postgres_events_backend_write_requestscounterPostgres (Events)요청 '상태'(성공 또는 실패)로 레이블이 지정된 포스트그레스 이벤트에 대한 쓰기 요청 수입니다.
teleport_postgres_events_backend_batch_read_requestscounterPostgres (Events)요청 '상태'(성공 또는 실패)로 레이블이 지정된 포스트그레스 이벤트에 대한 배치 읽기 요청 수입니다.
teleport_postgres_events_backend_batch_delete_requestscounterPostgres (Events)요청 '상태'(성공 또는 실패)로 레이블이 지정된 포스트그레스 이벤트에 대한 일괄 삭제 요청 수입니다.
teleport_postgres_events_backend_write_secondshistogramPostgres (Events)포스트그레스 이벤트 쓰기 작업 지연 시간(초)
teleport_postgres_events_backend_batch_read_secondshistogramPostgres (Events)포스트그레스 이벤트 배치 읽기 작업의 지연 시간(초)입니다.
teleport_postgres_events_backend_batch_delete_secondshistogramPostgres (Events)포스트그레스 이벤트 배치 삭제 작업의 지연 시간(초)입니다.
teleport_connected_resourcesgaugeTeleport Auth킵얼라이브를 통해 연결된 리소스의 수와 유형.
teleport_registered_serversgaugeTeleport Auth버전별로 그룹화된 인증 서비스 인스턴스에 연결된 텔레포트 서비스 수입니다.
teleport_registered_servers_by_install_methodsgaugeTeleport Auth설치 방법별로 그룹화된 인증 서비스 인스턴스에 연결된 텔레포트 서비스 수입니다.
user_login_totalcounterTeleport Auth사용자 로그인 수입니다.
teleport_migrationsgaugeTeleport Auth각 마이그레이션이 활성화되어 있는지(1) 또는 활성화되어 있지 않은지(0) 추적합니다.
watcher_event_sizeshistogramcache방출된 이벤트의 전체 크기입니다.
watcher_eventshistogramcache방출된 이벤트의 리소스 크기당.

Enhanced Session Recording / BPF

이름속성컴포넌트설명
bpf_lost_command_eventscounterBPF손실된 명령 이벤트 수입니다.
bpf_lost_disk_eventscounterBPF손실된 디스크 이벤트 수입니다.
bpf_lost_network_eventscounterBPF손실된 네트워크 이벤트 수입니다.

Proxy Service

이름속성컴포넌트설명
failed_connect_to_node_attempts_totalcounterTeleport ProxySSH 서비스에 대한 SSH 연결 시도 실패 횟수. 'teleport_connect_to_node_attempts_total'과 함께 사용하여 실패율을 얻습니다.
failed_login_attempts_totalcounterTeleport Proxy실패한 'tsh 로그인' 또는 'tsh SSH' 로그인 수입니다.
grpc_client_started_totalcounterTeleport Proxy클라이언트에서 시작된 총 RPC 수입니다.
grpc_client_handled_totalcounterTeleport Proxy성공 여부에 관계없이 클라이언트에서 완료된 총 RPC 수입니다.
grpc_client_msg_received_totalcounterTeleport Proxy클라이언트에서 받은 총 RPC 스트림 메시지 수입니다.
grpc_client_msg_sent_totalcounterTeleport Proxy클라이언트가 보낸 총 gRPC 스트림 메시지 수입니다.
proxy_connection_limit_exceeded_totalcounterTeleport Proxy프록시 서비스 연결 제한을 초과한 연결 수입니다.
proxy_peer_client_dial_error_totalcounterTeleport Proxy전화 걸기 피어 프록시 서비스 인스턴스에서 발생한 총 오류 수입니다.
proxy_peer_server_connectionsgaugeTeleport Proxy현재 열려 있는 프록시 프록시 서비스 인스턴스에 대한 연결 수입니다.
proxy_peer_client_rpcgaugeTeleport Proxy현재 클라이언트 RPC 요청 수입니다.
proxy_peer_client_rpc_totalcounterTeleport Proxy총 클라이언트 RPC 요청 수입니다.
proxy_peer_client_rpc_duration_secondshistogramTeleport Proxy클라이언트가 보낸 RPC의 지속 시간(초)입니다.
proxy_peer_client_message_sent_sizehistogramTeleport Proxy클라이언트가 보낸 메시지 크기입니다.
proxy_peer_client_message_received_sizehistogramTeleport Proxy클라이언트가 받은 메시지 크기입니다.
proxy_peer_server_connectionsgaugeTeleport Proxy현재 피어 프록시 서비스 클라이언트에 대한 연결이 열려 있는 수입니다.
proxy_peer_server_rpcgaugeTeleport Proxy현재 서버 RPC 요청 수입니다.
proxy_peer_server_rpc_totalcounterTeleport Proxy총 서버 RPC 요청 수입니다.
proxy_peer_server_rpc_duration_secondshistogramTeleport Proxy서버에서 전송한 RPC의 지속 시간(초)입니다.
proxy_peer_server_message_sent_sizehistogramTeleport Proxy서버에서 보낸 메시지 크기입니다.
proxy_peer_server_message_received_sizehistogramTeleport Proxy서버에서 받은 메시지 크기입니다.
proxy_ssh_sessions_totalgaugeTeleport Proxy이 프록시 서비스 인스턴스를 통한 활성 세션 수입니다.
proxy_missing_ssh_tunnelsgaugeTeleport Proxy누락된 SSH 터널의 수입니다. 텔레포트 인스턴스가 모든 프록시 서비스 인스턴스를 발견한 경우 디버깅하는 데 사용됩니다.
remote_clustersgaugeTeleport Proxy리프 클러스터의 인바운드 연결 수입니다.
teleport_connect_to_node_attempts_totalcounterTeleport ProxySSH 서비스에 대한 SSH 연결 시도 횟수. 실패율을 얻으려면 'failed_connect_to_node_attempts_total'과 함께 사용합니다.
teleport_reverse_tunnels_connectedgaugeTeleport Proxy텔레포트 인스턴스에 의해 텔레포트 프록시 서비스에 연결된 역 SSH 터널의 수입니다.
trusted_clustersgaugeTeleport Proxy리프 클러스터에 대한 아웃바운드 연결 수입니다.
teleport_proxy_db_connection_setup_time_secondshistogramTeleport Proxy프록시 서비스에서 DB 서비스에 연결할 시간입니다.
teleport_proxy_db_connection_dial_attempts_totalcounterTeleport Proxy프록시에서 DB 서비스로의 다이얼 시도 횟수.
teleport_proxy_db_connection_dial_failures_totalcounterTeleport Proxy프록시에서 DB 서비스로의 다이얼 시도 실패 횟수.
teleport_proxy_db_attempted_servers_totalhistogramTeleport Proxy프록시 서비스에서 DB 서비스로의 연결 시도 중에 처리된 서버 수입니다.
teleport_proxy_db_connection_tls_config_time_secondshistogramTeleport Proxy프록시 서비스에서 DB 서비스에 연결하기 위한 TLS 구성을 가져올 시간입니다.
teleport_proxy_db_active_connections_totalgaugeTeleport Proxy프록시 서비스에서 현재 활성화된 DB 서비스 연결 수입니다.

Database Service

NameTypeComponentDescription
teleport_db_messages_from_client_totalcounterTeleport Database ServiceDB 클라이언트로부터 받은 메시지(패킷) 수입니다.
teleport_db_messages_from_server_totalcounterTeleport Database ServiceDB 서버로부터 받은 메시지(패킷) 수입니다.
teleport_db_method_call_count_totalcounterTeleport Database ServiceDB 메서드가 호출된 횟수입니다.
teleport_db_method_call_latency_secondshistogramTeleport Database ServiceDB 메서드 호출의 통화 지연 시간.
teleport_db_initialized_connections_totalcounterTeleport Database Service초기화된 DB 연결 수입니다.
teleport_db_active_connections_totalgaugeTeleport Database Service활성 DB 연결 수입니다.
teleport_db_connection_durations_secondshistogramTeleport Database ServiceDB 연결 기간입니다.
teleport_db_connection_setup_time_secondshistogramTeleport Database Service요청이 처리되기 전 DB 연결을 설정하는 초기 시간입니다..
teleport_db_errors_totalcounterTeleport Database Service클라이언트에 전송된 합성 DB 오류 수입니다.

Kubernetes Access

다음 표에서는 프록시 서비스에서 사용할 수 있는 모든 메트릭을 식별합니다 Kubernetes 액세스가 활성화되었습니다.

클라이언트

다음 표는 서비스가 연결될 때 사용할 수 있는 모든 메트릭을 식별합니다 업스트림 서버로. '프록시'의 경우 업스트림 서버는 레거시 모드에서 실행 중인 경우 '쿠버네티스_서비스' 또는 '쿠버네티스 클러스터'입니다.

이름타입컴포넌트설명
teleport_kubernetes_client_in_flight_requestsgaugeTeleport Kubernetes Proxy업스트림 응답을 기다리는 기내 요청입니다.
teleport_kubernetes_client_requests_totalcounterTeleport Kubernetes Proxy업스트림 텔레포트 프록시, kube_service 또는 Kubernetes 클러스터 서버로 보낸 총 요청 수입니다.
teleport_kubernetes_client_tls_duration_secondshistogramTeleport Kubernetes ProxyTLS 악수의 지연 시간 분포.
teleport_kubernetes_client_got_conn_duration_secondshistogramTeleport Kubernetes Proxy역터널 또는 다이렉트 다이얼러를 사용하여 업스트림 서버로 다이얼하는 데 걸리는 지연 시간 분포.
teleport_kubernetes_client_first_byte_response_duration_secondshistogramTeleport Kubernetes Proxy업스트림 서버로부터 첫 번째 응답 바이트를 수신하는 데 걸리는 지연 시간 분포입니다.
teleport_kubernetes_client_request_duration_secondshistogramTeleport Kubernetes Proxy업스트림 요청 시간의 지연 시간 분포입니다.

서버

다음 표는 수신 연결에 사용할 수 있는 모든 메트릭을 식별합니다.

이름타입컴포넌트설명
teleport_kubernetes_server_in_flight_requestsgaugeTeleport Kubernetes Proxy현재 서버에서 처리 중인 기내 요청입니다.
teleport_kubernetes_server_api_requests_totalcounterTeleport Kubernetes Proxy서버에서 처리한 총 요청 수입니다.
teleport_kubernetes_server_request_duration_secondshistogramTeleport Kubernetes Proxy총 요청 시간의 지연 시간 분포입니다.
teleport_kubernetes_server_response_size_byteshistogramTeleport Kubernetes Proxy응답 크기 분포입니다.
teleport_kubernetes_server_exec_in_flight_sessionsgaugeTeleport Kubernetes Proxy활성 큐브 실행 세션 수입니다.
teleport_kubernetes_server_exec_sessions_totalcounterTeleport Kubernetes Proxy쿠벡틀 실행 세션의 총 수입니다.
teleport_kubernetes_server_portforward_in_flight_sessionsgaugeTeleport Kubernetes Proxy활성 큐브 포트포워드 세션 수입니다.
teleport_kubernetes_server_portforward_sessions_totalcounterTeleport Kubernetes Proxy활성 큐브 포트포워드 세션 수입니다.
teleport_kubernetes_server_join_in_flight_sessionsgaugeTeleport Kubernetes Proxy활성 가입 세션 수,
teleport_kubernetes_server_join_sessions_totalcounterTeleport Kubernetes Proxy총 가입 세션 수입니다.

텔레포트 SSH 서비스

NameTypeComponentDescription
user_max_concurrent_sessions_hit_totalcounterTeleport SSH사용자가 동시 세션 제한을 초과한 횟수입니다.

텔레포트 Kubernetes 서비스

다음 표는 서비스가 연결될 때 사용할 수 있는 모든 메트릭을 식별합니다 업스트림 서버로. 'kubernetes_service'의 경우 업스트림 서버입니다 는 항상 쿠버네티스 클러스터입니다.

이름타입컴포넌트설명
teleport_kubernetes_client_in_flight_requestsgaugeTeleport Kubernetes Service업스트림 응답을 기다리는 비편 요청입니다.
teleport_kubernetes_client_requests_totalcounterTeleport Kubernetes Service업스트림 텔레포트 프록시, kube_service 또는 Kubernetes 클러스터 서버로 보낸 총 요청 수입니다.
teleport_kubernetes_client_tls_duration_secondshistogramTeleport Kubernetes ServiceTLS 악수의 지연 시간 분포.
teleport_kubernetes_client_got_conn_duration_secondshistogramTeleport Kubernetes Service업스트림 서버로 다이얼하는 데 걸리는 지연 시간 분포 - 역터널 또는 직접 다이얼을 사용합니다.
teleport_kubernetes_client_first_byte_response_duration_secondshistogramTeleport Kubernetes Service업스트림 서버로부터 첫 번째 응답 바이트를 수신하는 데 걸리는 지연 시간 분포입니다.
teleport_kubernetes_client_request_duration_secondshistogramTeleport Kubernetes Service업스트림 요청 시간의 지연 시간 분포입니다.

다음 표는 수신 연결에 사용할 수 있는 모든 메트릭을 식별합니다.

이름타입컴포넌트설명
teleport_kubernetes_server_in_flight_requestsgaugeTeleport Kubernetes Service현재 서버에서 처리 중인 기내 요청입니다.
teleport_kubernetes_server_api_requests_totalcounterTeleport Kubernetes Service서버에서 처리한 총 요청 수입니다.
teleport_kubernetes_server_request_duration_secondshistogramTeleport Kubernetes Service총 요청 시간의 지연 시간 분포입니다.
teleport_kubernetes_server_response_size_byteshistogramTeleport Kubernetes Service응답 크기 분포입니다.
teleport_kubernetes_server_exec_in_flight_sessionsgaugeTeleport Kubernetes Service활성 큐브 실행 세션 수입니다.
teleport_kubernetes_server_exec_sessions_totalcounterTeleport Kubernetes Service쿠벡틀 실행 세션의 총 수.
teleport_kubernetes_server_portforward_in_flight_sessionsgaugeTeleport Kubernetes Service활성 큐브 포트포워드 세션 수입니다.
teleport_kubernetes_server_portforward_sessions_totalcounterTeleport Kubernetes Service활성 큐브 포트포워드 세션 수입니다.
teleport_kubernetes_server_join_in_flight_sessionsgaugeTeleport Kubernetes Service활성 가입 세션 수,
teleport_kubernetes_server_join_sessions_totalcounterTeleport Kubernetes Service총 가입 세션 수입니다.

모든 텔레포트 인스턴스

이름타입컴포넌트설명
process_stategaugeTeleport텔레포트 프로세스의 상태: 0 - OK, 1 - 복구, 2 - 성능 저하, 3 - 시작.
certificate_mismatch_totalcounterTeleport인증서 불일치로 인한 SSH 서버 로그인 실패 횟수입니다.
rxcounterTeleportSSH 연결 중에 받은 바이트 수입니다.
server_interactive_sessions_totalgaugeTeleport활성 세션 수입니다.
teleport_build_infogaugeTeleportgitref(기트 설명 --길다 --태그), Go 버전, 텔레포트 버전 등 텔레포트의 빌드 정보를 제공합니다. 이 게이지의 값은 항상 1이 됩니다.
teleport_breaker_connector_executions_totalcounterTeleport커넥터의 '역할'(거의 항상 '인스턴스'), 관련 차단기의 '상태', 차단기가 해석한 '성공'으로 표시된 텔레포트 서비스에서 수행하는 차단기를 통과하는 텔레포트 인증 서비스 API에 요청한 횟수입니다.
teleport_cache_eventscounterTeleport텔레포트 서비스 캐시가 수신한 이벤트 수입니다. 텔레포트의 인증 서비스, 프록시 서비스 및 기타 서비스는 해당 서비스와 관련된 수신 이벤트를 캐시합니다.
teleport_cache_stale_eventscounterTeleport텔레포트 서비스 캐시가 수신한 오래된 이벤트 수입니다. 오래된 이벤트의 비율이 높으면 백엔드가 저하될 수 있습니다.
txcounterTeleportSSH 연결 중에 전송된 바이트 수입니다.

런타임 메트릭 이동

이러한 메트릭은 이동 실행 시간에 의해 표면화되며 텔레포트에만 국한되지 않습니다.

이름타입컴포넌트설명
go_gc_duration_secondssummaryInternal GoGC 호출 기간 요약입니다.
go_goroutinesgaugeInternal Go현재 존재하는 고루틴 수입니다.
go_infogaugeInternal GoGo 환경에 대한 정보입니다.
go_memstats_alloc_bytes_totalcounterInternal Go자유로워지더라도 할당된 총 바이트 수입니다.
go_memstats_alloc_bytesgaugeInternal Go할당되었지만 여전히 사용 중인 바이트 수입니다.
go_memstats_buck_hash_sys_bytesgaugeInternal Go프로파일링 버킷 해시 테이블에 사용된 바이트 수입니다.
go_memstats_frees_totalcounterInternal Go총 무료 횟수입니다.
go_memstats_gc_cpu_fractiongaugeInternal Go프로그램이 시작된 이후 GC가 사용한 이 프로그램의 사용 가능한 CPU 시간 중 극히 일부입니다.
go_memstats_gc_sys_bytesgaugeInternal Go가비지 수집 시스템 메타데이터에 사용된 바이트 수입니다.
go_memstats_heap_alloc_bytesgaugeInternal Go할당되었지만 여전히 사용 중인 힙 바이트 수입니다.
go_memstats_heap_idle_bytesgaugeInternal Go사용 대기 중인 힙 바이트 수입니다.
go_memstats_heap_inuse_bytesgaugeInternal Go사용 중인 힙 바이트 수입니다.
go_memstats_heap_objectsgaugeInternal GoNumber of allocated objects.
go_memstats_heap_released_bytesgaugeInternal Go할당된 개체 수입니다.
go_memstats_heap_sys_bytesgaugeInternal Go시스템에서 얻은 힙 바이트 수입니다.
go_memstats_last_gc_time_secondsgaugeInternal Go마지막 가비지 컬렉션의 유닉스 시대 이후의 초 수입니다.
go_memstats_lookups_totalcounterInternal Go총 포인터 검색 수입니다.
go_memstats_mallocs_totalcounterInternal Go총 malloc 수입니다.
go_memstats_mcache_inuse_bytesgaugeInternal Go맥캐시 구조에서 사용 중인 바이트 수입니다.
go_memstats_mcache_sys_bytesgaugeInternal Go시스템에서 가져온 맥캐시 구조에 사용된 바이트 수입니다.
go_memstats_mspan_inuse_bytesgaugeInternal Gomspan 구조에서 사용 중인 바이트 수입니다.
go_memstats_mspan_sys_bytesgaugeInternal Go시스템에서 가져온 mspan 구조에 사용된 바이트 수입니다.
go_memstats_next_gc_bytesgaugeInternal Go다음 가비지 컬렉션이 수행되는 힙 바이트 수입니다.
go_memstats_other_sys_bytesgaugeInternal Go다른 시스템 할당에 사용된 바이트 수입니다.
go_memstats_stack_inuse_bytesgaugeInternal Go스택 할당기에서 사용 중인 바이트 수입니다.
go_memstats_stack_sys_bytesgaugeInternal Go스택 할당기에 대해 시스템에서 얻은 바이트 수입니다.
go_memstats_sys_bytesgaugeInternal Go시스템에서 얻은 바이트 수
go_threadsgaugeInternal Go생성된 OS 스레드 수입니다.
process_cpu_seconds_totalcounterInternal Go사용자 및 시스템 CPU 총 소요 시간(초)입니다.
process_max_fdsgaugeInternal Go열린 파일 설명자의 최대 수
process_open_fdsgaugeInternal Go열려 있는 파일 설명자 수입니다.
process_resident_memory_bytesgaugeInternal Go상주 메모리 크기(바이트)입니다.
process_start_time_secondsgaugeInternal Go유닉스 시대 이후 프로세스의 시작 시간(초)입니다.
process_virtual_memory_bytesgaugeInternal Go가상 메모리 크기(바이트)입니다.
process_virtual_memory_max_bytesgaugeInternal Go사용 가능한 최대 가상 메모리 양(바이트).

Prometheus

이름타입컴포넌트설명
promhttp_metric_handler_requests_in_flightgaugeprometheus현재 제공 중인 스크래핑 수입니다.
promhttp_metric_handler_requests_totalcounterprometheusHTTP 상태 코드별 총 스크래핑 수입니다.

분산 추적

Teleport 인스턴스에 대한 분산 추적을 활성화하는 방법입니다.

Teleport는 OpenTelemetry를 사용하여 추적을 생성하고 이를 모든 OpenTelemetry Protocol (OTLP) 가능 수출업체로 내보냅니다. 만약 텔레메트리 백엔드가 OTLP 추적 수신을 지원하지 않는 경우, OpenTelemetry Collector를 활용하여 OTLP에서 텔레메트리 백엔드가 수용하는 포맷으로 추적을 프록시할 수 있습니다.

Teleport 구성

teleport 인스턴스의 추적을 활성화하려면 해당 인스턴스의 구성 파일(/etc/teleport.yaml)에 다음 섹션을 추가합니다. 이러한 구성 필드에 대한 상세 설명은 구성 참조 페이지를 참조하세요.

tracing_service:
   enabled: yes
   exporter_url: grpc://collector.example.com:4317
   sampling_rate_per_million: 1000000

샘플링 비율

샘플링 비율을 신중하게 선택하는 것이 중요합니다. 100% 비율로 샘플링하면 클러스터의 성능에 부정적인 영향을 줄 수 있습니다. Teleport는 들어오는 요청에 포함된 샘플링 비율을 준수하므로, tracing_service가 활성화되고 샘플링 비율이 0인 경우에도 Teleport가 샘플이 적용된 스팬이 있는 요청을 수신하면 그 요청에 대한 모든 스팬을 샘플링하고 수출합니다.

수출업체 URL

exporter_url 설정은 Teleport가 스팬을 보낼 위치를 나타냅니다. 지원되는 스킴은 grpc://, http://, https://, 및 file://입니다(스킴이 제공되지 않으면 grpc://가 사용됩니다).

file://를 사용하는 경우 URL은 Teleport가 쓰기 권한이 있는 디렉토리 경로여야 합니다. 스팬은 제공된 디렉토리 내의 파일에 저장되며, 각 파일은 한 줄에 하나의 프로토 인코딩된 스팬을 포함합니다. 파일은 100MB를 초과하면 회전하며, 기본 제한을 덮어쓰려면 exporter_url?limit=<원하는_파일_크기_바이트>를 추가합니다(예: file:///var/lib/teleport/traces?limit=100).

기본적으로 수출업체와의 연결은 안전하지 않으므로, TLS를 지원하기 위해 다음을 tracing_service 구성에 추가하세요.

   # 선택적 경로로 CA 인증서는 수출업체의 유효성을 검사하는 데 사용됩니다.
  ca_certs:
    - /var/lib/teleport/exporter_ca.pem
  # 선택적 경로로 TLS 인증서는 수출업체에 대해 mTLS를 활성화하는 데 사용됩니다.
  https_keypairs:
    - key_file: /var/lib/teleport/exporter_key.pem
      cert_file: /var/lib/teleport/exporter_cert.pem

teleport.yaml을 업데이트한 후, 새 구성을 적용하려면 teleport 인스턴스를 시작하세요.

tsh

tsh에서 추적을 캡처하려면 명령에 --trace 플래그를 추가하세요. tsh --trace에 의해 생성된 모든 추적은 명령이 실행되는 클러스터의 인증 서비스에 대해 정의된 exporter_url로 프록시됩니다.

tsh --trace ssh root@myserver
tsh --trace ls

tsh에서 인증 서비스 구성에 정의된 것과 다른 수출업체로 추적을 내보내는 것도 --trace-exporter 플래그를 통해 가능합니다. URL은 tracing_serviceexporter_url과 동일한 형식을 따라야 합니다.

tsh --trace --trace-exporter=grpc://collector.example.com:4317 ssh root@myserver
tsh --trace --trace-exporter=file:///var/lib/teleport/traces ls

프로파일 수집

Teleport 인스턴스에서 런타임 프로파일링 데이터를 수집하는 방법입니다.

Teleport는 Go의 진단 기능을 사용하여 프로파일링 데이터를 수집하고 내보냅니다. 프로파일은 CPU 스파이크의 원인, 메모리 누수의 출처, 혹은 교착 상태의 이유를 식별하는 데 도움이 됩니다.

디버그 서비스 사용

Teleport 디버그 서비스는 관리자가 pprof 엔드포인트를 시작할 때 활성화하지 않고도 진단 프로파일을 수집할 수 있도록 합니다. 기본적으로 활성화된 이 서비스는 로컬 전용 접근을 보장하며 동일한 인스턴스 내에서 소비되어야 합니다.

teleport debug profile은 pprof 프로파일 목록을 수집합니다. 압축된 tarball(.tar.gz)을 STDOUT으로 출력합니다. 이는 tar를 사용하여 압축을 해제하거나 결과를 파일로 직접 전달할 수 있습니다.

기본적으로 goroutine, heapprofile 프로파일이 수집됩니다.

수집된 각 프로파일은 tarball 내에 해당 파일이 있습니다. 예를 들어, goroutine,trace,heap을 수집하면 goroutine.pprof, trace.pprofheap.pprof 파일이 생성됩니다.

기본 프로파일 수집 후 파일로 저장.

teleport debug profile > pprof.tar.gz
tar xvf pprof.tar.gz

기본 프로파일을 수집하고 압축 해제.

teleport debug profile | tar xzv -C ./

"trace" 및 "mutex" 프로파일 수집 후 파일로 저장.

teleport debug profile trace,mutex > pprof.tar.gz

프로파일링 시간을 초로 설정하여 프로파일 수집.

teleport debug profile -s 20 trace > pprof.tar.gz
텔레포트 구성 경로 지정하기

기본 경로(/etc/teleport.yaml)에 텔레포트 구성이 없으면, CLI 명령에 -c/--config 플래그를 사용하여 그 위치를 지정해야 합니다.

Kubernetes 클러스터에서 Teleport를 실행 중인 경우, 대화식 세션 없이 로컬 디렉토리에 프로파일을 직접 수집할 수 있습니다:

kubectl -n teleport exec my-pod -- teleport debug profile > pprof.tar.gz

내용을 압축 해제한 후, go tool 명령을 사용하여 탐색하고 시각화할 수 있습니다:

터미널 대화형 탐색기 열기

go tool pprof heap.pprof

웹 시각화 도구 열기

go tool pprof -http : heap.pprof

추적 프로파일 시각화

go tool trace trace.pprof

진단 엔드포인트 사용

프로파일링 엔드포인트는 --debug 플래그가 제공된 경우에만 활성화됩니다.

Teleport의 진단 HTTP 엔드포인트는 기본적으로 비활성화되어 있습니다. 다음을 통해 활성화할 수 있습니다:

--diag-addr 플래그가 설정된 teleport 인스턴스를 시작하여 진단 엔드포인트가 수신 대기할 로컬 주소를 지정하세요:

sudo teleport start --debug --diag-addr=127.0.0.1:3000

teleport 인스턴스의 구성 파일(/etc/teleport.yaml가 기본값임)을 편집하여 다음을 포함하세요:

teleport:
    diag_addr: 127.0.0.1:3000

디버그 로그를 활성화하려면:

log:
    severity: DEBUG

Teleport가 이제 진단 엔드포인트를 제공하는지 확인하세요:

curl http://127.0.0.1:3000/healthz

프로파일 수집

Go의 표준 프로파일링 엔드포인트는 http://127.0.0.1:3000/debug/pprof/에서 제공됩니다. 프로파일을 검색하려면 원하는 프로파일 유형에 해당하는 엔드포인트에 요청을 보내야 합니다. 문제를 디버깅할 때 특정 기간 동안 프로파일을 수집하는 것이 도움이 됩니다.

CPU

CPU 프로파일은 사용자 지정 기간 동안 수집된 실행 통계를 보여줍니다:

프로파일을 파일로 다운로드:

curl -o cpu.profile http://127.0.0.1:3000/debug/pprof/profile?seconds=30

프로파일 시각화

go tool pprof -http : cpu.profile

Goroutine

Goroutine 프로파일은 시스템에서 실행 중인 모든 goroutine의 스택 추적을 보여줍니다:

프로파일을 파일로 다운로드:

curl -o goroutine.profile http://127.0.0.1:3000/debug/pprof/goroutine

프로파일 시각화

go tool pprof -http : goroutine.profile

Heap

Heap 프로파일은 시스템에서 할당된 개체를 보여줍니다:

프로파일을 파일로 다운로드:

curl -o heap.profile http://127.0.0.1:3000/debug/pprof/heap

프로파일 시각화

go tool pprof -http : heap.profile

Trace

Trace 프로파일은 스케줄링, 시스템 호출, 가비지 수집, 힙 크기 및 Go 런타임에 의해 수집된 기타 이벤트를 사용자 지정 기간 동안 캡처합니다:

프로파일을 파일로 다운로드:

curl -o trace.out http://127.0.0.1:3000/debug/pprof/trace?seconds=5

프로파일 시각화

go tool trace trace.out

추가 읽기

Teleport 원문 보기