[Devnet] 솔라나 밸리데이터 실행기 3 - telegraf, InfluxDB, Grafana로 모니터링하기
데브넷에 올린 밸리데이터의 성능이 처참하지만(...) 그래도 서버를 대여하기 전에 여기서라도
- 밸리데이터 실행 중 오류 발생 시
- 밸리데이터 노드 다운 시
- 밸리데이터 돌리는 서버 다운 시
를 대비한 알림 및 모니터링을 어떻게 할지 준비해봐야할 것 같았다.
현재 1번과 2번은 저번 게시글에서 오류가 발생하거나 밸리데이터가 꺼졌을 경우 해당 서버에서 모니터링하다가 슬랙으로 알림을 보내게끔 세팅해두었다(1번의 실행 중 발생한 에러는 슬랙/디스코드/텔레그램 등으로 보낼 수 있도록 솔라나에서 watchtower를 지원하고 있어 사용해봤음).
3번은 그라파나에서 알림 기능도 지원한대서 사용해보려고 하고 있다.
그래도 텍스트로만 오류를 보고 모니터링하는 것은 다소 불편한 것 같아서, 여러 지표를 한눈에 볼 수 있는 모니터링 수단을 찾아봤다. 마침 디스코드 커뮤니티에 올라온 모니터링 관련 깃허브 소스가 있어 올려봤다.
GitHub - stakeconomy/solanamonitoring
Contribute to stakeconomy/solanamonitoring development by creating an account on GitHub.
github.com
위의 소스를 이용해 Telegraf(수집), InfluxDB(저장), Grafana(대시보드) 조합으로 모니터링을 할 수 있었다.
커뮤니티 대시보드를 제공해주기 때문에 자체 모니터링 시스템을 설정할 필요가 없어 좋더라.
실행 결과
1. 슬롯 뒤쳐질 때 모니터링 결과
슬롯이 뒤쳐져서인지, 껐다 켠지 얼마 안되어 에포크에 적용이 안돼서인지 Delinquent 상태로 나온다.
안 나오는 것도 있고 안 돌아가다보니 그래프가 대부분 일자로 되어있어서 그나마 유의미한 그래프만 가져와봤다.
이런 식으로 언제 서버를 껐다 켰는지도 확인할 수 있다.
2. 슬롯 따라잡았을 때 모니터링 결과
최근 24시간에 대해 밸리데이터 상태를 표시하게 했더니 Validating 상태로 잘 조회가 된다.
이틀 전에는 꺼져있었어서 그런지 최근 2일에 대해 조회해보면 Dellinquent 상태로 나오더라.
그러므로 밑의 그래프들은 최근 24시간에 대해서 조회해보았다.
skiprate는 0으로 나오고, 리더슬롯은 아직 배정받은 적이 없어서 0으로 나온다.
내 밸리데이터의 leader slot도 계획돼 있긴 하다. 내일쯤 관찰할 수 있을 것 같다.
credits 에 대한 그래프다.
투표 비율도 로그 모양으로 올라가는 중이다.
투표를 열심히 하면서 수수료만 꾸준히 내고 있는 모습이다. 하루에 1 SOL 정도씩 빠진다.
현 네트워크에서 active stake 중 밸리데이터가 비활성화 상태라서 delinquent 된 stake 의 비율도 보여주는 듯.