Liftbridge monitoring
На данный момент Liftbridge самостоятельно не отдаёт метрики вообще, eta: in roadmap q1_2021.
- Так как данный сервис не совсем очередь сообщений, а сервис потоков, которые можно читать с любой точки, надо переосмыслить, как мониторить работу этого компонента системы.
Сейчас коллекторы событий(ping/trapcollector/syslogcollector) шлют сообщения в лифтбридж, из которого classifier'ы их достают и распознают. С уже распознанными событиями работает correlator.
- Одним из ориентиров успешной работы может стать метрика
lag_us
сервиса classifier. Показывает задержку по сравнению с временем создания сообщения в источнике. На данный момент позволит проследить время в пути по маршруту collector -> classifier.
Вопрос о мониторинге остальных путей при переводе их с nsq на liftbridge остаётся открытым