Ich nutzte Munin seitdem ich meine Serverstruktur am laufen habe und es hat mir gute Dienste geleistet.
Eine Sache hat mich doch immer ein wenig gestört. Ich besitze Geräte/Nodes die nicht 24/7 online sind, jedoch auch überwacht werden wollen, da sie keine direkte Interaktion mit dem Nutzer zulassen (oder der Nutzer es nicht will). Kurz: mein HTPC soll meckern, wenn was ist, aber bitte nicht während man gerade genüsslich einen Film schaut!
Bis „vor kurzem“ kam es dabei auf Seiten Munin immer zu Fehlermeldungen wie „WARNING <node>.<value> unknown“. Eine Mail mit solchen Zusammenfassung gab es am Tag mindestens 2 Mal. Einmal mit „Unknown“ und einmal mit „OK“ wenn der Rechner wieder da war. Unter den ganzen Unknown/OK Meldungen gingen die wirklich wichtigen Meldungen wie WARNING/ERROR/NOTICE leider unter, so dass ich einmal wöchentlich die Statistik aufrufen musste und nachschauen durfte…
es gibt Abhilfe. Man kann in der Munin-(Server)-Konfiguration bei der Node folgendes angeben:
df._sdb1.unknown_limit 300
In dem oben angebenen Fall würde für das Plugin df Fieldname sdb1 erst nach 300 „Unknown“ Meldung wirklich eine Mail ausgelöst werden. Bei 5 Minuten pro Prüfungen macht das 25 Stunden, die der Rechner offline sein kann, ohne dass es eine Warnmeldung gibt.
Nachteil an der Sache, man muss das für jeden Plugin/Feldwert machen. Das führt in jedem Fall zur Plugin-Hygiene!