Willkommen: bcAdmin 4 Artbestimmung mit CoreML

22. Februar 2024

Ein bereits länger andauerndes Projekt ist die Neuauflage von batIdent ergänzt durch neue Referenzaufnahmen und neue Rufmesswerte. Seit Ende 2023 liegt ein neuer Klassifizierungsalgorithmus vor, der bereits einen Teil der neuen Aufnahmen enthält und die Klassifizierung mittels zusätzlicher, neuer Messwerte durchführt. Wir wollen Ihnen im folgenden die Datengrundlage und das Vorgehen zur Erstellung solcher neuer Klassifizierer vorstellen. Weiterhin stellen wir die Ergebnisse und die Qualitätsbeurteilung dieser Klassifizierer, die auf verschiedenen taxonomischen Ebenen arbeiten, vor. Anwender von bcAdmin mit einer Lizenz, die wenigstens Updates für das Jahr 2024 beinhaltet, können diese neuen Klassifizierer bereits vorab verwenden und mit den Ergebnissen von batIdent direkt vergleichen.

Momentan sind wir noch in einer Phase, in der die zugrunde liegenden Modelle geprüft und gegebenenfalls überarbeitet werden.

Die Referenzdatenbank

Seit über 15 Jahren pflegen wir eine eigene Referenzdatenbank. Diese verwalten wir mit dem von uns für diesen Zweck entwickelten Software bcRefCalls. Mittlerweile in dritter Generation können wir Aufnahmen nach diversen Aspekten klassifizieren und Messwerte für das Training von sogenannten Modellen aufbereiten. Dabei führen wir aufwendige Kontrollen aller Aufnahmen und Rufe durch. Dadurch haben wir für jede Art solche Rufe, die perfekt aufgezeichnet und vermessen sind - unsere guten Rufe. Daneben haben wir auch solche Rufe, die am Anfang oder Ende des Rufs Fehler (Abbruch, Echoüberlappung, ...) aufweisen als schlechte Rufe. Bruchstücke oder Rufe anderer Arten innerhalb einer Referenzaufnahme werden nicht oder als Andere klassifiziert.

Fürs Training betrachten wir immer zuerst gute und schlechte Rufe getrennt

Für die neuen Ruf-Modelle wurden gute und schlechte Rufe getrennt fürs Training verwendet. Es ergaben sich bei einem Vergleich jedoch kaum Unterschiede in der Bestimmungsqualität. Da bei Freilandaufnahmen in der Regel immer schlechte Rufe aufgezeichnet werden, wurden alle Modelle für die Klassifizierung von Arten mit beiden Typen von Rufen trainiert und evaluiert.


Validierungsdaten

Im Rahmen des Trainings werden immer ein Teil der Aufnahmen für die Validierung des Trainings vom Algorithmus zufällig ausgewählt. In solchen Analysen ist dies ein klassisches Vorgehen. Damit wird das Modell mit Rufen aus den selben Aufnahmen getestet, die bereits im Training verwendet wurden. Wir haben daher einen Satz von 260 Aufnahmen zusammengestellt, die nicht im Training verwendet wurden, jedoch nach ähnlichen Kriterien wie die Referenzaufnahmen ausgewählt worden sind. Dieser Satz stellt relativ unabhängige Aufnahmen dar und erlaubt damit eine bessere Evaluation des Modells.

Diesen Datensatz haben wir öffentlich gemacht

Nach wie vor gibt es keinen einheitlichen Datensatz zum Testen von den verschiedenen Programmen für die automatische Artbestimmung. Wir haben uns dazu entschieden, den von uns erstellten Validierungs-Datensatz frei verfügbar zu machen. Sie können die Aufnahmen herunterladen. Für Anwender von bcAdmin4 ist bereits eine Datenbank im Download inkludiert. Verwenden Sie diesen Datensatz für nicht-kommerzielle Tests. Wir untersagen jedoch die Verwendung für das Training eigener Rufklassifizierer und jegliche kommerzielle Nutzung. Wir hoffen, Sie haben Verständnis für diese eine Einschränkung.

Validierungsdatensatz als ZIP (445 MB)