30. September 2023
Posenet 2 - TensorFlow Google - Software erkennt menschliche Posen

Posenet 2.0 – Posen von Menschen in Echtzeit über KI erkennen

PoseNet 2.0. ist eine aktualisierte Version der Software von Google auf TensorFlow™ Basis, die die Pose einer Person in einem Bild oder Video lesen kann. Sie erkennt zum Beispiel, wo sich der Ellenbogen einer Person befindet. Dieser Algorithmus speichert keine Bilder sondern erkennt über eine Webcam in Echtzeit, wo sich welcher Körperteil befindet. Posenet kann mehrere Personen gleichzeitig in ihren Bewegungen erkennen.

Mit PoseNet 2.0 bringt der KI Gigant Google eine Software auf den Markt, die für Entwickler sehr einfach anzuwenden ist. Viele alternative Posen-Erkennungssysteme sind zwar Open Source, aber alle erfordern spezielle Hardware und/oder Kameras sowie eine ganze Reihe von Systemeinstellungen.  PoseNet 2.0 benötigt hingegen keine teure Hardware und läuft über TensorFlow.js direkt im Web Browser. Diese Technologie erkennt nicht, wer sich in einem Bild befindet – es gibt keine persönlichen, identifizierbaren Informationen, die mit der Posenerkennung verbunden sind. Der Algorithmus schätzt lediglich, wo sich die wichtigsten Körperteile- und Gelenke wie Nase, Augen, Ohren, Schultern, Ellbogen, Hüfte, Handgelenke, Knie und Knöchel befinden.

Wie funktioniert PoseNet 2.0?

Die Leistung variiert je nach Gerät und Ausgabeschritt (Heatmaps und Offsetvektoren). Das PoseNet-Modell kann Posen-Positionen im gleichen Maßstab wie das Originalbild vorhersagen, unabhängig davon, ob das Bild verkleinert wird. Dies bedeutet, dass PoseNet so konfiguriert werden kann, dass es eine höhere Genauigkeit auf Kosten der Leistung bietet.

Der Algorithmus kann bis zu 5 Posen erkennen

PoseNet kann entweder zur Schätzung einer einzelnen Pose oder mehrerer Posen verwendet werden, d. h. es gibt eine Version des Algorithmus, die nur eine Person in einem Bild oder Video erkennen kann, sowie eine Version, die bis zu 5 Posen von Personen erkennen kann.

Je höher der Ausgabeschritt, desto geringer ist die Auflösung der Schichten im Netzwerk und der Outputs und damit deren Genauigkeit. Der Ausgabeschritt kann die Werte 8, 16 oder 32 haben. Ein Ausgabeschritt von 32 führt demnach zur schnellsten Leistung bei geringster Genauigkeit, während 8 zur höchsten Genauigkeit bei langsamster Leistung führt.

Posenet Google
Das folgende Bild zeigt, wie der Output im Verhältnis zur Größe des Eingangsbildes verkleinert wird. Ein höherer Output ist schneller, führt aber zu einer geringeren Genauigkeit. Quelle: Tensorflow

Posenet 2.0 ist auch für Einsteiger zugängliche und inspiriert Anwender auf der ganzen Welt. Die Software bietet viele Einsatzmöglichkeiten, von interaktiven Kunst-Installationen, die auf Körper reagieren, über Augmented Reality Projekte bis hin zu Fitnessanwendungen.

Autistisches digitales Plakat – AI for Good

Eine besonders interessante PoseNet 2.0 Anwendung ist eine aktuelle KI-Werbekampagne der Digitalen Kreativagentur TUNNEL23 für das Autismuszentrum Sonnenschein. Sie nutzt die Software in Verbindung mit einem Digital Out Of Home Screen, um auf die Anliegen autistischer Menschen aufmerksam zu machen.

Weiterführende Links für PoseNet mit detaillierten Informationen:
> PoseNet Übersicht (Google)
> PoseNet auf Github

 

Michael Katzlberger

Michael Katzlberger widmet sich mit Leidenschaft dem Thema Künstliche Intelligenz in der Kreativindustrie, berät Unternehmen und gibt sein Wissen in Seminaren, Lehrveranstaltungen und Gastvorträgen im In- und Ausland weiter. Sein Schwerpunkt liegt hierbei darauf, das Thema KI zu entmystifizieren, um es EPUs, KMUs und der breiteren Öffentlichkeit besser zugänglich zu machen. 2022 gründete er 3LIOT.ai, eine hybride Kreativagentur aus Mensch und KI. Das Ziel: Die Grenzen menschlicher Kreativität zu erweitern.

Alle Beiträge ansehen von Michael Katzlberger →
%d Bloggern gefällt das: