Transformer in der Bildverarbeitung

In den letzten Jahren finden Methoden der Künstlichen Intelligenz (KI) vermehrt Anwendung in unterschiedlichsten Bereichen der industriellen Bildverarbeitung. Durch KI können komplexe Probleme vermehrt mit hoher Genauigkeit gelöst werden, was zu gesteigerter Produktqualität, Prozessoptimierung und Kosteneinsparungen führt. Einen neuen Trend bilden hierbei Transformer-Architekturen, die über ihre Verbreitung in der Sprachverarbeitung auch den Weg in die Bildverarbeitung gefunden haben. Die zunehmende Beliebtheit von den Transformer-Modellen, die durch ihren Self-Attention-Mechanismus globale Kontextinformationen erfassen können, hat einen bedeutenden Einfluss auf die  Weiterentwicklung von KI-Technologien, auch im Bereich der Bildverarbeitung. Gleichzeitig stellen die neuen Methoden Unternehmen vor neue Herausforderungen und stehen in Konkurrenz mit den herkömmlichen Methoden wie Convolutional Neural Networks (CNNs).

Die Studie beschäftigt sich daher mit der Entwicklung in der Bildverarbeitung und der kritischen Gegenüberstellung von Transformer-Ansätzen zu traditionellen CNNs. Hierfür stellt die Studie einen umfassenden Überblick über die Entwicklung von Computer-Vision-Methoden dar, von traditionellen CNNs bis hin zu modernen Transformer-Architekturen. 

Die Ergebnisse der im Rahmen der Studie durchgeführten Benchmarking-Experimente liefern einen objektiven Qualitätsvergleich zwischen Transformer-Modellen und CNNs. Der Vergleich umfasst verschiedene Anwendungsfälle wie Objekterkennung und Segmentierung im 2D- sowie 3D-Kontext. Weiterhin werden die Potenziale und Grenzen von Transformern diskutiert, insbesondere in Bezug auf Datenbedarf, Rechenaufwand und Inferenzzeiten. All das soll den praktischen Einstieg in den Einsatz von Transformer-Modellen für eigene Anwendungsfälle erleichtern.

Download der Studie

* Pflichtfelder