Stability AI veröffentlicht DeepFloyd IF – ein Bildgenerierungsmodell das leserliche Schrift erzeugen kann.

Am 28. April hat Stability AI gemeinsam mit seinem Multimodal AI-Forschungslabor DeepFloyd die Veröffentlichung von DeepFloyd IF bekanntgegeben. Es handelt sich um ein leistungsstarkes textbasiertes Bildgenerierungsmodell.

DeepFloyd IF ist ein topaktuelles Modell für die Text-zu-Bild-Generierung, das unter einer nichtkommerziellen, forschungserlaubten Lizenz veröffentlicht wurde. Dadurch haben Forschungslabore die Möglichkeit, mit fortschrittlichen Ansätzen zur Text-zu-Bild-Generierung zu experimentieren. Wie auch bei anderen Modellen von Stability AI soll DeepFloyd IF in Zukunft vollständig Open Source veröffentlicht werden.

Im Gegensatz zu allen vorhergehenden Bildgeneratoren ist DeepFloyd IF in der Lage leserliche Schrift zu erzeugen. Für die Generierung von Bildern wird das große Sprachmodell T5-XXL-1.1 als Text-Encoder verwendet. Eine große Anzahl von Text-Bild-Kreuz-Aufmerksamkeitsschichten verbessert die Ausrichtung von Textvorgaben und Bildern. Mithilfe der Intelligenz des T5-Modells generiert DeepFloyd IF klare und kohärente Texte neben Objekten mit unterschiedlichen Eigenschaften und in verschiedenen räumlichen Beziehungen. Bislang waren solche Anwendungsfälle für die meisten Text-zu-Bild-Generierungsmodelle eine große Herausforderung.

Beer with me | Die Social Network App für’s Trinken

Mit “Beer with me” ist es möglich, das alleine Trinken zu vermeiden. Die App ist sowohl für iOS als auch Android verfügbar und ermöglicht es den Nutzern, Freunde zu finden, die sich in einer Trink-Location eingeloggt haben. Wenn man Lust auf ein kühles Bier (oder auch ein anderes Getränk) hat, kann man auf der App-Karte nachschauen, wer sich gerade in der Nähe aufhält und gerade seinen Durst stillt. Wenn ihr wissen wollt, wo der Ottic so seine Drinks reinkippt, dann scannt den folgenden Barcode.