Stability AI veröffentlicht DeepFloyd IF – ein Bildgenerierungsmodell das leserliche Schrift erzeugen kann.

Am 28. April hat Stability AI gemeinsam mit seinem Multimodal AI-Forschungslabor DeepFloyd die Veröffentlichung von DeepFloyd IF bekanntgegeben. Es handelt sich um ein leistungsstarkes textbasiertes Bildgenerierungsmodell.

DeepFloyd IF ist ein topaktuelles Modell für die Text-zu-Bild-Generierung, das unter einer nichtkommerziellen, forschungserlaubten Lizenz veröffentlicht wurde. Dadurch haben Forschungslabore die Möglichkeit, mit fortschrittlichen Ansätzen zur Text-zu-Bild-Generierung zu experimentieren. Wie auch bei anderen Modellen von Stability AI soll DeepFloyd IF in Zukunft vollständig Open Source veröffentlicht werden.

Im Gegensatz zu allen vorhergehenden Bildgeneratoren ist DeepFloyd IF in der Lage leserliche Schrift zu erzeugen. Für die Generierung von Bildern wird das große Sprachmodell T5-XXL-1.1 als Text-Encoder verwendet. Eine große Anzahl von Text-Bild-Kreuz-Aufmerksamkeitsschichten verbessert die Ausrichtung von Textvorgaben und Bildern. Mithilfe der Intelligenz des T5-Modells generiert DeepFloyd IF klare und kohärente Texte neben Objekten mit unterschiedlichen Eigenschaften und in verschiedenen räumlichen Beziehungen. Bislang waren solche Anwendungsfälle für die meisten Text-zu-Bild-Generierungsmodelle eine große Herausforderung.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert