Hugging Face Spaces: der KI-Abenteuerspielplatz

Hugging Face: Screenshot der Spaces, also der KI-App der User
Spaces: Die Machine-Learning-Apps der Hugging Face-Community

Hugging Face Spaces sind eine Art „KI-Store“ mit KI-Apps auf der KI-Plattform Hugging Face. Diese KI-Apps sind oft ziemlich „Beta“, weil direkt aus der Forschung. Du kannst sie meist gratis ausprobieren, und was noch abgefahrener ist, a) klonen und b) dann für dich customizen. Zudem sind viele Angebote Open Source, lese aber bitte immer die Lizenzbedingungen – manche Sachen sind nur für den nicht-kommerziellen Einsatz gratis.

Hugging Face, benannt nach dem dich umarmenden Emoji-Gesicht, kennt man vor allem für die „Leaderboards“, also die KI-Qualitäts-Rankings (und Profis kennen auch die Transformers-Technologie). Dort kann man live zusehen, wie sich die KI-Forschung täglich weiterentwickelt. Hier sind 7 Beispiele für Apps, und ein paar echte Tipps von mir für deinen ersten eigenen HuggingFace Space!

Inhalt

Was ist Hugging Face?

HuggingFace.co ist der große KI-Abenteuerspielplatz. Du kannst dort eigene KI-Produkte basteln, und zwar durch Zugriff auf große Sprachmodelle, Text-to-Speech-Bibliotheken, Bildmanipulationen oder was auch immer. Vor allem aber ist Hugging Face (HF) ein öffentliches Labor, in dem man – oft noch unperfekte – KI-Apps von Mitgliedern bzw. Teams ausprobieren darf. Da sind dann auch Branchengrößen vertreten, die dort an Innovationen basteln. Zudem ist es möglich, KI-Modelle gegeneinander zu benchmarken.

Was sind die Hugging Face Spaces?

Hugging Face Spaces ist eine Art „KI-Appstore“. Jeder „Space“ ist eine „App“. Die Spaces sind (meist) ohne Login frei aus dem Internet zugänglich. Mit einem Account kannst du jederzeit eigene Spaces bauen. Man hat relativ viele Freiheiten und kann sich dank Gradio-Integration relativ schnell Apps erstellen – oder du kannst andere Spaces klonen, auf privat stellen und damit herumexperimentieren. Oft braucht man aber Programmierkenntnisse (Python), kostenpflichtigen API-Zugang zu KIs oder (kostenpflichtige) CPU-Upgrades. Mit Low-Code kommt man relativ weit, aber ist keine No-Code-Welt.
Python-Kenntnisse gelten als Grundvoraussetzung. Wer die nicht hat, versteht beim Blick hinter die Kulissen oft nur Bahnhof.

Manche der Spaces sind State-of-the-art und vielleicht erst wenige Stunden alt, andere wirken auf den ersten Blick sperrig und unverständlich. Zahlreiche Spaces schlafen oder sind kaputt. Ein Beispiel: Mit der Suchfunktion findest du viele Spaces, die „Whisper“ verwenden, eine Sprach-Transkribierungs-Bibliothek. Gehe nicht davon aus, dass du auf Anhieb einen Space findest, der zuverlässig funktioniert.

Eigenen HuggingFace Space erstellen: Anfängerfehler vermeiden

Das rein Technische ist easy, wenn du a) einen HuggingFace Accout erstellt hast und b) zum Anlegen eines eigenen Spaces kommst. Als Voll-Laie wird es jetzt haarig, denn da wird wenig erklärt. Hier sind ein paar Grundlagen-Tipps, quasi als Mini-Tutorial:

  • Erstelle deinen Space als Gradio-Notebook. Gradio gehört zu HuggingFace.
  • Die Programmiersprache ist dann Python.
  • Dein „Programm“ ist z.B. die app.py – du findest sie im Bereich „Files“.
  • Für erste Schritte: Mit Claude (claude.ai) kannst du dir ein erstes Programm in Python schreiben lassen.
    Beispielprompt: „Schreibe mir für einen HuggingFace Space den Code für eine app.py eines Gradio-Notebooks. Das Programm soll Folgendes können:“
  • Stelle dann deinen Space erstmal auf „Private“
  • Ungewohnt: Du nutzt jetzt Python „in der Cloud“. Also ändern sich ein paar Sachen.
    • Am Anfang deines Programms stehen so Sachen wie „import gradio as gr“, also der Import von Bibliotheken
    • Das sieht dann so aus:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import gradio as gr
import os
from dotenv import load_dotenv
import anthropic
import logging
from concurrent.futures import ThreadPoolExecutor, as_completed
import asyncio
import aiohttp
import html

# Set up logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
  • Doch wie kommen die Bibliotheken „ins Programm“? Lege eine Datei „requirements.txt“ an und schreibe die Namen der benötigten Bibliotheken unkommentiert untereinander.
  • Das sieht dann so aus (nicht alle Sachen müssen reingeschrieben werden; „Logging“ geht von Haus aus). Claude kann dir dabei helfen, und Fehlermeldungen des Programms helfen auch.
beautifulsoup4
pandas
gradio
anthropic
python-dotenv
aiohttp
asyncio
  • API-Secrets, Passwörter etc.: Schreibe die nicht in den Code. Schreibe sie nicht in eine .env Datei. Nutze stattdessen das Backend. Sonst können Scriptkiddies deine Zugangsdaten klauen und dir mindestens finanziell schaden. Solltest du es doch machen: HuggingFace hat zwar ein digitales „Trüffelschwein“, das solche Probleme findet und dir per E-Mail mitteilt, aber das kann einen Tag dauern.
    (Woher ich das weiß? Weil ich so eine Mail bekommen habe…)

Ist Hugging Face bzw. Hugging Chat kostenlos?

Ja, Hugging Face ist für den Einstieg kostenlos. Aber natürlich will die Firma Geld verdienen: Man kann kostenpflichtig Rechnerzeit dazukaufen und/oder sich die Hugging Face Pro-Mitgliedschaft für ca. 9 USD im Monat dazubuchen.

Ich habe 7 Beispiele für Hugging Face Spaces rausgesucht, die ein bisschen zeigen, wo die KI-Reise so hingehen kann.

7 Beispiele für KI-Apps bei Hugging Face

1.     Image to Music V2 auf Hugging Face

  • Die Hugging Face-App Image to Music V2 erschafft zu Bildern einen Soundtrack.
  • Das passiert:
  • Erst das Bild hochladen
  • Dann liest ein Image-to-Text-Modul (Kosmos2) den Inhalt des Bildes aus.
  • Dann schreibt das große Sprachmodell daraus einen inspirierenden Musik-Prompt – also das Briefing an den „KI-Komponisten.“
  • Für dieses Bild wurde dieser Prompt automatisch generiert: “A minimalist electronic beat with glitchy textures and pulsating arpeggios, accompanied by a haunting synth melody, evokes a futuristic and technological atmosphere as if the scene is set in a sci-fi laboratory.”
  • Je nach Musiksynthese-Modell kommen katastrophale oder sehr gute Ergebnisse raus.

Und so hört sich das Ergebnis an:

In anderen Spaces gibt es Tools, um Soundeffekte (SFX) unter Fotos zu legen.

Künftiger Einsatzzweck: Die automatische Vertonung von Videos, also Musik und SFX.

2.     Screenshot to HTML auf Hugging Face

Die App Screenshot to HTML macht aus Fotos von Websites den passenden HTML-Code. Das klappt nicht hundertprozentig, aber fast.

Künftiger Einsatzzweck: Male eine Website auf einem Blatt Papier auf und lasse dir die Seite daraus bauen. Oder stelle dir eine Templating-Funktion in einem Content-Managment-System vor, bei der du dich nicht mit Elementen und Codeschnipseln herumärgern muss.

3.     Photomaker auf Hugging Face

Photomaker[1] erstellt aus Geht-so-Fotos sensationelle Fotos. Das Team dahinter ist vom chinesischen Internetgiganten Tencent, dem Betreiber von QQ.

In diesem Beispiel habe ich es für die Restaurierung des Gesichts des Mannes aus meinem KI-generierten Bild genutzt. Das Gesicht ist ziemlich unkenntlich.

Der Prompt: „man img, instagram photo, portrait photo of man“.

Das Ergebnis ist ein Portraitfoto, das ich nicht auf den ersten Blick als KI-generiert erkenne.

Künftiger Einsatzzweck: Stelle dir eine Kamera-App vor, die aus Schnappschüssen automatisch super Fotos für Social Media bastelt, und zwar ohne Prompt Engineering.

Oder stelle dir eine Polizei-App vor, die selbst auf schlechten Aufnahmen von Überwachungskamera alle Gesichter restauriert und sie dann mit der großen Gesichtsdatenbank abgleicht.

4.     Background Removal auf Hugging Face

Background Removal übernimmt das lästige Freistellen von Fotos. Das funktioniert ziemlich gut. In diesem Beispiel hat das Viech allerdings den Schweif eingebüßt. Und der Jockey ist jetzt einbeinig.

Adobe Firefly, Canva und viele weitere Apps können das natürlich auch bzw. besser. Aber aus „KI-geschichtlicher“ Sicht ist Background Removal hoch interessant: Es war eine der ersten für Otto-Normal-User zugänglichen Tools zum KI-basierten Freistellen von Bildern, und man konnte es direkt im Browser ausprobieren.

Der Charme an Background Removal damals und heute ist, dass es a) vollautomatisch funktioniert und b) lokal im Browser läuft; es ist also sauschnell und kostet den Anbieter keine Serverzeit.

Die Technik dahinter stammt von Bria.ai und ist Open Source. Das Release war am 6. Februar 2024. Mittlerweile sind solche Tools fast schon Standard.

Bria.ai ist ein KI-Fotoretusche-Werkzeug (bzw. eine API-Bibliothek), das man legal kommerziell einsetzen kann. Die großen Werbeagenturen Publicis und McCann machen es, laut offizieller Referenzliste.

Der Grund für die gute Einsetzbarkeit: Die Trainingsdaten sind lizensiert, was aber nicht bedeutet, dass man die Bilder wirklich verwenden darf (es steht nicht dabei, ob die Foto-Basis Editorial-only ist…). Mit Bria kann man allerhand (sinnvollen) Schabernack anstellen, wie Gegenstände aus Bildern rausretuschieren (mit einem Klick) oder Gesichter verändern. Ein Gesicht kannst du lächelnder machen, älter, die Haarfarbe ändern, und auch teils ist auch die Ethnie anpassbar.

Mit Inpainting und Outpainting (also Prompt- und Pinsel-basierten Bild-Änderungswünschen) war Bria auch sehr früh am Markt; heute beherrschen das alle Tools wie Nano Banana oder ChatGPT.

5.     Replace Anything auf Hugging Face

Replace Anything von modelscope ist ein Werkzeug zur Bildbearbeitung, speziell Inpainting und Outpainting – hier im Sinne von „Bildteile austauschen“, was a) entfernen und b) hinzüfügen bedeutet. Tricky!
Hintergrund entfernen reicht dir nicht? Dort kannst du Elemente in Bildern per Text-Prompt durch etwas anders ersetzen. Dahinter steckt natürlich keine Hobbybude, sondern Alibaba aus China. Die Bedienung ist tricky, deswegen habe ich eine Anleitung für dich.

So geht’s:

  • Klicke im Mini-Tab oben auf „Image create“
  • Lade ein Bild hoch, ich nehm hier mal das Stock-Bild mit den rosa Regenschirmen.
  • „Click to seg“: Hier klickst du an, was behalten oder austauschen willst. Hier gibt es 2 Modi:
    • Foreground: Du klickst ein Objekt an. Das Tool wendet eine Art Zauberstab an und markiert das Objekt, hier den Regenschirm, mit einem grünen Dreieck. Diese Objekte werden bleiben, der Rest wird ersetzt.
      Tipp: Nutze vor allem diese Funktion, und behalte nur ein Objekt. Das Tool schmiert sonst gern ab.
    • Background: Wenn du auf „Background“ klickst, wählst du die Objekte aus, die ausgetauscht werden sollen. Die Markierung ist ein rotes x. Du kannst die Funktion nutzen, um Fehler des automatischen Zauberstabs zu korrigieren.
    • Kombination: Du kannst „Foreground“ und „Background“ gleichzeitig bearbeiten.
  • Prompt: Gebe ein, was anstelle des Hintergrunds erscheinen soll. Ich wähle „Futuristic star ship“
  • More input parameters: Du kannst eigene Bilder zufüttern, oder eine Maskierung. Bei Gesichtern werden Zusatz-Prompts empfohlen
  • Run: Startet den Vorgang. Manchmal erscheint einfach „Error.“ Pech gehab.
  • Outputs: Zeigt die Outputs. In diesem Fall ist der Regenschirm jetzt in einem Raumschiff. Kann man immer mal brauchen, zusätzlich zu einem guten Handtuch…

6.     Stable Video Diffusion auf Hugging Face

KI-Videos sind die Königsklasse: Die Datenmengen sind riesig (im Idealfall 24 bis 30 Bilder pro Sekunde, mit 4k Auflösung, und jedes Bild muss ans Bild davor sauber anschließen, und Charaktere und Stil müssen über mehrere Szenen hinweg erhalten bleiben). Die Anforderungen an Konsistenz sind also massiv . Stable Video Diffusion kann das in Ansätzen. In diesem Beispiel wird das „Bullriding“ erkannt und in Bewegung umgesetzt: Der Schweif wackelt, allerdings bewegt sich auch der Huf – sehr creepy. Die Hörner werden als Ohren interpretiert. Mittlerweile gibt es bessere Tools von Google bis Runway, aber auf Hugging Face konnte man zuerst frei experimentieren.

Alternative: Dynamic Crafter

7. Code generieren mit Deepsite

„Vibe Coding“, also sich von der KI beim programmieren „helfen“ lassen, ist extrem beliebt. Das nächste Level sind KI-Tools, die lauffähige Apps generieren. Mit Claude Code bzw. Copiloten in Github, Cursor, VS Code etc. pp. klappt das schon ganz gut. Möglicherweise noch weiter ist Google mit „Build“.

Der Space „DeepSite“ ist nicht uninteressant. Gebaut hat ihn ein einzelner (JS-)Developer aus Kanada…

Im Screenshot oben siehst du schon mal ein Beispiel: Mittels des chinesischen LLMs DeepSeek V3 – ich hätte auch andere LLMs auswählen können, das ist ideal zum Benchmarken – habe ich eine Website zum Thema HuggingFace Spaces bauen lassen. Auf Deutsch, wobei das DeepSeek-Deutsch „geht so“ ist.

Die Website ist lauffähig und sieht vernünftig aus. Mit solchen Spaces kannst du sehr gut „freie“ LLMs ausprobieren. Diese eignen sich super, um sie auf dem eigenen PC zu installieren (oder um eine private Firmen-Umgebung aufzubauen).

Und jetzt kommen wir direkt zu einer uncoolen Funktion:

Wenn du ein Ergebnis von DeepSeite publishen willst, will das Space Vollzugriff auf alle deine Daten bei Hugging Face – mit komplettem Schreibzugriff. Das ist möglicherweise technisch nötig, aber für meinen Geschmack ein wenig zu creepy. Sowas sollte ein wenig gesandboxt sein.

Fazit

Hugging Face und die Hugging Face Spaces geben einen Ausblick darauf, wie es wäre, wenn sich jeder seine eigenen KI-Apps selbst zusammenbasteln könnte.

Auf LinkedIn folgen

Über den Autor

Stefan Golling, Köln. Seit 2011 unterstütze ich freiberuflich Unternehmen bzw. Agenturen mit kreativen Ideen, Konzepten und (textlichen) Umsetzungen rund ums (Online-)Marketing. Vorher: 1998 mit Radiowerbung in Stuttgart gestartet, 2000 als Junior-Werbetexter zu Publicis München, 2001 Counterpart Köln, 2002 als Copywriter zu Red Cell Düsseldorf (heißt heute Scholz & Friends), dort ab 2007 Creative Director.

Kontakt aufnehmen? Einfach Nachricht schreiben


[1] PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding. Li, Zhen and Cao, Mingdeng and Wang, Xintao and Qi, Zhongang and Cheng, Ming-Ming and Shan, Ying. arXiv preprint arxiv:2312.04461, 2023

Artikel zu ähnlichen Themen

Gern 5 Sterne vergeben
Teilen / Share
Zu Hause » KI » Hugging Face Spaces: der KI-Abenteuerspielplatz

Erstellt am:

Zuletzt aktualisiert: