Gradio und Hugging Face vereinfachen den Zugang zu KI-Modellen

Kategorien:

No items found.

Freigegeben:

September 17, 2024

Artikel

Einführung in das Gradio-Demo von @_akhaliq auf Hugging Face

In der sich ständig weiterentwickelnden Welt der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) rückt die Bedeutung von benutzerfreundlichen Schnittstellen und Anwendungen immer mehr in den Vordergrund. Ein bemerkenswertes Beispiel dafür ist die kürzlich von @_akhaliq auf Hugging Face erstellte Gradio-Demo. Dieses Projekt zeigt eindrucksvoll, wie KI-Modelle durch intuitive Webschnittstellen zugänglich gemacht werden können.

Was ist Gradio?

Gradio ist eine Open-Source-Bibliothek, die es Entwicklern ermöglicht, interaktive Webschnittstellen für ihre ML-Modelle mit nur wenigen Zeilen Python-Code zu erstellen. Gradio wurde ursprünglich von Hugging Face übernommen und bietet eine einfache Möglichkeit, Modelle zu präsentieren und mit ihnen zu interagieren. Dies ist besonders nützlich für Forscher, Entwickler und Unternehmen, die ihre Arbeiten schnell und effizient demonstrieren möchten.

Grundlagen von Gradio

Die Kernfunktion von Gradio besteht darin, eine Python-Funktion in eine Webschnittstelle umzuwandeln. Hier ist ein einfaches Beispiel:

def greet(name: str, intensity: int) -> str:
    return "Hallo, " + name + "!" * int(intensity)

demo = gr.Interface(
    fn=greet,
    inputs=["text", "slider"],
    outputs=["text"],
)
demo.launch()

In diesem Beispiel nimmt die Funktion greet einen Namen und eine Intensität als Parameter und gibt eine Begrüßung zurück. Gradio erstellt eine Webschnittstelle, in der Benutzer ihren Namen eingeben und die Intensität über einen Schieberegler einstellen können.

Die Gradio-Demo von @_akhaliq

In seiner neuesten Arbeit hat @_akhaliq eine Gradio-Demo erstellt, die auf Hugging Face verfügbar ist. Diese Demo zeigt die Leistungsfähigkeit von Gradio und Hugging Face Spaces bei der Bereitstellung und Skalierung von ML-Modellen. Hier sind einige Highlights der Demo:

Audio-zu-Text-Transkription

Ein wesentlicher Bestandteil der Demo ist die Fähigkeit, Audiodateien in Text umzuwandeln. Dies wird durch die Verwendung des distil-whisper-Modells und der Gradio-Bibliothek erreicht. Hier ist ein Auszug aus dem Code:

import torch
import gradio as gr
from transformers import pipeline

device = 0 if torch.cuda.is_available() else "cpu"

AUDIO_MODEL_NAME = "distil-whisper/distil-large-v3"
BATCH_SIZE = 8

pipe = pipeline(
    task="automatic-speech-recognition",
    model=AUDIO_MODEL_NAME,
    chunk_length_s=30,
    device=device,
)

def transcribe(audio_input):
    if audio_input is None:
        raise gr.Error("Keine Audiodatei eingereicht!")

    output = pipe(audio_input, batch_size=BATCH_SIZE, generate_kwargs={"task": "transcribe"}, return_timestamps=True)
    return output["text"]

part_1_demo = gr.Interface(
    fn=transcribe,
    inputs=gr.Audio(type="filepath"),
    outputs=gr.Textbox(show_copy_button=True),
    title="Audio in Text umwandeln",
)
part_1_demo.launch()

Diese Funktion nimmt eine Audiodatei als Eingabe, transkribiert sie in Text und zeigt das Ergebnis in einer Textbox an. Benutzer können Audiodateien hochladen oder ihre eigene Stimme aufnehmen und die Transkription sofort sehen.

Textorganisation und -zusammenfassung

Ein weiteres Highlight der Demo ist die Fähigkeit, transkribierten Text zu organisieren und zusammenzufassen. Dies wird durch die Verwendung eines "instruction-tuned" Modells erreicht. Hier ist ein Auszug aus dem Code:

from huggingface_hub import InferenceClient

client = InferenceClient(model="microsoft/Phi-3-mini-4k-instruct")

def summarize(text_input):
    response = client(text_input, parameters={"instruction": "Organize and summarize this text"})
    return response["generated_text"]

part_2_demo = gr.Interface(
    fn=summarize,
    inputs=gr.Textbox(lines=10, placeholder="Text hier eingeben..."),
    outputs=gr.Textbox(show_copy_button=True),
    title="Text organisieren und zusammenfassen",
)
part_2_demo.launch()

Diese Funktion nimmt den transkribierten Text als Eingabe und verwendet das InferenceClient von Hugging Face, um den Text zu organisieren und zusammenzufassen. Das Ergebnis wird ebenfalls in einer Textbox angezeigt, die eine Kopierfunktion bietet.

Fazit

Die von @_akhaliq erstellte Gradio-Demo zeigt eindrucksvoll, wie leistungsfähig und benutzerfreundlich moderne ML-Modelle sein können, wenn sie durch intuitive Webschnittstellen zugänglich gemacht werden. Mit Gradio und Hugging Face können Entwickler und Forscher ihre Modelle schnell und effizient präsentieren und einer breiteren Öffentlichkeit zugänglich machen.

Quellen

- https://x.com/_akhaliq/status/1835756845975376067 - https://x.com/_akhaliq?lang=de - https://twitter.com/_akhaliq?lang=de - https://huggingface.co/learn/cookbook/enterprise_cookbook_gradio - https://www.studiohaos.com/fr/wg-cgi/twitter.com/gradio?lang=kn - https://huggingface.co/akhaliq - https://www.studiohaos.com/fr/wg-cgi/twitter.com/gradio?lang=ar-x-fm - https://huggingface.co/spaces - https://www.value.se/es/wg-cgi/twitter.com/Gradio?lang=id - https://huggingface.co/akhaliq/activity/upvotes

Was bedeutet das?