Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Das kanadische Start-up Taalas, gegründet im Jahr 2023, hat mit der Ankündigung seines HC1-Chips einen bemerkenswerten Vorstoß im Bereich der Künstlichen Intelligenz (KI) Inferenz gemacht. Der HC1 wird als "Technology Demonstrator" bezeichnet, der darauf abzielt, die KI-Inferenz auf eine neue Ebene zu heben, indem er Sprachmodelle direkt in Silizium gießt, anstatt sie softwarebasiert auf Allzweck-KI-Rechenbeschleunigern auszuführen.
Das erste Produkt, das auf dieser Technologie basiert, ist ein "fest verdrahtetes" Llama 3.1 8B. Laut Herstellerangaben soll dieser Chip beeindruckende 17.000 Token pro Sekunde pro Nutzer generieren können. Diese Leistung übertrifft die aktuellen Standards erheblich. Zum Vergleich: Eine Nvidia H200 erreicht auf demselben Modell etwa 230 Token pro Sekunde. Selbst spezialisierte Inferenz-Anbieter wie Cerebras, SambaNova und Groq, die Werte zwischen 600 und 1.900 Token pro Sekunde erzielen, werden durch die von Taalas beanspruchte Leistung deutlich übertroffen.
Das Herzstück des HC1 bildet ein applikationsspezifischer Logikchip (ASIC) mit etwa 53 Milliarden Transistoren. Dieser Chip wird bei TSMC im 6-nm-Prozess (N6) gefertigt und weist eine Die-Fläche von 815 mm² auf. Die Integration von Speicher und Rechenlogik auf einem einzigen Chip, bei DRAM-ähnlicher Dichte, eliminiert die übliche Trennung zwischen langsamem Off-Chip-DRAM und schnellem On-Chip-Speicher, was zu erheblichen Geschwindigkeitsvorteilen führt.
Taalas verfolgt drei Kernprinzipien: die totale Spezialisierung auf einzelne Modelle, die Verschmelzung von Speicher und Rechenlogik auf einem Chip sowie eine radikale Vereinfachung des gesamten Hardware-Stacks. Dieser Ansatz ermöglicht es, auf teures High Bandwidth Memory (HBM), aufwendige Gehäusetechnik (Packaging) und extrem hohe I/O-Datentransferraten zu verzichten, die bei herkömmlichen KI-Beschleunigern wie Nvidias H200 oder Microsofts Azure-Beschleuniger Maia 200 notwendig sind.
Die Eliminierung dieser Komplexität resultiert in einem System, das ohne HBM, 3D-Stacking, Flüssigkeitskühlung und Highspeed-I/O auskommt. Dies soll nicht nur die Herstellungskosten senken, sondern auch den Energieverbrauch erheblich reduzieren. Taalas verspricht Kosten, die 20-mal niedriger liegen sollen als bei konventioneller GPU-Inferenz, bei einem Zehntel des Stromverbrauchs.
Die hohe Spezialisierung des HC1 bringt jedoch auch Einschränkungen mit sich. Der Chip ist weitgehend fest verdrahtet und kann ausschließlich das Modell Llama 3.1 8B ausführen. Eine Ausführung anderer Modelle ist nicht vorgesehen. Obwohl Llama 3.1 8B eine kompakte und leistungsfähige Version ist, ist es im schnelllebigen KI-Sektor bereits seit Mitte 2024 auf dem Markt.
Taalas räumt ein, dass die erste Silizium-Generation ein proprietäres 3-Bit-Datenformat mit 6-Bit-Parametern verwendet. Diese aggressive Quantisierung kann zu gewissen Qualitätseinbußen im Vergleich zu GPU-Benchmarks mit höherer Präzision führen. Dennoch können Kontextfenster konfiguriert und Feinabstimmungen mittels Low-Rank-Adaptern (LoRA) vorgenommen werden.
Das Start-up plant eine schnelle Weiterentwicklung. Der automatisierte und schnelle Entwicklungsprozess für KI-ASICs ist ein zentrales Ziel des Unternehmens. Bereits im Frühjahr soll ein mittelgroßes Reasoning-Modell auf Basis der HC1-Plattform in den Taalas-Laboren eintreffen und als Inference-Service verfügbar gemacht werden. Für den Winter ist die zweite Chipgeneration, HC2, geplant. Diese soll ein Frontier-LLM umsetzen, standardisierte 4-Bit-Gleitkommaformate unterstützen, eine höhere Packungsdichte bieten und noch schneller arbeiten.
Taalas wurde von den Tenstorrent-Gründern Ljubisa Bajic und Drago Ignjatovic ins Leben gerufen, die beide eine lange Karriere bei AMD und Bajic auch bei Nvidia vorweisen können. Die prominenten Namen, einschließlich des bekannten Chipentwicklers Jim Keller, der derzeit Tenstorrent leitet, sorgen für erhebliche Aufmerksamkeit in der KI-Szene.
Die Entwicklung des ersten Produkts mit nur 24 Teammitgliedern und Ausgaben von 30 Millionen US-Dollar, bei einem gesammelten Kapital von über 200 Millionen US-Dollar, wird als sehr effizient betrachtet. Die Gründer sehen eine lukrative Marktnische angesichts der hohen Preise für Allzweck-KI-Beschleuniger.
Die von Taalas veröffentlichten Leistungsdaten sind beeindruckend, aber zum jetzigen Zeitpunkt nur eingeschränkt überprüfbar, da unabhängige Messungen Dritter noch ausstehen. Auch die Auswirkungen der aggressiven Quantisierung auf die Qualität bei komplexeren Aufgaben bleiben eine offene Frage. Es wird sich zeigen müssen, ob das Konzept modellspezifischer Chips wirtschaftlich skaliert, wenn für jedes neue Modell eigenes Silizium gefertigt werden muss.
Es ist wichtig zu betonen, dass Taalas nicht auf "Edge AI"-Anwendungen abzielt, bei denen KI-Modelle direkt auf Geräten ohne Cloud-Anbindung laufen. Diese Domäne wird von Neural Processing Units (NPUs) bedient, die in einer Vielzahl von Produkten – von M5Stacks AI Pyramid-Pro über Hailo-NPUs bis hin zu integrierten NPUs in x86- und ARM-Prozessoren sowie Mikrocontrollern von Infineon und NXP – auf den Markt kommen. Taalas konzentriert sich stattdessen auf Rechenzentren und spezifische, hochperformante Inferenzlösungen.
Die Entwicklung von Taalas könnte einen Paradigmenwechsel in der KI-Inferenz bedeuten, insbesondere für Anwendungen, die eine extrem hohe Leistung bei spezifischen Modellen erfordern und dabei Kosten- und Energieeffizienz in den Vordergrund stellen.
Bibliography: - Dr. Volker Zota. KI-Inferenz in Silizium gegossen: Taalas kündigt HC1-Chip an. heise online. - Gepostet von. KI-Inferenz in Silizium gegossen: Taalas kündigt HC1-Chip an. NG-IT in Hagen. - heise online. KI-Inferenz in Silizium gegossen: Taalas kündigt HC1-Chip an. LinkedIn. - Das Startup Taalas will mit dem HC1 ein fest verdrahtetes Llama 3.1 8B mit knapp 17.000 Token/s liefern – fast 10-mal schneller als bisherige Lösungen. Threads.com. - Technische Universität München. TUM baut eigenen KI-Chip in 7-nm-Technologie. datacenter-insider.de. - idw - Informationsdienst Wissenschaft. In Silizium gegossene Neuronen: KI-Chip SENNA beschleunigt Spiking Neural Networks. openPR.de. - Handelsblatt. Künstliche Intelligenz: Infineon peilt Milliardenumsatz mit Chips für KI-Server an. handelsblatt.com. - Handelsblatt. Künstliche Intelligenz: Bericht – OpenAI baut ersten eigenen KI-Chip mit Broadcom und TSMC. global.handelsblatt.com. - Taalas. The Path to Ubiquitous AI. taalas.com. - Artificial Analysis. Llama 3.1 Instruct 8B Providers. artificialanalysis.ai. - ARM. Run Llama 3.1 on a Raspberry Pi 5. learn.arm.com.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen