Die Entwicklung von Webseiten erfordert die Umsetzung von UI-Designs in funktionalen HTML-Code. Dieser Prozess, der die hierarchischen Strukturen und Stile von HTML berücksichtigt, kann sowohl für Anfänger als auch für erfahrene Entwickler eine Herausforderung darstellen. Große Sprachmodelle (LLMs) haben zwar vielversprechende Ergebnisse bei der Generierung von Quellcode gezeigt, doch bestehen weiterhin zwei große Herausforderungen bei der UI-zu-HTML-Codegenerierung: die effektive Darstellung der hierarchischen Struktur von HTML für LLMs und die Überbrückung der Lücke zwischen der visuellen Natur von UI-Designs und dem textbasierten Format von HTML-Code.
Um diesen Herausforderungen zu begegnen, wurde Waffle entwickelt, eine neue Feinabstimmungsstrategie für LLMs. Waffle verwendet einen aufmerksamkeitsbasierten Mechanismus, der die Struktur von HTML berücksichtigt, um das Verständnis der LLMs für diese Struktur zu verbessern. Zusätzlich nutzt Waffle einen kontrastiven Feinabstimmungsansatz, um das Verständnis der LLMs für UI-Bilder und HTML-Code aneinander anzupassen.
Die mit Waffle feinabgestimmten Modelle zeigen eine deutliche Verbesserung in verschiedenen Metriken zur Bewertung der Codegenerierung. Im Vergleich zu aktuellen Feinabstimmungsmethoden erzielen sie eine bis zu 9 Prozentpunkte höhere HTML-Übereinstimmung, einen um 0,0982 höheren CW-SSIM-Wert (zur Bewertung der strukturellen Ähnlichkeit), einen um 32,99 höheren CLIP-Wert (zur Bewertung der semantischen Ähnlichkeit) und einen um 27,12 Prozentpunkte höheren LLEM-Wert (zur Bewertung der Layout-Ähnlichkeit). Diese Verbesserungen wurden sowohl auf dem neuen Benchmark WebSight-Test als auch auf dem bestehenden Benchmark Design2Code festgestellt.
Waffle setzt auf zwei Kernkomponenten:
Strukturbewusster Aufmerksamkeitsmechanismus: Dieser Mechanismus ermöglicht es den LLMs, die hierarchische Struktur von HTML besser zu erfassen. Durch die Berücksichtigung der Beziehungen zwischen verschiedenen HTML-Elementen kann der generierte Code die Struktur des UI-Designs präziser wiedergeben.
Kontrastive Feinabstimmung: Dieser Ansatz zielt darauf ab, die Repräsentationen von UI-Bildern und HTML-Code im LLM aneinander anzupassen. Durch die gemeinsame Verarbeitung von visuellen und textbasierten Informationen lernt das Modell, die Beziehung zwischen Design und Code besser zu verstehen.
Waffle hat das Potenzial, die Frontend-Entwicklung zu revolutionieren. Durch die Automatisierung der Codegenerierung können Entwickler Zeit und Ressourcen sparen und sich auf komplexere Aufgaben konzentrieren. Die verbesserte Genauigkeit und Robustheit der generierten Codes reduziert zudem den Aufwand für manuelle Korrekturen und Fehlerbehebungen.
Die Entwicklung von Waffle ist ein wichtiger Schritt in Richtung einer automatisierten Frontend-Entwicklung. Zukünftige Forschung könnte sich auf die Erweiterung der Funktionalität von Waffle konzentrieren, um beispielsweise auch komplexere UI-Designs und interaktive Elemente zu unterstützen. Die Integration von Waffle in bestehende Entwicklungsumgebungen könnte den Workflow von Frontend-Entwicklern weiter optimieren.
Bibliographie Liang, S., Jiang, N., Qian, S., & Tan, L. (2024). WAFFLE: Multi-Modal Model for Automated Front-End Development. arXiv preprint arXiv:2410.18362. Si, C., Zhang, Y., Yang, Z., Liu, R., & Yang, D. (2024). Design2Code: How Far Are We From Automating Front-End Engineering?. arXiv preprint arXiv:2403.03163. Luo, D., Feng, C., Nong, Y., & Shen, Y. (2024). AutoM3L: An Automated Multimodal Machine Learning Framework with Large Language Models. arXiv preprint arXiv:2408.00665. Yue, S. (2024). A Multimodal Conceptual Framework to Achieve Automated Software Evolution for Context-rich Intelligent Applications. arXiv preprint arXiv:2404.04821v5. Deo, V., Gendron, É., Rousset, G., Vidal, F., Sevin, A., Ferreira, F., Gratadour, D., & Buey, T. (2019). A telescope-ready approach for modal compensation of pyramid wavefront sensor optical gain. Astronomy & Astrophysics, 629, A107. Agostinho, L. R., Pereira, D., Hiolle, A., Pinto, A. M., & Pinto, A. (2024). TEFu-Net: A time-aware late fusion architecture for robust multi-modal ego-motion estimation. Robotics and Autonomous Systems, 177, 104700.