Logo

Montag, Juni 1, 2026

ChartNet: Ein multimodaler Datensatz für eine bessere Interpretation von Diagrammen durch LLM

Das Erfassen von Diagrammen erfordert Modelle, die geometrische visuelle Muster, strukturierte numerische Daten und natürliche Sprache gemeinsam auswerten können. dabei stoßen aktuelle Vision-Language-Modelle (VLMs) immer noch an ihre Grenzen. Forscher des MIT und IBM Research adressieren dieses Problem mit ChartNet: ein multimodaler Datensatz, welcher darauf ausgelegt ist, die Interpretation und Auswertung von Diagrammen voranzutreiben. ChartNet nutzt eine code-gesteuerte Synthese-Pipeline, um 1,5 Millionen vielfältige Diagrammbeispiele zu generieren, die 24 Diagrammtypen und 6 Plotting-Bibliotheken abdecken. Dabei besteht jedes Beispiel aus fünf aufeinander abgestimmten Komponenten: Plotting-Code, gerendertes Diagrammbild, Datentabelle, Zusammenfassung in natürlicher Sprache und Frage-Antwort-Funktion mit Schlussfolgerungen.
Das Fine-Tuning mit ChartNet verbesserte die Ergebnisse über alle Benchmarks hinweg konsistent und demonstriert damit seinen Nutzen als groß angelegte Supervision für multimodale Modelle.
URLs:

Presseberichte:

RSS | ATOM


Kommentar hinzufügen

Die Felder Name und Kommentar sind Pflichtfelder.


BBCode Hilfe