ChartNet: Ein multimodaler Datensatz für eine bessere Interpretation von Diagrammen durch LLM

Montag, Juni 1, 2026

ChartNet: Ein multimodaler Datensatz für eine bessere Interpretation von Diagrammen durch LLM

Das Erfassen von Diagrammen erfordert Modelle, die geometrische visuelle Muster, strukturierte numerische Daten und natürliche Sprache gemeinsam auswerten können. dabei stoßen aktuelle Vision-Language-Modelle (VLMs) immer noch an ihre Grenzen. Forscher des MIT und IBM Research adressieren dieses Problem mit ChartNet: ein multimodaler Datensatz, welcher darauf ausgelegt ist, die Interpretation und Auswertung von Diagrammen voranzutreiben. ChartNet nutzt eine code-gesteuerte Synthese-Pipeline, um 1,5 Millionen vielfältige Diagrammbeispiele zu generieren, die 24 Diagrammtypen und 6 Plotting-Bibliotheken abdecken. Dabei besteht jedes Beispiel aus fünf aufeinander abgestimmten Komponenten: Plotting-Code, gerendertes Diagrammbild, Datentabelle, Zusammenfassung in natürlicher Sprache und Frage-Antwort-Funktion mit Schlussfolgerungen.
Das Fine-Tuning mit ChartNet verbesserte die Ergebnisse über alle Benchmarks hinweg konsistent und demonstriert damit seinen Nutzen als groß angelegte Supervision für multimodale Modelle.
URLs:

Forschungsbericht auf arXiv: https://arxiv.org/abs/2603.27064
CharNet-Datensatz Huggingface: https://huggingface. … ibm-granite/ChartNet
github: https://github.com/h … lob/master/README.md

Presseberichte:

MIT Presseerklärung: https://news.mit.edu … nterpret-charts-0603
All-AI (deutsch): https://www.all-ai.d … it-diagramme-analyse

Gepostet von Admin um 10:03:45 in Entwicklung, Forschung
68 Aufruf(e) Kommentar hinzufügen

KI-Infos

Montag, Juni 1, 2026