Das Erfassen von Diagrammen erfordert Modelle, die geometrische visuelle Muster, strukturierte numerische Daten und natürliche Sprache gemeinsam auswerten können. dabei stoßen aktuelle Vision-Language-Modelle (VLMs) immer noch an ihre Grenzen. Forscher des MIT und IBM Research adressieren dieses Problem mit ChartNet: ein multimodaler Datensatz, welcher darauf ausgelegt ist, die Interpretation und Auswertung von Diagrammen voranzutreiben. ChartNet nutzt eine code-gesteuerte Synthese-Pipeline, um 1,5 Millionen vielfältige Diagrammbeispiele zu generieren, die 24 Diagrammtypen und 6 Plotting-Bibliotheken abdecken. Dabei besteht jedes Beispiel aus fünf aufeinander abgestimmten Komponenten: Plotting-Code, gerendertes Diagrammbild, Datentabelle, Zusammenfassung in natürlicher Sprache und Frage-Antwort-Funktion mit Schlussfolgerungen.
Das Fine-Tuning mit ChartNet verbesserte die Ergebnisse über alle Benchmarks hinweg konsistent und demonstriert damit seinen Nutzen als groß angelegte Supervision für multimodale Modelle.
URLs:
- Forschungsbericht auf arXiv: https://arxiv.org/abs/2603.27064
- CharNet-Datensatz Huggingface: https://huggingface. … ibm-granite/ChartNet
- github: https://github.com/h … lob/master/README.md
Presseberichte:
- MIT Presseerklärung: https://news.mit.edu … nterpret-charts-0603
- All-AI (deutsch): https://www.all-ai.d … it-diagramme-analyse
