Logo

Mittwoch, Juni 3, 2026

Trump unterzeichnet eine E.O. zur Förderung von Innovationen und Sicherheit im Bereich der künstlichen Intelligenz: Natürlich “America First”

US Präsident Trump erließ am 2. Juni 2026 die Executive Order “Promoting advanced Artificial Intelligence Innovation and Security”.

  • Zweck (Abschnitt 1): KI soll weiterentwickelt und gefordert werden, dabei eng mit dem privaten Sektor zusammenarbeiten. Dabei soll eine „America First“-Strategie im Bereich Cybersicherheit vorangetrieben werden.
  • In Abschnitt 2 werden Vorgaben für die US-Administration gemacht: Innerhalb von 30 Tagen nach demn Erlass müssen Ausschuss für nationale Sicherheitssysteme der Cyberabwehr nationaler Sicherheitssysteme, der Kriegsminister, der Minister für innere Sicherheit und der Finanzminister “angemessene und zügige Maßnahmen im Einklang mit dem Zweck dieser Verordnung” ergreifen, d.h. KI-Einsatz im jeweiligen Umfeld fördern. Dadurch werden Behörden wie CISA und NSA direkt mit angesprochen.
  • Abschnitt 3 beschreibt die Einführung des „Secure Frontier“-Modells. Über einen geheimen Benchmarking-Prozess soll die Cyberfähigkeiten von KI-Modellen bewertet werden und ggf. das entsprechende KI-Modell als “Frontier”-Modell eingestuft werden. Der US-Administration muss dann 30 Tage vor der geplanten Freigabe Zugang zu diesen modellen gewährt werden. Weiterhin bestimmen US Adminstration und Hersteller gemeinsam “vertrauenswürdige Partner”, denen nach den 30 tagen Zugang gegeben werden darf. Aber: Keine Bestimmung der E.O. darf so ausgelegt werden, dass sie die Einführung einer obligatorischen staatlichen Lizenz-, Vorabgenehmigungs- oder Zulassungspflicht für die Entwicklung, Veröffentlichung, Freigabe oder Verbreitung neuer KI-Modelle, einschließlich Pioniermodellen” beinhaltet.
  • Abschnitt 4 beinhaltet “Schutz vor kriminellen Akteuren”, worin der Generalstaatsanwalt beauftragt wird, entsprechend vorzugehen.
  • Abschnitt 5 enthält allgemeine Bestimmungen.

URL:

Presseberichte:

Samstag, Mai 30, 2026

Männliche Forscher in den Sozialwissenschaften setzen KI häufiger ein als Frauen

Anthropic untersuchte die Nutzung von KI-Coding-Tools in den Sozialwissenschaften. Dazu erfolgte im Zeitraum von Februar bis März 2026 eine Befragung von 1.260 Sozialwissenschaftlern zum Einsatz von KI und Programmierassistenten. Diese Sozialwissenschaftler spezialisierten sich auf quantitative Forschung und wurden ausdrücklich für die Teilnahme an einer Studie zu Arbeitsabläufen und dem Einsatz von KI rekrutiert. Die Umfrage erfolgte per E-Mail.
Die wichtigsten Ergebnisse:

  • Die meisten Befragten (81 %) gaben an, KI-Chatbots bereits in der Forschung ausprobiert zu haben, insbesondere zum Schreiben von Code und zum Bearbeiten von Texten. Aber nur 16 % der Befragten (20% der KI-Nutzenden) integrierten Programmierassistenten – Tools wie Claude Code, die selbstständig Analysecode schreiben und ausführen – in ihre Arbeit.
  • KI wird hauptsächlich zum Schreiben von Code und zum Überarbeiten von Texten verwendet.
  • Nutzer von Kodierungswerkzeugen veröffentlichen mehr Arbeitspapiere und Förderanträge, doch könnte dies bereits bestehende Unterschiede unter den Early Adopters widerspiegeln.
  • Forscher mit typisch männlichen Namen nutzen Programmierassistenten doppelt so häufig wie diejenigen mit weiblichen Namen.
  • Etwas mehr als 25 % der Doktoranden und Postdocs nutzt Programmierassistenten mindestens einmal pro Woche; bei Professoren mit Festanstellung sind es nur etwa 9 %.

Anthropic geht davon aus, dass die Befragten sowohl intensivere Nutzer sind als auch gegenüber LLMs positiver eingestellt sind als Nicht-Teilnehmer.
URLs:

Donnerstag, Mai 28, 2026

Microsoft Research: KI-Modelle besitzen keine Intelligenz, aber können diese ergänzen

Ein Forschungsteam von Microsoft Research und der Universität Linköping veröffentlichten einen Ansatz zum Verständnis, wie aktuelle LLM arbeiten. Die Basis von LLM sind demnach die in der menschlichen Sprache enthaltenen Strukturen, die sich aufgrund der menschlichen Erfahrungen bildeten. Diese Strukturen bzw. die darin enthaltenen Muster nutzen LLM, aber sie erleben im Gegensatz zu Menschen keine Geschehnisse im physischen Raum, können mit ihm nicht interagieren.
D.h., moderne KI-Systeme sind nicht deshalb so leistungsfähig, weil sie menschliche Intelligenz nachbilden, sondern weil sie diese menschliche Intelligenz voraussetzen, indem sie die von Menschen gebildeten Strukturen, die bereits in der menschlichen Wahrnehmung und Sprache vorhanden sind, nutzen.
Während der Mensch seine Annahmen jedoch kontinuierlich durch reale Erfahrungen korrigiert, fehlt den Modellen dieser Abgleich mit der Realität. Sie konstruieren überzeugende Antworten, welche statistisch richtig, aber faktisch völlig falsch sein können; die KI-Modelle können nur die Berechnungen durchführen, aber nicht die Ergebnisse gegen die Realität prüfen.
Diese Betrachtungsweise hilft dabei, sowohl die bemerkenswerten Fähigkeiten der KI als auch ihre immer wiederkehrenden Grenzen zu erklären. KI-Modelle bewältigen bekannte Aufgaben problemlos, scheitern aber häufig an unbekannten Situationen. Diese Begrenzung ist laut den Forschern ein strukturelles Problem und keine bloße technische Hürde, die durch mehr Rechenleistung verschwindet.
URL: Microsoft Research B … lligence-through-ai/

Mittwoch, Mai 27, 2026

Microsoft Copilot: Ergebnisse beruhen nicht immer auf Fakten

Adam Kucharski testete, wie gut Microsoft Copilot darin ist, Erkenntnisse aus einem Datensatz zu gewinnen. Dazu erstellte 2000 simulierte Freitext-Antworten zu Emotionen und versah jede dieser Antworten mit dem Label “UK”. Dann kopierte er dieselben idetischen 2000 Antworten und kennzeichnete jede dieser Antworten jeweils mit “US”. Zuletzt fasste er alle Antworten zu einem Excel-Datensatz mit insgesamt 4000 Antworten zusammen, allerdings durcheinandergewürfelt, so dass nicht immer alle “UK” bzw “US” Antworten untereinander standen.
Obwohl die Antworten für Großbritannien und die USA identisch waren, erstellte Copilot eine umfassende, detaillierte Zusammenfassung darüber, wie sich die Befragten aus den USA und Großbritannien voneinander unterschieden. Danach führte er den Test mit mehr Ländern durch, ebenfalls pro Land identische Aussagen: wieder stellte Copilot trotz identischer Daten Unterschiede fest.

Copilot kann verschiedene Ki-Modelle für die Arbeit einbinden. Copilot wurde im “Auto”-Modus betrieben, der laut Microsoft “das beste Modell auswählt, um sicherzustellen, dass Sie die optimale Leistung erhalten”. Es wurde Standard-Copilot genutzt, welcher im Lieferumfang eines Microsoft 365 Business-Kontos enthalten ist.

Die meisten KI-Modelle wurden mit der Vorgabe trainiert, dem Anwender Antworten zu geben; Anwender sollen KI-Modelle ja häufiger benutzen, ansonsten verdient man mit den Tolen kein Geld. Im vorliegenden Fall liegt die Erklärung nahe, dass die in den Antworten von Microsoft Copilot enthaltenen Darstellungen bzgl. der Unterschiede in den Trainingsdaten zu suchen sind. D.h., das KI-Modell stellte fest, dass in den zu nutzenden Daten keine Unterschiede sind und nutzte daraufhin die im Model enthaltenen Daten, um entsprecxhend der Fragestellung Unterschiede anzugeben - auch wenn die Unterschiede überhaupt nichts mit der eigentlich zu nutzenden Datenquelle zu tun haben.

Fazit (wieder einmal): Traue keiner KI-Antwort, sondern überprüfe jede Antwort auf Richtigkeit.

URL des Berichts: https://kucharski.su … tificial-stereotypes

Dienstag, Mai 26, 2026

LLM ordnen Antwort falschen Quellen zu: Ist die Antwort dann noch nachvollziehbar?

Multimodale große Sprachmodelle (MLLMs) verbesserten das Dokumentenverständnis erheblich, sodass von einem Verständnis ausgegangen wird. Bei aktuellen Bewertungen wird jedoch lediglich die endgültige Antwort gewertet, während die zugrunde liegenden Belege unberücksichtigt bleiben. Dieser rein auf die Antwort ausgerichtete Ansatz verschleiert einen kritischen Fehlermodus: Ein Modell kann zwar die richtige Antwort liefern, diese jedoch auf den falschen Textabschnitt stützen. Forscher nannten dies “Attribution Hallucination”.
In Bereichen mit hoher Tragweite wie Recht, Finanzen und Medizin, in denen jede Schlussfolgerung auf einen bestimmten Quelltext zurückverfolgt werden muss, beinhaltet dies ein erhebliches Risikopotenzial.
Forscher der Peking University und des Shanghai Artificial Intelligence Laboratory entwickelten einen neuen Benchmark namens CiteVQA, der diese Diskrepanz zwischen richtiger Aussage und korrektem Quellenbeleg abbilden soll.
CiteVQA verlangt von Modellen, neben jeder Antwort auch Zitate auf Elementebene in Form von Bounding-Boxen zurückzugeben, wobei beide gemeinsam bewertet werden. Im Mittelpunkt unserer Bewertung steht die „Strict Attributed Accuracy“ (SAA), bei der eine Vorhersage nur dann als richtig gewertet wird, wenn sowohl die Antwort als auch die angegebene Quelle korrekt sind.
Die Forscher untersuchten 20 Modelle und das leistungsstärkste System (Gemini-3.1-Pro-Preview) erreicht eine SAA von nur 76,0.
URLs:

Presseberichte: