Warum viele Benchmarks die Fähigkeiten von KI-Modellen überschätzen
Eine neue Studie des Oxford Internet Institute zeigt: Etwa die Hälfte aller KI-Benchmarks fällt unter wissenschaftlichen Gesichtspunkten durch. Selbst gängige Tests messen nicht das, was sie vorgeb...