Eine neue Studie des Oxford Internet Institute zeigt: Etwa die Hälfte aller KI-Benchmarks fällt unter wissenschaftlichen Gesichtspunkten durch. Selbst gängige Tests messen nicht das, was sie vorgeben. Benchmarks sind standardisierte Tests, die dazu dienen, die Leistungsfähigkeit, Effizienz und Zuverlässigkeit von KI-Modellen objektiv zu bewerten und sie miteinander vergleichbar zu machen. Unternehmen wie OpenAI, Anthropic und Deepseek nutzen sie ...Den vollständigen Artikel lesen ...
© 2025 t3n