معيار تقييم شامل لقدرات الاستدلال العام لدى النماذج اللغوية.
صعوبة قياس الذكاء الحقيقي للنماذج بعيداً عن الحفظ.
يغطي 8 تحديات منطقية، 1095 متغيراً.
تقييم نماذج LLM، أبحاث AI.
انقر للفتح في علامة تبويب جديدة