General365 Benchmark

معيار تقييم شامل لقدرات الاستدلال العام لدى النماذج اللغوية.

صعوبة قياس الذكاء الحقيقي للنماذج بعيداً عن الحفظ.

يغطي 8 تحديات منطقية، 1095 متغيراً.

تقييم نماذج LLM، أبحاث AI.

# التعليم والبحث العلمي # تقييم نماذج AI # ذكاء_اصطناعي

انقر للفتح في علامة تبويب جديدة