Skip to content

Предрассудки по поводу измерения интеллекта: путают с прикладными курсами

Очень часто вокруг учебных проектов возникает дискуссия по поводу оценки/измерений результатов обучения («инженерные обоснования» того, что результаты обучения соответствуют ожидаемым). Очень хочется оценить квалификацию «заготовок для мастерства на входе» в формате каких-нибудь «вступительных экзаменов» и оценить квалификацию в «результирующем мастерстве на выходе» в виде выпускных экзаменов. Вроде бы это всё должно быть похоже на результаты инженерных проектов с их испытаниями, в крайнем случае на «доказательную медицину». Но нет, всё оказывается существенно сложнее.

Во-первых, выставление какого-то уровня мастерства сдачи экзамена/теста как KPI приведёт только к тому, что все остальные потенциальные результаты обучения будут так или иначе проигнорированы, и будет показан высокий KPI, то есть участники обучения будут попросту натасканы на прохождение нужного теста (как в школах натаскивают на ЕГЭ), а собственно обучения какому-то мастерству (кроме мастерства прохождения теста) не будет: индикатор, который стал целью, перестаёт быть измерителем успеха, перестаёт быть индикатором чего бы то ни было, кроме достижения собственного значения[1]. Более того, в обучении экзамен пригоден только для показа того, что выполняется какая-то отдельная операция, да и то не в каких-то рабочих условиях, где полно непредвиденностей и отвлекающих факторов (помним про контексты и перенос обучения в жизнь). Скажем, можно на уроке физкультуры проверить, удаётся ли пробежать стометровку на норматив. Но это ничего не скажет, насколько человек умеет двигаться, если считать результатом занятий физкультурой именно «умение двигаться» (например, сможет ли он танцевать или ходить под парусом, или поднять тяжесть, или даже пробежать, но марафонскую дистанцию, или выйти победителем в поединке греко-римской борьбы).

Сравнение с расхожими практиками «доказательной медицины» (которые тоже критикуются, см., например, работы Judea Pearl и Scott Mueller[2]) тут тоже не проходит. Например, использование двойного слепого метода: набираем две группы людей, одну учим ерунде, вторую учим как надо, а потом замеряем результаты обучения двух групп, при этом «слепым методом», то есть преподаватели не знают, учат они ерунде («плацебо») или настоящим умениям! И те же проблемы, что в медицине: имеем ли мы право вместо потенциального лечения давать пациентам плацебо в контрольной группе, или нет? Так и тут: имеем ли мы право вместо потенциально хорошего обучения обучать контрольную группу ерунде, или нет? И насколько можно собрать однородную группу, чтобы верить статистике? Оценка результатов обучения по тем же методам, что в науке и инженерии (с принятыми там критериями инженерных обоснований) в обучении не проходит.

Всё с оценкой результатов обучения становится ещё хуже, если речь заходит об измерении интеллекта как результате образования, ответе на вопрос, делаем ли мы людей умнее, а не учим ли мы их решать какой-то узкий класс заранее известных задач. Эта проблема сейчас стоит перед исследователями AI, она подробно разбиралась в курсе «Интеллект-стек».

По поводу измерения интеллекта есть множество предрассудков, которые упираются в непонимание природы интеллекта: интеллект как мыслительное мастерство изготавливает прикладное мастерство решения какого-то класса задач. Все предложения немедленно устроить экзамен какого-то сорта проваливаются: если мы понимаем, какой экзамен, то будем не мыслить учиться, то есть разбираться с неизвестными тебе ситуациями, а сразу прикладному мастерству, которое проверяется на экзамене. Всё самое плохое, что говорят про ЕГЭ как оценку школьника по критерию «готов к жизни», будет также применимо и к сдаче экзамена на «наличие интеллекта»: в новых ситуациях это экзаменуемое не будет встречаться, преподаватели будут тебя натаскивать на лёгкое прохождение экзамена, а не на решение будущих неизвестных проблем, а вот нужное для решения очередной новой проблемы никогда не будет проверено — непонятно ведь, что проверять! Chollet в работе «On the Measure of Intelligence»[3] (обязательно читать тамошний литературный обзор!) чётко формулирует: интеллект достаточной универсальности должен справляться с задачами, о которых не знает не только ученик, но и преподаватель. По факту это означает, что преподаватель не может сделать тест на решение этих задач — он этих задач ещё не знает, поэтому и не может предложить! Точно так же не может сделать тест на интеллект и кто-то «независимый»: тестироваться должно решение проблем, о которых может не знать ещё и этот «независимый экзаменатор»!

А ведь есть и другие характеристики интеллекта. В курсе «Интеллект-стек» приводилась характеристика вменяемости. В исследованиях по GAI используются характеристики безвредности/harmlessness и «помогательности»/helpfulness и честности/honest[4].

Все предрассудки по поводу «покажите результаты измерений вашей работы по усилению интеллекта» упираются в то, что в головах людей крепко вбиты представления о тестировании интеллекта людей экзаменами (неважно, выпускными или вступительными, включая собеседования при поступлении на работу), а продолжение разговора идёт в сторону испытаний традиционных неинтеллектуальных инженерных систем, которые должны решать понятный и оговорённый жёстко зафиксированный не меняющимися требованиями класс задач. Все идеи по поводу оценки интеллекта, которые не укладываются в эти давно устаревшие представления — не будут услышаны.

Интеллект — это совершенно другой объект, это не прикладное мастерство, хоть как-то проверяемое! По поводу интеллекта можно вдуматься, почему появилась пословица «умная голова дураку досталась»: сущностей в умности оказывается две, ибо одна про интеллект как мыслительное мастерство разбираться с незнакомыми ситуациями и новыми классами задач, другая про разные-всякие прикладные умения решения узких классов задач, которые понятно как решать. И ещё есть «злой гений», что тоже не выявляется традиционными тестами «на умность», при этом этичность (те самые harmlessness, helpfulness, honesty, но не обязательно именно они) тоже непонятно как замерять.

Умная по части умений голова (хорошо надрессированная на какие-то практики типа решения математических задач какого-то понятного класса, управления джипом или даже самолётом, отрисовка сложных деталей в САПР, и т.д.) дураку в части интеллекта досталась: при столкновении с новым и необычным никакое владение прикладным мастерством не помогает, нужно включать мышление, и если сильного интеллекта с его мышлением по решению никогда не встречавшихся проблем нет — то вот ты и дурак!

Образование должно делать людей умнее, то есть усиливать интеллект. Одна из характеристик сильного интеллекта — это универсальность в части решаемых с какой-то приемлемой скоростью проблем: интеграл по скоростям решения самых разных проблем из бесконечного числа их классов. Высокая скорость решения в одном классе проблем — это ничто, маленькая скорость на большом числе проблем — тоже ничего не даст, а вот приличная скорость на приличном числе проблем — это то, к чему стремимся. То есть что-то типа теста IQ: берём батарею тестов разных типов (универсальность) и суммируем (интеграл) время решения задач этих тестов (скорость). Chollet говорит, что для замеров силы машинного интеллекта мы можем взять за основу только то, что нам известно про людей: у них есть какие-то врождённые особые способности выделять из мира правильные с точки зрения освоения новых классов задач объекты — innate priors в их универсальных алгоритмах, реализованных нейронными сетями мозга. И дальше говорит: а давайте сформулируем то, что есть у людей, и будем эти же innate priors замерять у машинных интеллектов. По факту оказалось, что его тестирование очень похоже на тест IQ для людей. Дёшево, но удивительно не сердито: IQ оказывается не лучшим критерием для определения реально умных людей, успехи в жизни оказываются не так впрямую зависят от IQ (хотя дебилов этот тест может помочь отсеять, но нам же умных надо делать ещё умнее, а не дебилов отсеивать!). Тут даже не нужно приводить ссылок, про недостатки замеров IQ для людей горы литературы, про это подробно говорилось в курсе «Интеллект-стек». Про недостатки замеров самых разных характеристик силы интеллекта AI-агентов, в том числе и путём сравнения с замеренными характеристиками людей говорилось тоже очень много. В частности, нет хорошо определённых характеристик интеллекта для «людей». Дикарь из джунглей Амазонки, средний отвечающий на тесты пенсионер из сельской местности, профессор топового вуза с родным английским языком будут демонстрировать очень разные характеристики интеллекта, включая все эти harmlessness и helpfulness, а также honesty и даже persuadability, равно как и IQ. Но все они будут умнее кошки, это без сомнения. Как их сравнить друг с другом так, чтобы разница стала очевидна?! И как взять разницу не в целом по итогам пары десятков лет обучения и «просто жизни», но по итогам прохождению каких-то учебных программ? Тем более, что эти характеристики непрерывно меняются, нейросети в людях непрерывно доучиваются, и оценка «сегодня» будет неверна уже «завтра». Хорошего SoTA ответа на эти вопросы нет.


  1. https://en.wikipedia.org/wiki/Goodhart's_law ↩︎

  2. https://ftp.cs.ucla.edu/pub/stat_ser/r513.pdf ↩︎

  3. https://arxiv.org/abs/1911.01547 ↩︎

  4. https://arxiv.org/abs/2112.00861 ↩︎