Математическому мышлению учат исподволь, а не явно
Математическому мышлению учат исподволь, хотя часто и осознают, для чего это делают: «если ответить на вопрос, зачем молодежи нужно изучать математику, то, в частности, потому что потом человек сможет работать во всех областях. Если ты хороший математик, то с тобой захочет работать хороший биолог, физик. Речь о том, что математика − это необходимая часть всего современного знания»[1]. Вот это высказывание состоит из двух частей: квантор всеобщности «всех областей» (всех-всех?) и прикладной аспект, то есть необходимая часть всего современного знания. Но знание особенностей крекинга тяжёлых углеводородов тоже «часть современного знания», но насколько она нужна всем, а не только тысяче или даже десяти тысячам причастных к нефтепереработке в масштабах мира?! Про математику и математиков те же вопросы про «необходимую часть современного знания» — что там необходимо из сотен тысяч известных математических результатов?
Математики активно спорят на эту тему: что у них там собственно «нужная всем математика», а что «прикладная, нишевая математика» — чему же таки учить даже не всех, а самих математиков, которые будут профессионализироваться в математике? Это всё обсуждалось и двадцать лет назад[2], и даже кроме математики для математиков обсуждался (реплики чуть выше по приведённой ссылке) вопрос «нужно ли математикам знать что-то про computer science». И это было 20 лет назад, с тех пор мало что изменилось среди большинства математиков, несмотря на новые полученные результаты в основаниях математики. В программе изучения математики Михаила Вербицкого говорится[3], что как ни изучай математику, будет разрыв в несколько лет между окончанием обучения и хоть какой-то работой, а в промежутке будет «бег за трамваем», ибо математика не стоит на месте. Вербицкий даёт оценку, что если свезло учиться по «альтернативной программе», а не «университетской классической», то бежать будешь где-то 4 года, а если у тебя «университетская классическая», то не быть тебе математиком, разве что ты гений и самообразовываешься. И тут же идут комментарии к этой программе: там нет теории вероятностей, без которой нет и современной физики!
Karl Friston предлагает[4] самые разные теории (его интересует прежде всего теория active inference, но это приложимо к самым разным теориям, опирающимся на какой-то математический аппарат) излагать в двух разных связных описаниях:
- Концепция использования (для чего использовать объекты теории, какие предсказания можно на основе теории делать, что можно делать инженерного/прикладного на базе этих предсказаний, как менять мир к лучшему). Сам Friston называет это описание «телеологическим»[5], то есть для какого-то назначения, причём слово «телеология» поначалу шло из религиозного языка. В принципе, это довольно спорное терминологическое предложение, оно сравнимо с готовностью физиков использовать слово «панпсихизм», где мощнейшее направление внутри панпсихимзма «анимизм», то есть одушевление камней и рек. У Friston никакой религии или духовности нет, при этом упор в концепции использования идёт на функциональное описание, и концепция использования у него плавно переходит в функциональное описание концепции самой теории (какие там понятия используются для описания физического мира. Например, в физике это функциональный объект «физическое тело» и у него функциональные понятия «массы», «скорости»). Описание «целеориентированности» на достижение каких-то внешних целей (ответ на вопрос «для чего это надо») Friston называет teleology по старинной сначала религиозной, а потом философской традиции. Эту «телеологию» Friston считает необходимой в силу столетней давности прагматическому повороту в философии. Причём у Friston «цели» есть и у «недоагентов» (то есть не имеющих policy и plans, ибо агентность это не «есть-нет», а шкала).
- Концепция дисциплины в части её конструктива (построения, construction). Это математическое описание функциональности дисциплины, сам Friston называет это under the hood (ибо «под капотом дисциплины у нас математика»). Грубо говоря, автомобиль телеологически/функционально/во время использования описывается для водителя (application/functional interface: как рулить и заправлять), а под капотом что там конструктивно — это описывается для механиков (как устроен мотор и из чего делают шины, «там математика»).
Во вводных курсах какой-то дисциплины упор делается на application interface (если там много математики в дисциплине, то при минимуме этой математики говорится про API), а в прикладных глубоких курсах — говорится про математику этой дисциплины, «как оно там внутри работает», чтобы можно было руками подкрутить что-то в вычислениях, что не охватывается обычным API «из коробки» (обычно рассказывается про framework/подход/онтику, позволяющий провести вычисления по конкретным формулам и алгоритмам «внутри дисциплины»).
В наших описаниях дисциплин интеллект-стека, и даже описании самой математики как дисциплины мы даём больше упор на «концепцию использования» (интерфейс дисциплины, итоговые рассуждения) и даём отсылки к литературе, описывающей дисциплины с использованием математического формализма (включая и отсылки к литературе по математике, хотя тут такой литературы и меньше, нам не так уж нужны «разделы математики»).
Если же обратиться к традиционному математическому обучению, то там внутри примерно то же самое: в прикладных курсах формулировки теорем и зачем они вдруг понадобились даются, а вот формальные доказательства — нет, ибо не ожидается, что кому-то потребуется «подкрутить излагаемую математику по потребности и что-то там передоказать». Дискуссии о том, нужно ли математику нематематикам давать с доказательствами теорем или таки давать без них, идут непрерывно: но поскольку очевидно, что знание теорем не равно умению что-то доказывать самому, а использование математики в её приложениях обычно не предполагает что-то там «передоказывать», эти дискуссии бесплодны. Одна сторона неявно говорит, что «математическое мышление как раз в доказательствах теорем, это же как раз то, что делают математики», другая сторона говорит, что «никакого математического мышления для использования математики не требуется, как не требуется знания программирования для использования MS Word или даже использования всех приложений смартфона вместе взятых, хотя они все сплошь составлены из софта — математическое мышление заключается в использовании математики»). Возможно, что «использование математики» — это всё-таки не математическое мышление (связанное с изучением поведения ментальных объектов, доказательства того, что они ведут себя именно так, как ожидается), а физическое мышление: подставка математических объектов вместо физических объектов и переход тем самым от натурных экспериментов к моделированию, «модельным экспериментам/экспериментам с матмоделью».
Преподавание математики с использованием пакетов типа Wolfram Mathematica[6] и строго без таких пакетов тоже и у математиков, и у физиков, и у инженеров — это тоже предмет споров. Даже при преподавании таких предметов как семантика, собранность, логика вполне получается непосредственно привязать рассуждения в терминах объектов этих дисциплин (в терминах мета-мета-модели «из наших учебников») к рассуждениям о прикладных предметных областях (мета-моделях предметной области, «проектирование ведётся всегда в типах, и это типы мета-модели») и рассуждениям о конкретных ситуациях (операционных моделях, моделирование экземпляров объектов мета-модели). И используются моделеры, в жизни же всегда используются моделеры! Mathematica — это моделер для математических объектов, в жизни он просто обязан быть использован, поэтому непонятно, как учить математику и не использовать моделер. Это всё равно как учить программированию без компьютера, «чтобы лучше понимать» (помним, что конструктивная математика — это то же программирование). Что-то так, конечно, может быть выучено, но явно недостаточно выучено для использования в проектах, для «прикинуть в моделере». Это всё равно как землекопа учить сначала рыть руками, потом лопатой, потом только давать попробовать экскаватор, «чтобы лучше понимал предмет». Ресурс Conrad Wolfram (брат Stephen Wolfram, который придумал Mathematica) имеет слоган «Our mission is to reconceptualise the mainstream mathematics curriculum by assuming computers exist»[7].
В случае математики не очень понятно, каким разделам математики надо учить «для примера» (все разделы всё равно не выучишь), чтобы студент после окончания курса мог разбираться в матмоделировании для каких-то проектов. Например, математика должна быть изложена на таком уровне, чтобы было понимание её объектов, используемых в квантовоподобных вычислениях. Основная идея там — это отрыв математики квантовых полей, описывающей явления физики на очень малых масштабах (элементарные частицы) от этих масштабов и описание используемыми там объектами самых разных других явлений. Этот ход уже был с успехом использован для механики: дифференциальное и интегральное исчисления были изобретены Лейбницем и Ньютоном для нужд механики, а затем начали использоваться для описания буквально всей физики, включая квантовую термодинамику. Ещё один пример — это математика глубокого обучения нейронных сетей в частности и её обобщение на обучение произвольных дифференцируемых структур/differentiable everything[8].
Для понимания «как оно там внутри устроено» даже «без доказательств» нужно владеть материалом курса математического анализа (а «матан» — это полноценных четыре семестра в техническом вузе!), а ещё собственно выход на квантовоподобность, причём как это давать без рассказа о собственно квантовой физике и спора о её многочисленных интерпретациях (идея-то в том, чтобы оторваться от описаний этой математикой микромира и перейти к общим описаниям), так это пока невозможно понять. Да и с «непосредственным применением в жизни» всё не слишком понятно:
- В физике абсолютно понятно, что без перехода к теории относительности и устранения «сил» из рассмотрения ничего не посчитаешь при запуске спутников навигации GPS, и дело не в искажении координат от сферической формы Земли, но в искажении пространства-времени массой Земли. С другой стороны, большинство других инженерных расчётов вполне могут быть сделаны на базе ньютоновской механики, и инженеров-робототехников учат именно ньютоновской механике.
- Если брать какие-то биологические, социологические или психологические исследования, то множество данных эксперимента хорошо объясняется как раз квантовоподобным/quantum-like расчётом (excess Bayesian inference[9] в рамках подхода active inference, или просто quantum-like расчётом «в лоб»[10] как объясняющим итоги социальных, психологических, экономических и биологических измерений лучше, чем альтернативные методы). Но в какой момент переходить к такому расчёту? Сразу, или только после того, как показана неприменимость «обычного расчёта по Байесу»? Если мы знаем, что «рациональность на основе Байеса» даёт плохие результаты, а квантовоподобный расчёт точнее — не будет ли рациональней сразу считать квантовоподобно? Но в физике считают «рациональным» расчёт по Ньютону и Гамильтону для большинства случаев, и только для чётко выделенных случаев сверхмалых и сверхбольших масштабов расчёт по Шрёдингеру или Эйнштейну. В случае квантовоподобных расчётов в биологии и социологии таких критериев нет. Какой математике учить биологов, экономистов, социологов?
- Учить надо «математическому мышлению» или «разделам математики», или и тому, и другому? Как избежать лишнего «обучения впрок» с одной стороны, и недоучивания до уровня, достаточного для самостоятельного системного моделирования, с другой стороны?
- Если рядом с вами сидит гениальный математик-искусственный интеллект (а это по факту уже есть, в каждом смартфоне, в каждом компьютере — GPT-4 уже обладает довольно большими знаниями математики), то до какого уровня надо учить математику, чтобы не чувствовать затруднений в постановке математических задач для этого интеллекта?
Можно поставить задачу обучения математике как узкую задачу возможности сравнения двух онтик как выраженных в математических объектах. Скажем, Judea Pearl рассказывает в своей полухудожественной книжке The Book of Why (2018)[11] о причинном выводе/causal inference. Он там претендует на универсальность понятия «причинный вывод», хотя книжка вся про медицину и сельское хозяйство плюс искусственный один пример с криминалистикой. Но чтобы оценить универсальность, можно обратиться к математическому аппарату причинного вывода. Когда про active inference рассказывает Karl Friston с коллегами (там ведь тоже inference, причём и causal inference есть, и даже парочка разных — и это не тот causal inference, что у Pearl, и в этом легко запутаться[12])), у него универсальность от переопределения понятия агента до определения целей жизни и эволюции. Но если Pearl в своей книжке напирает на практичность (даёт концепцию использования), то у текстов Karl Friston со товарищи прикладное использование этих идей не просматривается, описания даны с большим количеством математики, но вот приложения — «они есть», предполагается, что функцию читатель сам как-то выведет из конструкции, из предлагаемой математики. Тут сразу две задачи:
- Есть две теории вывода, в обоих говорится про «причинность». Насколько это одна и та же причинность? Это опять поднимается задача про совмещение Утренней и Вечерней звезды, обращение к доказательствам тождественности.
- Насколько осмысленны конструктивные описания без функциональных? С одной стороны, они универсальны, «для любого использования». С другой стороны, пока не будет killer application, эта универсальность никому не нужна. «Это неуловимый Джек. Почему он неуловим? Потому что его никто не ловит» — «это универсальный математический аппарат. Почему универсальный? А его никто не пробовал применить, поэтому нам неизвестны неудачи в его применении».
Итого: математика во всех новейших подходах к описанию мира (включая панпсихичность, описание дарвиновской и техно-эволюции, описание причинности и объяснений, описание познания/обучения для нейросетей) как-то готова, поэтому прикладные курсы для специалистов с «конструктивным описанием дисциплин» можно читать прямо сейчас (по статьям и докладам, даже не дожидаясь учебников). Но почти ничего нет для обучения студентов общему математическому мышлению в рамках интеллект-стека, где упор делается больше на функциональное описание «если у тебя вот такие проблемы, то попробуй подумать так-то и так-то».
Скажем, решим давать математику-физику-computer science (они все тесно переплетены) «по-тяжёлой», то есть и «для использования/функционально/телеологически» (рассказывать для чего, и давать попробовать во взаимодействии с математиком-AI) и что там «под капотом» (вся сопутствующая математика и достижение в ней беглости и интуиции, чтобы разбираться в том, что и как там делает математик-AI или даже математик-человек). При всей возможной оптимизации по части методики обучения только на это может уйти два года студенческого full time, как на университетских физфаках или мехматах: чудес не бывает, царской дороги в геометрию нет. А с учётом того, что математическое знание непрерывно прирастает, то надо бы это время как-то увеличить, ибо не зря Вербицкий напоминал «бег за трамваем». Это будет очень круто и крайне полезно для всей будущей жизни такого студента (но уверенности, что это будет полезно для всей будущей и даже текущей жизни такого студента всё-таки нет, помним про математика-AI). Такого ли «хардкора» по математике мы хотим, или всё-таки чего-то более лайтового?! Лет пятьдесят назад ответ на такой вопрос был бы один, а сейчас изменилось всё: и сама математика, и способы её использования в проектах, и возможность математических выкладок в компьютере, и сам подход к обучению людей в условиях быстроменяющегося знания, накапливаемого человеческой (и уже не совсем даже человеческой) цивилизацией.
Что из математики должен знать условный директор стадиона?Чему из алгоритмики нужно учить условного директора стадиона? А чему учить условного директора стадиона из термодинамической теории эволюции и квантово****подобного active inference? И зачем ему знать хоть что-то про термодинамическую семантику**, про нейросемиотику****? Ответ** «для общего развития» тут не подойдёт, нужно указать, как это будет потом использоваться в мышлении, в рабочих ситуациях**. Ибо если не будет использоваться, то и учить не нужно!** А что изучение математики (или физики) «ум в порядок приводит», так это не так, это из области городских легенд. Изучение математики должно определяться целями, внешними для математики!
На уровне науч-попа изучать «занимательную математику» — это будет просто «интересненько». Но нужно давать математику как трансдисциплину, чтобы увязывать самые разные рассуждения по самым разным моделям на многих системных уровнях и на многих уровнях абстракции/описаний. Всё это вроде как SoTA (ибо предлагаемая новейшая математика для новейшей физики хорошо согласуется с экспериментом, выдаёт результаты лучше других объяснительных теорий), но всё настолько свежее, что не накопилось опыта массового использования в проектах самых разных масштабов, речь идёт пока только о нескольких лабораториях мира, где идёт исследовательская (а не инженерная) работа, где мир познают в его отдельных очень узких аспектах, но пока не активно меняют его к лучшему (при всём уважении к точке зрения, что познать мир и поменять мир — это одно и то же, active inference).
Какая-то интуиция подсказывает, что математика и физика интересны не только своим прикладным знанием «разделов математики» и «разделов физики», что вполне важны для интеллект-стека математическое и физическое мышление. Это знание вполне общеобразовательное, фундаментальное/трансдисциплинарное/мультимасштабное «для всех уровней сложности от инертного вещества через киберфизические системы и живые организмы до людей и человечества с его AI». Но вот зачем и как в голову студентов ставить понятизацию, собранность, семантику, онтологию с её «машинкой типов», и что будет, если этого в голове нет, можно буквально на пальцах объяснить. Зачем нужно заземление/grounding и как его делать в переходе к конкретным описаниям — это сразу становится понятным.
Но вот абстрактные математические понятия, которые стали физическими (поля, пространства, и даже энергия, в том числе свободная энергия) и отличия байесовского вывода от квантового вывода (в том числе понятие вариационного исчисления, а также байесовского сюрприза, вычисляемого в вариационном выводе) — это не факт, что быстро удастся описать. А нейронные сети? Понятно, что мало кто в мире знает про то, как работают и как делают микропроцессоры, и как именно устроены нейронные сети. Или секрет рецепта кока-колы. И ничего, живут. А вот active inference — это такое же «важное, но вполне прикладное знание, которое будете использовать, только если попадёте в эту узкую предметную область, что-то типа рецепта кока-колы, который нужен только если именно кока-колу производите», или это «фундаментальное/мультимасштабное знание/трансдисциплина, которую вы будете использовать каждый день при рассуждениях о самых разных других предметах для самых разных системных уровней, поэтому математику active inference надо хорошо знать»?
Общий принцип active inference вполне можно использовать и без знания математики (например, обсуждая governance в менеджменте, это уже преподаётся на наших курсах, есть учебник[13] и разбор материала).
Гипотеза в том, что математику в active inference всё-таки знать надо (принципы вариационного исчисления), и её можно будет использовать чуть ли не ежедневно, если её знаешь. Какие-то порождающие/generative модели, требуемые этой теорией, и так делаются практически в каждом проекте, хотя и очень разные, но говорить о них как-то единообразно придётся, и для этого вполне подходит следование идеям active/embodied инференс, которые как раз предлагают различать виды моделей и виды действий (изменение моделей себя и/или окружения, изменение себя и/или окружения).
Если вы преподаёте системный фитнес, то будете объяснять, как ставить тело под собственный контроль (body control) через predictive performance framework — и это знание PPF на основе active inference должно быть общим не только для системного фитнеса, ибо если вы ставите корпорацию под контроль, то и про корпорацию (corporate control/governance) должны рассуждать примерно так же.
При этом переход к геометрическому моделированию агентов может быть очень продуктивным, постоянно выходят работы в этом направлении, в том числе и по геометрическим методам в active inference[14]. Под любым описанием (в том числе описаниями, исходящими из принципа минимизации свободной энергии) будет холст, на котором оно нарисовано. Вот геометрические «точка» и «пространство», выраженные алгебраически, вместе с ещё несколькими уровнями описания между ними, вполне могут быть таким холстом, базовыми понятиями, основаниями математики. Но множество ходов, которые начинают с более высоких уровней. Вот, например, использование теории категорий в качестве математического основания для active inference, «Mathematical Foundations for a Compositional Account of the Bayesian Brain»[15], ход на конструктивизм в нейронных сетях на основе байесовских методов. Тут, конечно, нужно учитывать, что математические описания active inference склоняются к квантовым методам[16], а не чистым байесовским.