Skip to content

Как работать с графами причинности

Строгие вычисления с использованием статистических данных проводятся продвинутыми методами дисциплины «Теория вероятности». Графы причинности – это промер байесовских сетей, для реальной работы с ними нужно понимание алгебры событий, условных вероятностей, распределений и прочих понятий этой дисциплины. Здесь мы можем только рассказать вам об основных принципах, и предлагаем получить дальнейшую информацию из учебной и научной литературы.

Работать с графом мы начинаем с события (изменения мира или состояния мира), которое нам интересно понять, объяснить, предсказать. Это может быть причина, следствия которой мы хотим обнаружить, но это может быть и следствие, причину которого мы хотим найти. Нам нужна достаточно универсальная формулировка вопроса/проблемы, являющейся предметом нашего исследования.

Примеры возможных вопросов для исследования:

  • Почему сотрудники недовольны нашей компанией?
  • Как сделать так, чтобы сотрудники чтобы были довольны? (это вопрос о вероятном мире, о необходимых отличиях в нём, которые приведут к другому состоянию сотрудников)
  • Почему у Васи ожирение?
  • Как сделать так, чтобы Вася похудел?
  • Почему упали продажи нашей компании?
  • Почему сотрудник стал работать в два раза лучше?
  • Почему этот показатель деятельности растет?
  • Какие последствия вызовет такое вмешательство в работу отдела?

Далее мы формулируем гипотезы о связи исследуемого события с возможными причинами и следствиями, которые нам необходимо проверить.

Примеры возможных гипотез для исследования:

  • Сотрудники недовольны нашей компанией потому, что у нас нет бесплатного кофе.
  • Чтобы сотрудники чтобы были довольны компанией, надо дать им абонементы в спортзал.
  • У Васи ожирение потому, что он постоянно смотрит телевизор.
  • Чтобы Вася похудел, надо дать ему абонемент в спортзал.
  • Продажи нашей компании упали из-за того, что конкурент выпустил удобное приложение для заказа сепулек.
  • Сотрудник стал работать в два раза лучше потому, что ему дали абонемент в спортзал.
  • Этот показатель деятельности растет из-за такого вмешательства в работе отдела.
  • Такое вмешательство в работу отдела вызовет рост этого показателя.

События и их причинно-следственные связи, составляющие наши гипотезы, вносятся в граф причинности как есть. Далее вокруг них мы начинаем добавлять другие события (медиаторы, искажающие факторы, коллайдеры) и связывать их в том виде и порядке, в котором их обнаруживают и предлагают эксперты.

Построение графа причинности является практикой доэкспериментальной аргументации, которую мы обсуждали выше.

Построенный из экспертных и логических соображений граф причинности позволяет проверить характер связи между событиями — является ли связь причинно-следственной, или имеются другие варианты объяснения происходящего или прогноза на будущее.

Одно из важных применений графа – найти искажающие факторы, при необходимости сделать на них поправку, защититься от них. Искажающий фактор является причиной для изначальных причины и следствия, его обнаружение может сообщить нам, что связь между событиями совсем не такая, как нам изначально казалось. Помним, что искажающих факторов может быть несколько.

На искажающий фактор можно попытаться повлиять, чтобы повлиять на связь между двумя событиями: зафиксировать, проконтролировать при экспериментах. Если мы можем поставить эксперименты так, чтобы искажающий фактор был зафиксирован – мы можем получить значимые подтверждения нашей гипотезы о причинно-следственной связи между исходными событиями.

Например, если в группе людей, чьи родители имеют один и тот же уровень образования, выявлена зависимость между временем, проводимым перед телевизором и ожирением – влияние искажающего фактора не подтверждается, исходная гипотеза остаётся хорошим кандидатом на объяснение.

Еще пример гипотезы*😗 наверное, человек плохо спит потому, что он много двигается вечером.

Событие «физическая активность вечером» — предполагаемая причина.

Событие «плохой сон» — предполагаемое следствие.

Мы хотим исследовать, связаны ли эти события причинно-следственной связью; связаны ли они какой-то другой связью; или они не связаны вообще. Основываясь на этом, мы хотим принимать дальнейшие решения (улучшить сон, например).

В первую очередь мы ищем медиатор, который можно вставить между этими событиями. Без обнаружения медиатора не могут быть причиной и следствием, для этого нужен механизм связи. Можно предположить, что медиатор тут – уровень адреналина в крови. От физической активности он повышается, из-за чего потом сложно уснуть. «Потренировались вечером»::причина) — «не можете уснуть»::следствие, потому что «адреналина слишком много»::медиатор.

Затем пробуем поискать искажающий фактор. Что-то, что может влиять и на вашу физическую активность вечером (на желание позаниматься), и на способность быстро уснуть. Например, это может быть кофе или другие стимуляторы. Соответственно: «выпили кофе после обеда»::ИФ — «захотелось потренироваться вечером»; «выпили кофе после обеда»::ИФ — «не можете спокойно уснуть вечером». Кофе — и причина вашей активности вечером причина плохого сна.

Можно найти и коллайдер, то есть общее следствие вечерних тренировок, оно же следствие плохого сна. Например, коллайдером будет низкая производительность (мало рабочих часов). «Вы тренируетесь вечером» — «раньше уходите с работы». «Вы плохо спите» — «на работе не можете собраться и теряете производительность». Провалы на работе — следствие как вечерних тренировок, так и плохого сна.

Обнаружение коллайдера расширяет вашу объясняющую модель, позволяет увеличить число способов её возможного применения.

Ещё несколько советов:

Формулируйте заземлённо**, следите за типами объектов.** Тип сущности в причинном графе — событие/фактор, и это должны быть какие-то идентифицируемые состояния или процессы в реальном или в возможном мире, то есть 4D объекты, или их узкие классы. Абстрактные сущности не слишком пригодны для причинно-следственного анализа.

Формулируйте с расчетом на то, что это придется потом измерять количественно. Даже если вы не будете потом делать сложные расчёты, это помогает заземляться и делать объяснения фальсифицируемыми.

Если в графе возникли циклы, или вы думаете, что вы можете найти медиаторы, действующие и в том, и в другом направлении - проверьте референцию используемых терминов и избавьтесь от размытых понятий.

Например: «сотрудники делают компанию благополучной — компания делает сотрудников довольными — довольные сотрудники делают компанию благополучной*»* — и так далее. Расшифруйте понятия «благополучный» и «довольный», замените их на заземлённые и измеримые показатели. Сразу станет ясно, что плести такую цепочку до бесконечности – просто невозможно.

В заключение напомним: в этом разделе вы ознакомились с предельно упрощённым пересказом концепций и методов причинного анализа (causalinference, https://en.wikipedia.org/wiki/Causal_inference). Если вас заинтересовала эта предметная область – начните с прочтения книги "The Book of Why", а далее, если вы захотите в этой области профессионализироваться – читайте специальную литературу.