Самый «значимый» параметр
Олег Соловьев 6.06.2010
Считается, что IT-спецы и «бизнес» говорят на разных языках. Я бы выделил еще одну группу – математики. Все эти специалисты плохо понимают друг-друга, что сильно тормозит любой совместный проект.

Например, на моей прошлой работе требовалось оптимизировать рекламную рассылку. Надо было выделить группы клиентов с наибольшим кол-вом откликов. В этой задаче полсотни переменных, поэтому бизнес вначале просил выделить самый «значимый» параметр. Видимо, в их воображении существовала одна переменная, по которой клиенты мгновенно делились на группы с максимальным и минимальным процентом откликов.
Я же отвечал, что модели могут содержать десяток переменных. Причем «значимость» параметров зависит от присутствия других переменных (коллинеарность). В конце концов, каждая модель содержит встроенные методы для автоматического определениях подходящих параметров. Но в итоге, мне так и не удалось убедить «бизнес» и они продолжали искать свой самый «значимый» параметр.
Недавно я перечитывал книгу «Credit Scoring for Risk Managers» где автор решает схожую задачу но с другого конца. Вместо поиска самого «значимого» параметра он пытается отбросить самые «не значимые». Глава этой книги так и называется «Variable Analysis and Reduction».
Для этой цели автор использует три статистики:
- information value,
- статистика Спирмена,
- статистика Пирсона.
Алгоритмы расчета и свойства этих статистик мы рассмотрим в следующих статьях. Скажу только, что эти статистики рассчитываются для входной переменной и прогнозируемой. В качестве прогнозируемой, например, может быть результат ответа на рассылку или дефолт по кредиту. Чем больше модуль каждой статистики, тем сильнее связаны две переменные.
После вычисления статистик для каждой входной переменной, список переменных сортируются по убыванию значения information value и ранжируется: первой переменной присваивается номер 1, второй – 2 и т.д. Та же процедура повторяется для двух других статистик. В итоге мы получаем три варианта ранжирования переменных по каждой из статистик. Это позволяет показать «значимость» параметров на графике.
Например, на рисунке выше показана «значимость» нескольких параметров из набора cup98lrn. Самые «значимые» переменные расположены слева.
Конечно, метод не позволяет однозначно определить «самую» значимую переменную. Однако такой график может стать основной для разговора с бизнесом, поможет ему посмотреть на свою задачу с новой стороны.
Почему самые значимые переменные слева? Ведь чем больше, например, Information value, тем выше “значимость”, а у вас у самых левых переменных маленькие значения..
На графике показан ранг параметра. Чем выше значимость, тем ниже ранг. Переменные нумеруютя по убыванию information value.
Understood, невнимательно прочитал кусок, где это прямым текстом написано