SASBI.ru / STATS and Business Intelligence Sun, 10 Jul 2011 20:01:05 +0000 http://wordpress.org/?v=2.7 en hourly 1 BI Сходка 2011 /bi-sxodka-2011/ /bi-sxodka-2011/#comments Sun, 10 Jul 2011 19:59:49 +0000 Олег Соловьев /?p=1880 8 июля в Москве прошла неформальная конференция «BI Сходка 2011». Моя презентация — ниже. Всего четыре части. Спасибо участникам и организаторам за помещение и ужин. Приятного просмотра.








]]>
/bi-sxodka-2011/feed/
Зарплата по регионам /zarplata-po-regionam/ /zarplata-po-regionam/#comments Mon, 04 Jul 2011 09:17:18 +0000 Олег Соловьев /?p=1859 Математики постоянно ищут новые источники данных. Например, сотовые операторы следят за перемещениями своих абонентов. Банки черпают информацию о заемщиках в бюро кредитных историй. Ритейлеры предлагают дисконтные карты, чтобы следить, какие товары вы покупаете.

Зарплата по регионам

В США продажа информации о клиентах — прибыльный бизнес. Например, в статье «The dark side of customer analytics» Harvard Business Review описан случай продажи данных ритейлером в страховую компанию.

Но есть и бесплатные источники данных. Например, Росстат публикует данные о средних зарплатах и плотности населения по регионам. Отношение суммы ежемесячного платежа к средней зарплате в регионе может стать важным параметром в моделе кредитного скоринга.

]]>
/zarplata-po-regionam/feed/
Проверка ABT /proverka-abt/ /proverka-abt/#comments Tue, 26 Apr 2011 06:59:02 +0000 Олег Соловьев /?p=1834 ABT (Analytical Base Table) — таблица для исследования данных и построения моделей. Как правило, одна запись таблицы содержит информацию об одном клиенте — физическом лице. Любой проект по разработке математической модели начинается с создания ABT.

ABT может регулярно обновляться в хранилище и поддерживаться IT-отделом или, что предпочтительнее, у аналитика должен быть код, который позволит сформировать ABT в любое удобное для него время.

Данные для ABT «вытягиваются» из почти всех таблиц хранилища, т.к. цель ABT — собрать максимально полную информацию о клиентах в одной таблице. При этом процесс вычисления ABT может занять несколько часов и даже несколько суток. Поэтому, в код вычисления ABT нужно добавлять фильтр, который позволит отбирать клиентов по дате начала предоставления услуг, продукту и т.д.

После каждого формирования ABT необходимо проверить на:

  • наличие пустых значений
  • непротиворечивость

Пустые значения

В SAS наличие пустых значений можно проверить так: для числовых переменных:

proc means data = ABT n nmiss;
run;

для текстовых:

proc format;
  value $misscnt ' ' = 'Missing'
                 other = 'Nonmissing';
run;

proc freq data = ABT;
  tables _character_ / nocum missing;
  format _character_ $misscnt.;
run;

Этот пример из книги Cody’s Data Cleaning Techniques. Ron Cody.

Строки, в которых появляются пропущенные значения можно удалить, но лучше перепроверить источники данных и выяснить почему параметр не заполнен. Если исправить ситуацию не удается, то в текстовых параметрах пустые значения нужно заменить на текст типа «missing», а числовые параметры разбить на группы и пропущенным значениями также присвоить значение «missing». Например, для возраста:

  • 18-25 лет
  • 26-35 лет
  • 36-45 лет
  • 46-55 лет
  • 56+ лет
  • missing

Непротиворечивость

Значения некоторых параметров естественным образом ограничены. Например, возраст не может быть менее 18 лет и более 70 лет. Это условие, как правило, прописано в контракте на услугу. Разработка таких правил проверки — трудоемкая и творческая работа, требующая хорошего знания бизнеса компании.

Однофакторный анализ

После проверки данных следует проверить какие из параметров сильнее остальных связаны с прогнозируемым результатом, например дефолтом по кредиту. Для этого можно вычислить три статистики:

  • information value
  • статистика Спирмена
  • статистика Пирсона

Подробнее в статье Самый «значимый» параметр. Также можно использовать статистики Колмогорова-Смирнова и Gini. Подробнее об этом — в следующих статьях.

]]>
/proverka-abt/feed/
Новые книги /novye-knigi/ /novye-knigi/#comments Wed, 20 Apr 2011 03:45:56 +0000 Олег Соловьев /?p=1813 Заказал на Amazon.com две новые книги. Первая — Data Mining techniques — это новое, третье издание данной книги. Моя рецензия на второе издание здесь. Пока это единственная книга, из тех что я знаю, котороая рассказывает о Data Mining языком бизнеса/гуманитария, а не математика.    Data Mining Techniques Applied Survival Analysis
Вторая книга — Applied Survival Analysis. На одном из собеседований интервьюер сказал, что используют ее как настолную книгу при исследовании оттока клиентов. Я посмотрел отзывы в интеренете (положительные) и решил сравнить ее с книгой: Survival Analysis Using SAS. Мое первое впечатление: Applied Survival Analysis — подробная, академическая книга с обилием формул, рассчитанная на математиков, а Survival Analysis Using SAS адаптирована для неспециалистов, но с нее проще начать и получить первые результаты.
]]>
/novye-knigi/feed/
Project Manager (SAS/DWH) /project-manager-sasdwh/ /project-manager-sasdwh/#comments Mon, 18 Apr 2011 16:18:59 +0000 Олег Соловьев /?p=1808 Требования:

- высшее техническое или экономическое образование;
- опыт управления ИТ проектами в банковской области от 2х лет, не менее 2 завершенных проектов;
- практические знания в области финансового анализа, управления банковскими рисками, бухгалтерского учета в банках, требований отчетности ЦБ или МСФО являются преимуществом;
- знание основ теории управления проектами;
- опыт анализа и спецификации требований, от 3 лет;
- опыт работы с использованием Oracle, SAS, Cognos является преимуществом;
- знание английского языка (intermediate - письменный и устный);
- коммуникабельность, ответственность, стрессоустойчивость.

Основные обязанности:

- организация и ведение проектов по развитию ИТ систем Банка (подбор команды, планирование, контроль, отчетность);
- активное взаимодействие с ИТ и бизнес-подразделениями Банка;
- активное взаимодействие с представителями внешних компаний-поставщиков ….etc

Владимир Бородулин

]]>
/project-manager-sasdwh/feed/
. .