Версия для печати
Оригинал статьи http://www.franklin-grant.ru/ru/news2/data/news_04/2004_03/20040301_182929_xf.asp

На первый-второй, рассчитайсь

На первый-второй, рассчитайсь! Или анализ банкротств при помощи самоорганизующихся карт Кохонена

01.03.2004

 

Банкротство (несостоятельность) имеет большое значение для финансовых рынков, поэтому моделирование этого терминального состояния бизнесов выделилось в отдельный раздел науки и занимает умы многих ученых и практиков. Эта проблема в настоящий момент широко изучена, для нее разработаны соответствующие методы анализа данных. Традиционной постановкой проблемы для этих методов является задача прогнозирования банкротства. Однако, по мнению некоторых авторов, с практической точки зрения не менее важной является проблема разработки методов анализа и понимания типов корпоративного поведения и отношения компаний к банкротству.

В обсуждаемой нами статье, посвященной анализу банкротств, для оценки состояния предприятий используются методы анализа данных, основанные на SOM (самоорганизующиеся карты Кохонена или СОК в русской «транскрипции»). В статье утверждается, что получаемые карты лучше визуализируют риск банкротства, а также дают более наглядное статистическое разделение компаний-банкротов от «здоровых» компаний. Но, несмотря на повышенный интерес к технологии СОК в среде российских банковских аналитиков, мы обратили внимание на данную статью совсем по другой причине.

Автор обсуждаемой статьи (Самюэль Каски), работающий в технологическом университете Хельсинки (в центре нейросетевых исследований), является одним из немногих, кто задался вопросом о том, можно ли следовать «советам» Эвклида при анализе финансовых данных. Этот вопрос нам, вслед за автором, кажется весьма важным. Действительно, метрика Эвклида (способ задания расстояния между двумя объектами), берущая свое начало от планиметрии (хорошо известной большинству из школьного курса), была приспособлена для измерения расстояний и углов на плоскости (наука уже в те древние времена служила для решения практических задач по проведению границ между участками земли, ирригации и т.д.). Для упомянутых задач метрика Эвклида была хороша.

Задача распознавания предприятий-банкротов от нормально функционирующих предприятий формулируется как задача оценки похожести хозяйствующих субъектов, что равносильно измерению расстояния между ними. Поэтому вопрос о том, для всех ли задач хороша Эвклидова метрика, является не праздным. Даже краткий экскурс в историю науки показывает, что далеко не всегда такая метрика позволяет измерять расстояние между объектами.

Самой простой иллюстрацией ограниченности метрики Эвклида является попытка наложить (в смысле соприкосновения всеми точками) плоскую фигуру, вырезанную из бумаги, на сферическую поверхность, даже имея возможность изгибать эту фигуру. Оказывается, что эта задача не имеет решения, хотя для конуса или цилиндра такое наложение возможно. Причиной является тот факт, что конус, цилиндр и плоскость имеют локально одну и ту же геометрию, характеризующуюся кривизной, равной нулю. В то же время кривизна сферы просто равна ее обратному радиусу. А потому геометрия Эвклида вместе с метрикой Эвклида эдесь не работает.

Другой пример – в геометрии, определяемой метрикой Эвклида – геометрии на плоскости, существует теорема о равенстве суммы углов в треугольнике 180 градусам. Эта теорема не верна для треугольника на сфере, поскольку геометрия сферы определяется неэвклидовой метрикой. Почему же мы считаем, что измерять близость между хозяйствующими субъектами можно при помощи метрики, которая была придумана для других целей?

Автор обсуждаемой статьи, по-видимому, также задался таким вопросом, в силу чего он в своей статье и пытался сконструировать новую метрику для измерения похожести предприятий-банкротов друг на друга и их непохожести на нормально функционирующие предприятия.

В статье представлен метод получения метрики в пространстве данных, основанной на информационной матрице Фишера. Самоорганизующаяся карта Кохонена (SOM) вычисляется для анализа вероятности банкротства предприятий. 

Успех алгоритмов обучения без учителя, таких как SOM и методы кластеризации, сильно зависят от метрики, меры расстояния между интересующими объектами. Метрика, в свою очередь, зависит от того, какие переменные выбраны для описания объектов, то есть от выбора переменных и выделения признаков. Проблема выбора и масштабирования переменных – это, в общем случае, задача нелинейного отображения исходного пространства переменных в более удобное для дальнейшего исследования пространство. Выбор переменных обычно производится «вручную» с помощью экспертных данных или эвристических правил.

Проблема выбора метрики в финансовых моделях возникает из-за «неэвклидовости» пространств рассматриваемых в этих моделях переменных.

Авторы статьи ставят перед собой цель разработать алгоритмы, использующие соответствующим образом дополнительную информацию для изменения исходной метрики пространства данных. Получаемое пространство локально масштабировано, так что новые (локальные) расстояния являются мерой различия переменных, о которых дана дополнительная информация. При этом сохраняется отношение подобия исходного пространства.

Для вычислительных целей новая метрика лучше всего подходит для алгоритмов, которые зависят в основном от локальных расстояний исходного пространства переменных. Одним из примеров таких алгоритмов являются самоорганизующиеся карты Кохонена.

В статье рассматривается применение новой метрики для анализа риска банкротства предприятий на основании финансовой отчетности. Рассматриваемая метрика трансформирует меру расстояния пространства данных, выявляя существенные различия между значениями переменных. В статье предполагается, что есть дополнительная информация, определяющая важность или несущественность данных.

Пусть  – функция плотности совместного распределения переменной  пространства данных и дополнительной информации , где переменная  – случайная величина. Условное распределение  определяет информацию о важности отношений подобия исходных данных. Разность распределений измеряется расхождением Кульбака-Лейблера:

,

где

есть информационная матрица Фишера, где  – условное матожидание случайной величины  при условии . Здесь информационная матрица Фишера  представляет собой тензор новой метрики в исходных евклидовых координатах. Новая локальная метрика в пространстве данных определяется соотношением

.

 

На рис. 1 приведены SOM, демонстрирующие разницу между вычисленными самоорганизующимися картами Кохонена в евклидовой метрике (SOM-E) и в метрике Фишера (SOM-F). Исходные данные представляют собой мультинормальное распределение размерности шесть, то есть . Дополнительные данные были разделены на три Гауссовых класса, то есть , где  – функция плотности распределения , заданной распределением . Центры классов  такие, что , дисперсия . Исходные данные составляли 3382 точки. Постериорные вероятности классов, оцененные векторами модели, представлены двумя картами (размер 40 на 40 точек). Для одних и тех же данных производился расчет в метрике Фишера SOM-F (а: класс 0, b: класс 1, с: класс 2) и в стандартной евклидовой метрике SOM-E (d-f).

Рис. 1

 

На рис. 2 изображена SOM, на которой разделены склонные к банкротству и «здоровые» компании. а-b:  Оценка вероятности банкротства a SOM-F, b SOM-E. Фактическая частотность банкротств в тестируемом множестве для каждой карты изображена на с для SOM-F и на d для SOM-E. Белый цвет – нет банкротств, черный цвет – две трети компаний претерпели банкротство.

Рис. 2

 

На рис. 3 показано распределение значений финансовых индикаторов (a-c) для SOM-F, и (d-f) для SOM-E. Индексы (а и d) – прибыльность, (b и e) – ликвидность, (c и f) – структура капитала.

Рис. 3

 

Существенное различие результатов работы алгоритма в разных метриках убеждает нас в важности и необходимости правильного выбора метрики в пространстве исходных данных. Вместе с тем, по нашему мнению, статья не столько решает проблему выбора метрики, сколько ориентирует исследователя в этом направлении.