Разделы



Математические основы обработки данных для мониторинга

  социально-экономической ситуации в регионах и

федеральных округах 2 .

4.1. Задача классификации

Мы будем использовать для классификации алгоритмы кластер-анализа, представляющего собой область математической статистики, в которой рассматриваются задачи классификации при заданном или неизвестном числе классов (7), (9).

Для решения задач классификации сложных объектов по классам сходства в кластерном анализе разработан ряд алгоритмов, базирующихся на нескольких подходах. В частности, для различных задач могут различаться методы определения степени близости объектов между собой (расстояние между объектами); функции, определяющие возможность отнесения объекта к классу (функции назначения); функции, позволяющие выбрать типичный объект для данного класса (функции представительства); наличие или отсутствие информации о количестве классов для данного множества объектов и т.д.

Задача классификации регионов по совокупности индикаторов, описывающих социально-экономическую ситуацию, характеризуется следующими параметрами:

•              наличие конечного числа регионов;

•              наличие конечного числа социально-экономических индикаторов (параметров, характеризующих тот или иной аспект экономической безопасности каждого региона;

•              наличие экспертных оценок важности каждого из индикаторов для интегральной оценки социально-экономической безопасности региона;

•              возможность изменения значений индикаторов с течением времени;

Перечисленные характеристики задачи дают основание предложить следующий метод ее решения.

Прогнозирования являются стержнем любой торговой системы, поэтому профессионально сделанные прогнозы Форекс могут сделать Тебя безумно денежным.

4.1.1. Математическая постановка задачи

Имеется совокупность регионов {R[i]; i=1,..,N}, где N - число регионов, i - фиксированный номер региона. В дальнейшем мы будем называть регионы объектами классификации или просто объектами.

Имеется конечное множество индикаторов социально-экономической стабильности {P[j]; j=1,..,M}, где M - число индикаторов, j   -  фиксированный  номер  каждого  индикатора.  Для  краткости  в дальнейшем будем называть социально-экономические индикаторы параметрами объекта или просто параметрами.

Имеется набор экспертных оценок относительной важности параметров для интегральной оценки социально-экономической стабильности. Без ограничения общности будем считать, что это балльная оценка, и сравнение важности параметров осуществляется простым правилом: чем больше балл, тем важнее параметр. Таким образом, мы имеем множество {b[j], j=1,..,M} балльных оценок важности параметров.

п»ї

Рассмотрим идеальный случай, когда на каждый момент времени t известен набор значений каждого параметра для каждого региона {P[i,j,t]; i=1,..,N; j=1,..,M}. Понятно, что в реальной жизни такой случай практически невозможен, однако для решения задачи классификации можно с достаточной точностью считать, что действительным на данный момент времени является последний доступный набор значений параметра. Такое допущение справедливо, если изменения параметра имеют постепенный характер и значение параметра не могло резко измениться за прошедшее с момента последнего измерения время. Такая ситуация имеет место в России почти всегда, за исключением особых точек типа 17 августа 1997 г.

Наконец, известно число классов, по которым необходимо распределить объекты {R[i]}. Традиционно это число составляет от 5 до 10 классов. Обозначим число классов через L.

Требуется сформировать L классов непересекающихся подмножеств совокупности {R[i]}, таких, чтобы элементы каждого подмножества были максимально сходны между собой и максимально отличались от элементов любого другого подмножества.

4.1.2. Алгоритм решения задачи автоматической классификации

Установим меру сходства между объектами по совокупности параметров. Для этого сначала нормализуем балльные оценки параметров так, чтобы в сумме они составляли 1. Полученные таким образом оценки обозначим {w[j], j=1,..,M}:

видеть, что, действительно w[1]+w[2]+...+w[M]=1. Назовем оценки w[j] весами параметров. Назовем теперь расстоянием от объекта R[k] до объекта R[l] сумму абсолютных значений разностей между значениями каждого из параметров объекта в данный момент времени, умноженных на веса соответствующих параметров:

Легко видеть, что функция d ( k , l , t ) действительно обладает свойствами расстояния: d ( k , l , t ) неотрицательно при любых k , l и t ; d ( k , k , t )=0 при любом t . Теперь можно определить меру сходства объектов следующим образом: чем меньше d ( k , l , t ), тем более похожи друг на друга объекты R[k] и R[l].

Будем называть представителем класса объект, являющийся в некотором смысле наиболее типичным объектом этого класса. Тогда можно определить функцию представительства (выбора представителя класса) следующим образом: объект R[k] является представителем класса C[q], если сумма расстояний от него до всех объектов этого класса минимальна по всем объектам класса:

теперь функцию назначения (отнесения объекта к классу). Предположим, нам известны представители всех классов. Тогда будем считать, что объект R[k] относится к классу C[q], если расстояние от представителя этого класса до данного объекта меньше, чем от представителя любого другого класса.

п»ї

Теперь мы имеем все необходимое для того, чтобы сформировать алгоритм классификации объектов по совокупности параметров. Перечислим основные шаги алгоритма классификации:

1.Выберем произвольные L объектов из общей совокупности. Будем считать их представителями классов.

2.Проведем процедуру назначения для всех объектов, не являющихся представителями классов.

3.Для вновь сформированных классов проведем процедуру представительства. Если ни один из представителей классов не изменился, то классификация закончена. В противном случае возвращаемся к п.2.

Существует строгое доказательство того, что данный алгоритм всегда сходится (9).

Следует обратить внимание на то, что предлагаемый алгоритм работает безотносительно к экономическому смыслу используемых параметров. Результатом работы данного алгоритма является набор классов объектов, максимально похожих друг на друга по всей совокупности параметров внутри каждого класса. При этом вполне возможно, что в классе будут объединены регионы, которые по одному индикатору являются стабильными и благополучными, а по другому -наоборот. Интерпретация результатов работы алгоритма классификации может дать богатый материал для социально-экономического осмысления ситуации как по России в целом, так и по регионам.

Отметим, что рассмотренный алгоритм классификации выбран с точки зрения простоты его реализации. В кластер-анализе предлагается большое число агоритмов, однако мы выбрали именно этот, поскольку при существующей точности исходных данных более сложные алгоритмы вряд ли могут оказаться более приемлемыми.

Читать далее: Задача частичного упорядочения регионов в федеральном округе