logo
4 курс / 1 семестр / ГИС / Лурье И

5.1.1.Классификация объектов путем группировки значений их признака

Методы классификации пространственных данных, применяемые в географии и картографии, чрезвычайно разнообразны [Геоинформатика, 2005]. К классификациям, основанным на использовании многопараметрических данных, мы обратимся еще не раз. Здесь рассмотрим способ классификации путем группировки числовых значений одного из атрибутов, который применяется для объединения в классы близких величин или выявления закономерностей в данных. В этом способе границы классов определяют по характерным точкам статистического ряда их распределения, представляемого гистограммой — графиком, отображающим частоту встречаемости значений атрибута. Анализ такого распределения позволяет выбрать подходящий метод группировки, а также число создаваемых классов.

Обычно используют пять методов группировки:

естественных интервалов;

равных классов (квантилей);

равных интервалов;

равных площадей;

стандартных отклонений.

В методе естественных интервалов выделяют группы, которые свойственны анализируемым данным. Отмечают естественные скачки в значениях показателей, которые хорошо видны, например, на столбчатых гистограммах, построенных по этим значениям. Задание оптимального числа классов и их границ основывается только на близости значений в группе и максимальной разнице значений между группами. Этот метод хорошо подходит для классификации неравномерно распределенных данных.

При использовании второго метода устанавливают число объектов, относящихся к классу: каждый класс содержит одинаковое число объектов (классы равновеликие). При слишком маленьком указанном числе объектов результаты получаются, как правило, неудовлетворительными. Могут также возникать ситуации, когда объекты с близкими значениями оказываются в разных классах.