logo search
Анализ химического состава р. Самара в районе с. Вербки

2. Расчет коэффициента корреляции

Регрессионный и корреляционный анализы - методы исследования взаимосвязи между двумя или более непрерывными переменными. В регрессионном анализе рассматривается связь между одной переменной, называемой зависимой переменной, и несколькими другими, называемыми независимыми переменными. Эта связь представляется с помощью математической модели, т.е. уравнения, которое связывают зависимую переменную с независимыми с учетом множества соответствующих предположений. Независимые переменные связаны с зависимой посредством функции регрессии, зависящей также от набора неизвестных параметров. Если функция линейна относительно параметров (но необязательно линейна относительно независимых переменных), то говорят о линейно модели регрессии. В противном случае модель называется нелинейной.

Статистическими проблемами регрессионного анализа являются:

1) Получение наилучших точечных и интервальных оценок неизвестных параметров регрессии.

2) Проверка гипотез относительно этих параметров.

3) Проверка адекватности предполагаемой модели.

4) Проверка множества соответствующих предположений.

Выбор подходящей модели основывается скорее не на статистических доводах, а на основе учета физических факторов.

Регрессионный анализ используется по двум причинам:

1. Во-первых, что описание зависимости между переменными помогает установить наличие возможной причинной связи.

2. Во-вторых, для получения функции отклика для зависимой переменной, так как уравнение регрессии позволяет предсказывать значения зависимой переменной по значениям независимых переменных.

Величина линейной зависимости между двумя переменными измеряется посредством простого коэффициента корреляции, в то время как величина линейной зависимости одной переменной от нескольких измеряется множественным коэффициентом корреляции.

Независимо от способа получения выборки, имеются два предварительных шага для определения существования и степени линейной зависимости между X и Y.

· Первый шаг заключается, в графическом отображении точек (x1, y1), …, (xn, yn) на плоскость X Y. Такой график называется диаграммой рассеяния. Анализируя диаграмму рассеяния, мы можем эмпирически решить, допустимо ли предположение о линейной зависимости между X и Y.

· Вторым шагом является вычисление коэффициента корреляции

Где x,y,- среднее значение.

Зная среднее значение, находят отклонение каждого наблюдения di от среднего:

Величину называют дисперсией или вторым центральным моментом эмпирического распределения.

Коэффициент корреляции есть мера линейной зависимости между X и Y. Значение r заключены в пределах от -1 до +1. Положительное значение r указывает, что Y имеет тенденцию возрастать совместно с Х, в то время как отрицательное r указывает на тенденцию У к убыванию с ростом Х. Экстремальные значения r =1 соответствуют полной линейной зависимости между Х и У, так что при данном Х = х значение У точно определено.

Далее будут приведены расчеты парной корреляции между различными показателями.