Поняття про корреляционном аналізі
Існує безліч визначень терміна. Виходячи з вищевикладеного, можна сказати, що кореляційний аналіз — це метод, що застосовується з метою перевірки гіпотези про статистичної значущості двох і більше змінних, якщо дослідник їх може вимірювати, але не змінювати.Є й інші визначення даного поняття. Кореляційний аналіз — це метод обробки статистичних даних, що полягає у вивченні коефіцієнтів кореляції між змінними. При цьому порівнюються коефіцієнти кореляції між однією парою або множиною пар ознак, для встановлення між ними статистичних взаємозв'язків. Кореляційний аналіз — це метод вивчення статистичної залежності між випадковими величинами з необов'язковою наявністю суворого функціонального характеру, при якій динаміка однієї випадкової величини призводить до динаміки математичного очікування інший.
Поняття про хибність кореляції
При проведенні кореляційного аналізу необхідно враховувати, що його можна провести по відношенню до будь-якої сукупності ознак, часто абсурдних по відношенню один до одного. Інколи вони не мають ніякої причинному зв'язку один з одним.У цьому випадку говорять про хибної кореляції.
Завдання кореляційного аналізу
Виходячи з наведених вище визначень, можна сформулювати наступні завдання описуваного методу: отримати інформацію про одну з шуканих змінних за допомогою іншого; визначити тісноту зв'язку між досліджуваними змінними. Кореляційний аналіз передбачає визначення залежності між досліджуваними ознаками, у зв'язку з чим завдання кореляційного аналізу можна доповнити наступними:Зв'язок кореляційного аналізу з регресійним
Метод кореляційного аналізу часто не обмежується перебуванням тісноти зв'язку між досліджуваними величинами. Іноді він доповнюється складанням рівнянь регресії, які отримують з допомогою однойменного аналізу, і представляють собою опис кореляційної залежності між результуючим і факторним (факторними) ознакою (ознаками). Цей метод в сукупності з даним аналізом становить метод кореляційно-регресійного аналізу.Умови використання методу
Результативні фактори залежать від одного до декількох факторів. Метод кореляційного аналізу може застосовуватися в тому випадку, якщо є велика кількість спостережень про величину результативних і факторних показників (факторів), при цьому досліджувані фактори повинні бути кількісними та відображатися у конкретних джерелах. Перше може визначатися нормальним законом — у цьому випадку результатом кореляційного аналізу виступають коефіцієнти кореляції Пірсона, або, у випадку, якщо ознаки не підкоряються цьому закону, використовується коефіцієнт рангової кореляції Спірмена.Правила відбору факторів кореляційного аналізу
При застосуванні даного методу необхідно визначитись з факторами, що роблять вплив на результативні показники. Їх відбирають з урахуванням того, що між показниками повинні бути присутніми причинно-наслідкові зв'язки. У разі створення багатофакторної кореляційної моделі відбирають ті з них, які справляють істотний вплив на результуючий показник, при цьому взаємозалежні фактори з коефіцієнтом парної кореляції більше 085 в кореляційну модель переважно не включати, як і такі, у яких зв'язок з результативним параметром носить непрямолінійний або функціональний характер.Відображення результатів
Результати кореляційного аналізу можуть бути представлені в текстовому та графічному видах. У першому випадку вони представляються як коефіцієнт кореляції, у другому — у вигляді діаграми розкиду. При відсутності кореляції між параметрами точки на діаграмі розташовані хаотично, середня ступінь зв'язку характеризується більшим ступенем впорядкованості і характеризується більш-менш рівномірним віддаленістю завданих відміток від медіани. Сильна зв'язок прагне до прямої і при r=1 точковий графік являє собою рівну лінію. Зворотна кореляція відрізняється спрямованістю графіка з лівого верхнього в нижній правий, прямий — з нижнього лівого у верхній правий кут.Тривимірне представлення діаграми розкиду (розсіювання)
Крім традиційного 2D-подання діаграми розкиду в даний час використовується 3D-відображення графічного подання кореляційного аналізу. Також використовується матриця діаграми розсіювання, яка відображає всі парні графіки на одному малюнку в матричному форматі. Для n змінних матриця містить n рядків та n стовпців. Діаграма, розташована на перетині i-го рядка і j-го стовпця, представляє собою графік змінних Xi порівняно з Xj. Таким чином, кожна рядок і стовпець є одним виміром, окрема комірка відображає діаграму розсіювання двох вимірювань.Оцінка тісноти зв'язку
Тіснота кореляційного зв'язку визначається за коефіцієнту кореляції (r): сильна — r = ±07 до ±1 середня — r = ±03 до ±0699 слабка — r = 0 до ±0299. Дана класифікація не є строгою. На малюнку показана дещо інша схема.Приклад застосування методу кореляційного аналізу
У Великобританії було зроблено цікаве дослідження. Воно присвячене зв'язку куріння з раком легенів, і проводилося шляхом кореляційного аналізу. Це спостереження представлено нижче. Вихідні дані для кореляційного аналізуПрофесійна група
куріння
смертність
Фермери, лісники і рибалки
77
84
Шахтарі та працівники кар'єрів
137
116
Виробники газу, коксу та хімічних речовин
117
123
Виробники скла та кераміки
94
128
Працівники печей, ковальських, ливарних і прокатних станів
116
155
Працівники електротехніки та електроніки
102
101
Інженерні та суміжні професії
111
118
Деревообробні виробництва
93
113
Чинбарі
88
104
Текстильні робочі
102
88
Виробники робочого одягу
91
104
Працівники харчової, питної та тютюнової промисловості
104
129
Виробники паперу і друку
107
86
Виробники інших продуктів
112
96
Будівельники
113
144
Художники і декоратори
110
139
Водії стаціонарних двигунів, кранів і т. д.
125
113
Робітники, не включені в інші місця
133
146
Працівники транспорту і зв'язку
115
128
Складські робітники, комірники, пакувальники та працівники розливних машин
105
115
Канцелярські працівники
87
79
Продавці
91
85
Працівники служби спорту і відпочинку
100
120
Адміністратори і менеджери
76
60
Професіонали, технічні працівники і художники
66
51
Починаємо кореляційний аналіз. Рішення краще починати для наочності з графічного методу, для чого побудуємо діаграму розсіювання (розкиду). Вона демонструє прямий зв'язок. Однак на підставі тільки графічного методу зробити однозначний висновок складно. Тому продовжимо виконувати кореляційний аналіз. Приклад розрахунку коефіцієнта кореляції представлений нижче. З допомогою програмних засобів (на прикладі MS Excel буде описано далі) визначаємо коефіцієнт кореляції, який становить 0716 що означає сильну зв'язок між досліджуваними параметрами. Визначимо статистичну достовірність отриманого значення по відповідній таблиці, для чого нам потрібно відняти з 25 пар значень 2 в результаті чого отримаємо 23 і по цьому рядку в таблиці знайдемо r критичне для p=001 (оскільки це медичні дані, тут використовується більш сувора залежність, в інших випадках достатньо p=005), що становить 051 для даного кореляційного аналізу. Приклад продемонстрував, що r розрахункове більше r критичного значення коефіцієнта кореляції вважається статистично достовірним.