Львів
C
» » Логістична регресія: модель і методи

Логістична регресія: модель і методи

Методи логістичної регресії і дискримінантного аналізу використовуються тоді, коли необхідно чітко диференціювати респондентів за цільовим категоріями. При цьому самі групи представлені рівнями одновариантного параметра. Розглянемо далі докладно модель логістичної регресії, а також з'ясуємо, для чого вона потрібна.
Логістична регресія: модель і методи

Загальні відомості

Прикладом завдання, у вирішенні якої використовується логістична регресія , може виступати класифікація респондентів за групами купують і не купують гірчицю. Диференціація здійснюється в згідно з соціально-демографічними характеристиками. До них, зокрема, відносять вік, стать, кількість родичів, доходи та ін. В операціях присутні критерії диференціації і мінлива. Остання кодує цільові категорії, на які, власне, потрібно розділити респондентів.


Нюанси

Слід сказати, що спектр випадків, в яких застосовується логістична регресія значно вже, ніж для дискримінантного аналізу. У цьому зв'язку використання останнього як універсального способу диференціації вважається кращим. Більш того, експерти рекомендують починати класифікаційні дослідження з дискримінантного аналізу. І тільки в разі невпевненості за результати можна використовувати логістичну регресію. Така необхідність обумовлюється певними факторами. Логістична регресія використовується при наявності чіткого уявлення про тип незалежних і залежних змінних. У відповідності з цим вибирається одна з 3-х можливих процедур. При дискримінантному аналізі дослідник завжди має справу з однією статичної операцією. У ній бере участь одна залежна і кілька незалежних категоріальних змінних зі шкалою будь-якого типу.


Види

Завдання статистичного дослідження, у якому використовується логістична регресія , полягає у визначенні ймовірності того, що певний респондент буде віднесений до тієї чи іншої групи. Диференціація здійснюється за певними параметрами. На практиці, у відповідності зі значеннями одного або декількох незалежних факторів, які можна класифікувати респондентів по двом групам. У цьому випадку має місце бінарна логістична регресія . Також задані параметри можуть використовуватися при розподілі на групи, яких більше двох. У такій ситуації має місце мультиномиальная логістична регресія. Отримані групи виражені рівнями якийсь однією змінною.
Логістична регресія: модель і методи

Приклад

Припустимо, є відповіді респондентів на запитання про те, чи цікаво їм пропозицію про придбання земельної ділянки в передмісті Москви. При цьому дані варіанти "ні" і "так". Необхідно з'ясувати, які саме чинники впливають переважно на рішення потенційних покупців. Для цього опитуваним задаються питання про інфраструктуру території, відстані до столиці, площі ділянки, наявності/відсутності житлового споруди тощо Використовуючи бінарну регресію, можна розподілити респондентів по двом групам. В першу будуть входити ті, хто зацікавлений в придбанні – потенційні покупці, а в другу, відповідно, ті, кого така пропозиція не цікавить. Для кожного респондента, крім того, буде розрахована ймовірність віднесення до тієї чи іншої категорії.

Порівняльна характеристика

Відміну від двох варіантів, зазначених вище, полягає в різній кількості груп і типі залежних і незалежних змінних. У бінарній регресії, наприклад, вивчається залежність дихотомічного фактора від одного або декількох незалежних умов. При цьому останні можуть мати будь-який тип шкали. Мультиноминальная регресія вважається різновидом цього варіанту класифікації. В ній до залежної змінної ставиться більше 2-х груп. Незалежні фактори повинні мати порядкову, або номінальну шкалу.

Логістична регресія в spss

У статистичному пакеті 11-12 був введений новий варіант аналізу – порядковий. Цей метод використовується у випадку, коли залежний фактор відноситься до однойменної (порядкової) шкалою. При цьому незалежні змінні вибираються одного певного типу. Вони повинні бути або порядковими, або номінальними. Класифікація за кількома категоріями вважається найбільш універсальною. Цей спосіб може використовуватися у всіх дослідженнях, в яких застосовується логістична регресія. Підвищити якість моделі , однак, можна тільки з допомогою всіх трьох прийомів.
Логістична регресія: модель і методи

Порядкова класифікація

Варто сказати, що раніше в статистичному пакеті не була передбачена типова можливість виконання спеціалізованого аналізу для залежних факторів з порядкової шкалою. Для всіх змінних з кількістю груп від 2-х використовувався мультиноминальний варіант. Введений відносно недавно порядковий аналіз має ряд особливостей. Вони враховують саме специфіку шкали. Між тим, у методичних посібниках порядкова логістична регресія часто не розглядається як окремий прийом. Обумовлено це наступним: порядковий аналіз не володіє якими-небудь значними перевагами перед мультиноминальним. Дослідник цілком може використовувати останній при наявності і порядкової, і номінальною залежною змінною. При цьому самі процеси класифікації майже не відрізняються один від одного. Це означає, що проведення порядкового аналізу не викличе яких-небудь складнощів.

Варіант аналізу

Розглянемо простий випадок – бінарну регресію. Припустимо, в процесі маркетингового дослідження оцінюється затребуваність випускників певного столичного вузу. В анкеті респондентам запропоновано питання, у числі яких:
  • Чи ви є працюючим? (ql).
  • Вкажіть рік закінчення вузу (q 21).
  • Який середній випускний бал (aver).
  • Підлогу (q22).
  • Логістична регресія дозволить оцінити вплив незалежних факторів aver, q 21 і q 22 на змінну ql. Простіше кажучи, метою аналізу буде визначення вірогідного працевлаштування випускників на підставі відомостей про поле, рік закінчення та середнього бала.
    Логістична регресія: модель і методи

    Logistic Regression

    Щоб задати параметри за допомогою бінарної регресії, слід скористатися меню Analyze?Regression?Binary Logistic. У вікні Logistic Regression потрібно вибрати в лівому списку доступних змінних залежний фактор. Їм є ql. Цю змінну потрібно помістити в поле Dependent. Після цього на ділянку Covariates необхідно ввести незалежні фактори – q 21 q 22 aver. Потім потрібно вибрати спосіб їх включення в аналіз. Якщо кількість незалежних факторів більше 2-х, використовується метод одночасного введення змінних, який встановлений за замовчуванням, а покроковий. Найпопулярнішим способом вважається Backward:LR. Використовуючи кнопку Select, можна включити в дослідження не всіх респондентів, а лише конкретну цільову категорію.

    Define Categorical Variables

    Кнопку Categorical потрібно використовувати тому випадку, коли одна з незалежних змінних є номінальна з кількістю категорій більше 2-х. У цій ситуації у вікні Define Categorical Variables на ділянку Categorical Covariates поміщається саме такий параметр. У розглянутому прикладі така мінлива відсутня. Після цього у спадному переліку Contrast слід вибрати пункт Deviation і натиснути кнопку Change. В результаті з кожного номінального фактора буде сформовано кілька залежних змінних. Їх кількість відповідає кількості категорій вихідного умови.

    Save New Variables

    З допомогою кнопки Save в основному діалоговому вікні дослідження задається створення нових параметрів. Вони будуть містити показники, розраховані у процесі регресії. Зокрема, можна створити змінні, якими визначаються:
  • Приналежність до конкретної категорії класифікації (Groupmembership).
  • Ймовірність віднесення респондента в кожну досліджувану групу (Імовірності).
  • При використанні кнопки Options дослідник не отримує якихось істотних можливостей. Відповідно, її можна ігнорувати. Після натискання кнопки "Ок" в основному вікні будуть виведені результати аналізу.
    Логістична регресія: модель і методи

    Перевірка якості адекватностии логістичної регресії

    Розглянемо таблицю Omnibus Testsof Model Coefficients. В ній відображаються результати аналізу якості наближення моделі. У зв'язку з тим, що був заданий покроковий варіант, потрібно дивитися підсумки останнього етапу (Step2). Позитивним буде вважатися такий результат, при якому виявляється збільшення показника Chi-square при переході на наступну стадію при високому ступені значимості (Sig. < 0,05). Качество модели оценивается в строке Model. Если получена отрицательная величина, но она не рассматривается как значимая при общей високой существенности модели, последнюю можно признать практически пригодной.

    Таблиці

    Model Summary дає можливість оцінити показник сукупної дисперсії, яку описує побудована модель (показник R Square). Рекомендується застосовувати величину Nagelker. Позитивним показником можна вважати параметр Nagelkerke R Square, якщо він вище 050. Після цього оцінюються результати класифікації, в якій дійсні показники приналежності до тієї або іншої досліджуваної категорії порівнюються з передбаченими на основі регресійної моделі. Для цього використовується таблиця Classification Table. Вона також дозволяє зробити висновки про коректність диференціації для кожної розглянутої групи.
    Логістична регресія: модель і методи
    Наступна таблиця дає можливість з'ясувати статистичну значимість незалежних факторів, введених в аналіз, а також кожен нестандартизованих коефіцієнт логістичної регресії . На підставі цих показників можна спрогнозувати приналежність кожного респондента у вибірці до конкретної групи. З допомогою кнопки Save можна ввести нові змінні. В них будуть міститися відомості про приналежність до конкретної класифікаційної категорії (Predictedcategory) і ймовірність включення в ці групи (Predicted імовірності membership). Після натиснення "Ок" в основному вікні обчислення multinomial Logistic Regression з'являться підсумки розрахунків. Перша таблиця, в якій присутні важливі для дослідника показники, – Model Fitting Information. Високий рівень статистичної значущості буде вказувати на високу якість і придатність використання моделі при вирішенні практичних завдань. Ще однією значущою таблицею є Pseudo R-Square. Вона дозволяє оцінити частку загальної дисперсії в залежному факторі, яка обумовлюється незалежними змінними, обраними для аналізу. По таблиці Likelihood Ratio Tests можна зробити висновки про статистичної значущості останніх. У Parameter Estimates відображаються нестандартизированние коефіцієнти. Вони використовуються при побудові рівняння. Крім цього, для кожного поєднання змінних визначена статистична значимість їх впливу на залежний фактор. Між тим у маркетингових дослідженнях часто виникає необхідність диференціювати за категоріями респондентів не окремо, а у складі цільової групи. Для цього використовується таблиця Observedand Predicted Frequencies.

    Практичне застосування

    Розглянутий спосіб аналізу широко використовується в роботі трейдерів. У 1991 р. був розроблений індикатор логістичної сигмовидної регресії. Він являє собою простий в експлуатації і ефективний інструмент, за допомогою якого можна спрогнозувати ймовірні ціни до їх "перегріву". Індикатор представлений на графіку у вигляді каналу, утвореного двома лініями, що проходять паралельно. Вони віддалені на рівну відстань від тренду. Ширина коридору буде залежати виключно від таймфрейма. Індикатор використовується при роботі майже з усіма активами – від валютних пар до дорогоцінних металів.
    Логістична регресія: модель і методи
    На практиці вироблено 2 ключові стратегії застосування інструменту: на пробій і на розворот. В останньому випадку трейдер буде орієнтуватися на динаміку цінової зміни у межах каналу. По мірі наближення вартості до лінії підтримки або опору ставка робиться на ймовірність того, що рух почнеться в зворотному напрямку. Якщо ціна впритул підійде до верхньої межі, то від активу можна позбутися. Якщо ж вона знаходиться біля нижньої межі, то варто задуматися про придбання. Стратегія на пробій передбачає застосування ордерів. Вони встановлюються за межами меж на відносно невеликій відстані. Беручи до уваги, що ціна в ряді випадків порушує їх на нетривалий час, варто перестрахуватися і встановити стоп-лоси. При цьому, зрозуміло, незалежно від обраної стратегії трейдеру необхідно максимально холоднокровно сприймати і оцінювати ситуацію, що виникла на ринку.

    Висновок

    Таким чином, застосування логістичної регресії дозволяє швидко і просто класифікувати респондентів на категорії у відповідності з заданими параметрами. При аналізі можна використовувати який-небудь певний спосіб. Зокрема, універсальністю відрізняється мультиноминальная регресія. Однак фахівці рекомендують застосовувати всі описані вище способи в комплексі. Це обумовлюється тим, що в такому випадку якість моделі буде істотно вище. Це, в свою чергу, розширить спектр її застосування.