Перейти до основного контенту

Як визначити гетероскедастичність за допомогою графіків

4 хв читання
1602 переглядів

В економетриці одним з ключових припущень в моделях регресії є гомоскедастічность - рівномірність дисперсії помилок по всіх значеннях незалежних змінних. Однак, в реальних даних часто зустрічається гетероскедастичність, коли дисперсія помилок змінюється в залежності від значень регресорів.

Визначення гетероскедастичності може бути важливим кроком у аналізі даних, оскільки це може порушити ефективність та надійність результатів регресійного аналізу. Гетероскедастичність може призвести до неспроможності оцінок коефіцієнтів моделі, неправильних інтервалів значень та неправильної статистичної значущості.

Існує кілька способів визначення гетероскедастичності на графіку. Один з них-побудова графіка залишків від значення залежної змінної. Якщо на графіку видно систематичну залежність між залишками і значеннями незалежної змінної, то можна припустити наявність гетероскедастичності.

Що таке гетероскедастичність

Гетероскедастичність може мати значний вплив на результати статистичного аналізу та інтерпретацію моделі. Вона може призводити до некоректних оцінок параметрів моделі і неправильного судження про статистичну значущість цих параметрів.

Причини виникнення гетероскедастичності можуть бути різними:

  • Недостатнє або надмірне пояснення змінних в моделі;
  • Порушення передумов моделі;
  • Пропущені змінні;
  • Нестійкість у часі даних;
  • Порушення лінійності зв'язку між змінними;
  • Помилка у вибірці даних.

Визначення наявності гетероскедастичності може здійснюватися різними способами, включаючи аналіз залишків, тести на гетероскедастичність та візуальне вивчення графіків. Правильне виявлення і облік гетероскедастичності дозволяє отримати більш точні і значущі результати аналізу даних.

Причини виникнення гетероскедастичності

1. Порушення гомоскедастичності: У деяких випадках дані можуть мати систематичне відхилення від гомоскедастичності, тобто. умовну за предикторами дисперсію випадкової помилки можна описати функцією, що залежить від значень предикторів. Порушення гомоскедастичності може призводити до гетероскедастичності.

2. Ненормальний розподіл помилок: Якщо помилка розподілена не нормально, то це також може призвести до гетероскедастичності. Наприклад, якщо помилка має важкий хвіст або асиметричний розподіл, це може призвести до нерівномірної дисперсії помилок.

3. Пропущені змінні: Пропущені змінні можуть бути причиною гетероскедастичності. Якщо в моделі не враховані значущі предиктори, вони можуть впливати на дисперсію помилок, викликаючи гетероскедастичність.

4. Аутлаери: Наявність викидів у даних може призвести до порушення гомоскедастичності та появи гетероскедастичності. Аутлаери можуть істотно впливати на оцінки параметрів моделі і дисперсію помилок.

Таким чином, при аналізі даних необхідно враховувати зазначені причини виникнення гетероскедастичності, щоб коректно інтерпретувати результати і вжити відповідних заходів для врахування даного явища.

Візуальні ознаки гетероскедастичності

Існує кілька візуальних ознак, на які можна звернути увагу, щоб перевірити гетероскедастичність у регресійній моделі:

  1. Графік залишків-прогнозних значень: побудова графіка, на якому по осі x відкладаються прогнозні значення, а по осі Y - залишки моделі. Якщо дисперсія залишків змінюється щодо значень незалежної змінної, то це може бути ознакою гетероскедастичності. Наприклад, графік може показувати розширення або звуження Хмари залишків при збільшенні або зменшенні значень незалежної змінної відповідно.
  2. Графік залишків-меж прогнозу: графік, на якому по осі X відкладаються прогнозні значення, а по осі Y - залишки моделі, поділені на оцінку стандартної помилки залишків. За відсутності гетероскедастичності залишки повинні бути розподілені навколо горизонтальної лінії, близької до нуля. Якщо залишки мають вигляд конуса або віяла, то це може бути ознакою гетероскедастичності.
  3. Графік залишків-залежної змінної: графік, на якому по осі x відкладаються значення незалежної змінної, а по осі Y - залишки моделі. Якщо дисперсія залишків змінюється залежно від значень незалежної змінної, то це може бути ознакою гетероскедастичності. Наприклад, графік може показувати збільшення або зменшення розкиду залишків при зростанні або зменшенні значень незалежної змінної відповідно.
  4. Тести на гетероскедастичність: крім візуальних ознак, також можна використовувати статистичні тести для перевірки гетероскедастичності, наприклад, тести Бройша-Пагана та Уайта. Ці тести дозволяють формально перевірити гіпотезу про гетероскедастичність залишків моделі.

Візуальні ознаки гетероскедастичності можуть допомогти досліднику визначити наявність неоднорідної помилки в моделі регресії, однак для більш точної і достовірної оцінки гетероскедастичності рекомендується застосовувати статистичні тести.

Приклади графіків з гетероскедастичністю

1. Графік залишків проти передбачуваного значення

Одним з найпопулярніших методів візуалізації гетероскедастичності є побудова залишків (різниця між значеннями залежної змінної та їх передбачуваними значеннями) проти передбачених значень. Якщо на графіку видно закономірність - наприклад, збільшення розкиду залишків зі збільшенням передбачених значень-це може бути ознакою гетероскедастичності.

2. Графік залишків проти незалежної змінної

Іншим способом візуалізації гетероскедастичності є побудова залишків проти значень незалежної змінної. Якщо на графіку видно систематичну закономірність - наприклад, збільшення розсіювання залишків із збільшенням значень незалежної змінної-це може свідчити про наявність гетероскедастичності.

3. Графік стандартизованих залишків проти передбачених значень

Одним із способів більш точного визначення гетероскедастичності є використання графіка стандартизованих залишків (залишків, розділених на квадратний корінь з оцінки дисперсії помилок) проти передбачених значень. Якщо на графіку видно збіжну криву або воронку, це може бути ознакою гетероскедастичності.

Розгляд графіків з гетероскедастичністю може допомогти досліднику у визначенні та діагностиці цього явища. Це дозволяє вжити відповідних заходів для врахування гетероскедастичності при побудові моделі.

Наслідки гетероскедастичності для статистичних моделей

Гетероскедастичність, або наявність мінливої середньоквадратичної помилки, може мати серйозні наслідки для статистичних моделей. Вона порушує припущення про постійну дисперсію помилок, яке лежить в основі багатьох статистичних методів.

Першим наслідком гетероскедастичності є неправильні оцінки коефіцієнтів моделі. Якщо середньоквадратична помилка залежить від значень незалежних змінних, то оцінки коефіцієнтів можуть бути зміщені і неефективні. Це означає, що вони можуть бути недостатньо точними і не мати потрібного ступеня статистичної значущості.

Отже, гетероскедастичність може серйозно спотворювати результати статистичних моделей. Вона може призводити до зміщення оцінок коефіцієнтів, неправильної інтерпретації значущості ефектів і зменшення потужності статистичних тестів. Тому, важливо враховувати можливість гетероскедастичності при аналізі даних і застосовувати відповідні методи виправлення цієї проблеми.

Як боротися з гетероскедастичністю

Гетероскедастичність може виявитися проблемою при аналізі даних, так як вона порушує припущення деяких статистичних моделей. Однак, існують методи, які дозволяють боротися з цим ефектом і отримувати більш точні і надійні результати. Розглянемо деякі з них:

1. Перетворення даних: одним із способів боротьби з гетероскедастичністю є перетворення даних. Це може бути логарифмування змінних або інші математичні перетворення, які допоможуть зробити дисперсію більш однорідною.

2. Зважування даних: іншим методом є зважування даних, при якому кожне спостереження отримує свою вагу в залежності від його дисперсії. Зважування дозволяє враховувати різну дисперсію в даних і скорегувати стандартні помилки оцінок.

4. Використання альтернативних моделей: іноді гетероскедастичність може бути викликана неправильною специфікацією моделі. Тому, варто перевірити альтернативні моделі або включити в модель додаткові змінні, які можуть пояснити гетероскедастичність.

5. Робота з кластеризованими даними: якщо дані мають кластерну структуру, то слід використовувати спеціальні методи, які враховують залежність спостережень всередині кластерів. Це дозволяє більш коректно оцінити параметри моделі і отримати робастні стандартні помилки.

Використання зазначених методів допоможе впоратися з гетероскедастичностью і отримати більш точні і надійні результати при аналізі даних.