8. Регресійний аналіз

unnamed.png

З безлічі завдань, розв'язуваних інженерами - технологами переробних галузей при дослідженнях існуючих процесів і створенні нових, можна виділити три досить розповсюджених види: виявлення кількісних залежностей між параметрами процесу; відшукання оптимальних умов протікання процесу; вибір оптимального складу багатокомпонентних сумішей.

Найчастіше, приступаючи до рішення таких завдань, інженер - технолог не має вичерпних відомостей про механізм досліджуваного процесу. Він може тільки назвати параметри, що визначають умови протікання процесу, і вимоги до його результатів. У цих умовах доцільне використання кібернетичного підходу, в основі якого лежить запропонована Н. Вінером ідея «чорного ящика». «Чорний ящик» — це об'єкт дослідження (рис. 1). Стрілками, що входять в об'єкт, показані вхідні параметри, які можуть бути керованими (x) і некерованими (z). Робота об'єкта може характеризуватися декількома вихідними параметрами, які на схемі позначені стрілками, що виходять із прямокутника. Необхідно навчитися управляти об'єктом, інформація про елементарні операції усередині якого надзвичайно мала, що по суті аналогічно рішенню поставлених завдань.            

 image016.png

Рис. 1 Схема  «чорного ящика»:

x1,   x2, … xi, … xk – керовані фактори; 

z1,  z2, … zi, … zm – некеровані фактори;

y1,  y2, … yi, … yp – параметри оптимізації.

Залежність між вихідним параметром (відгуком) і вхідними параметрами (факторами) називається функцією відгуку й має такий вигляд: y = f ( x1, x2, …xi, …xk),                                                         

де y відгук (результат експериментів); х1, х2, ...xi … хk — незалежні змінні (фактори), які можна варіювати при постановці експериментів.

Рівнянню (4) відповідає деяка гіперповерхня в багатомірному просторі, що зветься поверхнею відгуку, а простір, у якому існує зазначена поверхня— факторним простором. У найпростішому випадку, коли досліджується залежність відгуку (y) від одного фактора (x), поверхня відгуку являє собою лінію на площині, тобто у двомірному просторі. У цьому випадку завдання досить просте: потрібно задаючись декількома значеннями x одержати графік  y = f (x) і ціль буде досягнута.  Якщо немає впевненості що досвіди добре відтворюються,(тобто при повторенні досвіду результати не збігаються) необхідно їх повторити кілька разів при тих самих значеннях х і побудувати графіки з урахуванням отриманого розкиду досвідчених крапок.

Якщо незалежних змінних дві, то завдання не сильно ускладнюється. Буде потрібно зняти й побудувати сімейство кривих  y = f (x1)  при    x2 = const.

Справа ускладнюється якщо незалежних змінних 3 - 4 і більше. Звичайно, можна й тут побудувати багато сімейств кривих, але інформація отримана в такому виді практично марна. Отже модель досліджуваного об'єкта у вигляді сімейств кривих при числі незалежних змінних більше двох, трьох непрактична, незручна й часто марна.

У загальному випадку, коли розглядаються k факторів, рівняння (4) описує поверхня відгуку в (k + 1) - мірному просторі.

При досить обмежених знаннях про механізм процесу аналітичне вираження функції відгуку невідомо. Тут приходить на допомогу проста і плідна ідея розглядати не саму функцію     y = f ( x1, x2, …xi, …xk), а її розкладання в який - небудь ряд - найчастіше статистичний і представляти  у вигляді полінома

y = b0 + b1 x1 +…+bkxk+b12x1x2+…+bk-1xk-1xk+b11x12+…+bkkxk2, (5)

де b0, b1, bi, bk — вибіркові коефіцієнти регресії, які можна одержати, користуючись результатами експерименту.

Отримане емпіричним шляхом рівняння регресії (5) часто називають математичною моделлю (або просто моделлю) процесу. Цей термін, використовуваний повсюдно в інженерній практиці, у різних дослідників набуває різного сенсу. Для пояснення цього скористаємося прийомом, що застосував В. В. Минів. У своїй роботі він поняттю математичної моделі протиставляє поняття закону в науці. Закон однозначно, чітко, строго описує явище. Закон - це абсолютна категорія. Він може бути або вірним, або невірним. Ніякого середнього, проміжного положення закон займати не може. У традиційному, класичному розумінні модель - суть математичне формулювання закону, і тому вона повинна бути такою же абсолютною категорією.

З погляду кібернетики під моделлю розуміється не абсолютно точний опис явища, а наближене вираження невідомого закону, що задовільно характеризує явище в деякій локальній області факторного простору. Виходячи із цього визначення, для наближеного опису того самого явища може бути запропоновано кілька різних моделей. Стосовно до моделі правомірне використання таких визначень, як гарна, погана, краще. Правда, у всіх цих випадках необхідно вказувати, за допомогою якого критерію зроблена оцінка моделі, її якості.

На практиці завжди обмежуються кінцевим числом членів розкладання апроксимуючи тим самим невідому функцію y = f ( x1, x2, …xi, …xk) поліномом деякого ступеня.

Подібна апроксимація має сенс, якщо функція y = f ( x1, x2, …xi, …xk) відповідає ряду вимог. Якісно можна сказати, що вона повинна бути безперервної й досить гладкої (тобто без різких стрибків).

Правда не завжди можемо сказати що ці умови виконуються. Тому необхідно виявити відому обережність.

Припустимо ці умови виконаються.

Тепер завдання придбало деяку визначеність: необхідно задати кілька сполучень незалежних змінних х1 … хk, визначити відповідні значення  і спробувати використати отриману інформацію для знаходження коефіцієнтів b0, b1 ...і т.д., якщо це одержимо те й ціль буде досягнута.

Разом з тим, неважко помітити, що від цих міркувань досить далеко до практичних кроків і виникає ряд питань:

1. Що відомо про функції y = f ( x1, x2, …xi, …xk)... Які сполучення факторів і скільки таких сполучень потрібно взяти для визначення значень функції у.

2.  Як знайти коефіцієнти b0, b1 .і т.д., щоб ряд найкраще  відповідав функції яку він апроксимує?

3. Як визначити точність отриманого подання функції?

Отже, питання перше, що відомо про функції   y = f ( x1, x2, …xi, …xk)... Насамперед є впевненість у тім, що враховано всі фактори що впливають на функцію, тобто ми переконані, що саме одержання залежності показника у від обраного набору змінних ( x1, x2, …xi, …xk) вирішить нашу проблему.

Отже сформульовані завдання досліджень, тобто виконана винятково важлива частина будь-якої роботи. Є вдала приказка: "Не можна навіть заблудиться, якщо  довідаєшся куди йдеш".

Будемо вважати, що знаємо куди йдемо, тобто що хочемо одержати в результаті досліджень.

Тільки необхідно виконати деякі умови:

Величина у (часто будемо називати її функцією цілі або параметром оптимізації або відгуком і т.д.) незалежно від того яка ознака досліджуваного об'єкта вона представляє - завжди повинна бути визначена кількісно. т.е. завжди можемо характеризувати цю величину числом.

У більшості випадків це зробити просто, але бувають і труднощі, якщо ознака, що цікавить нас, якісний, а критерій по якому ми оцінюємо якість - складний. Але тут можна застосовувати ранговий підхід, тобто метод ранжирування.

Визначаючи величину у ми ставимо два можливих завдання:

1.Знайти оптимальні умови протікання процесу тобто знайти екстремум  функції.

2.Знайти адекватний опис функції відгуку (у) у заданій області  факторного простору.

Помітимо, якщо ми хочемо щось оптимізувати тобто величина  у повинна бути одна, нехай складна, що складається з декількох показників, але одна.

Тому що ступінь полінома (5) заздалегідь пророчити не можна, то користуються ідеєю крокового пошуку, тобто спочатку намагаються описати досліджуване явище найпростішою - лінійною моделлю

y = b0 + b1 x1 +b2 x2                                                     (6)

Оцінюють її якість й, якщо воно виявляється незадовільним, то збільшують число членів полінома, тобто підвищують його ступінь, наприклад, до двох.

y = b0 + b1 x1 +b2 x2 + b12 x1 x2 + b11 x12 + b22 x222. (7)

 Цей процес продовжують доти, поки не буде отримана модель, що адекватно описує результати експерименту.У цьому випадку на допомогу приходять методи планування експерименту. Планування експерименту дозволяє різко зменшити кількість випробувань (досвідів) і при цьому легко одержить математичний опис процесу, тобто визначити коефіцієнти регресії полінома (5).

unnamed.png