КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Матричная форма записи
Введем матрицу X размером n ´2 и вектор коэффициентов b размером 2´1, т.е.
тогда e = y - Xb, а условия (6) записываются в виде X¢e = 0 или X¢ (y - Xb) = X¢y - X¢Xb = 0. Из последнего уравнения получаем
где Выше в рамках метода наименьших квадратов нас интересовали вопросы подгонки кривой. Далее определим ряд статистических свойств данных. Именно на этом этапе можно говорить о построении регрессионных кривых. Запишем уравнение зависимости Yt от Xt в виде:
где Xt — неслучайная (детерминированная) величина, а Yt, et — случайные величины. Переменная Yt называется объясняемой, зависимой или результативным признаком, а Xt — объясняющей, независимой, регрессором или факторным признаком. Переменная et выступает в качестве ошибки в объяснении зависимости Yt от Xt. Поскольку обе случайные величины Yt, et отличаются друг от друга константой, их функции распределения соответствуют друг другу. Уравнение (9) называют также регрессионным уравнением. Базовые гипотезы нормальной линейной регрессионной модели следующие: 1) Xt — детерминированная величина; 2) 3) где E — символ математического ожидания, а V — символ дисперсии. Условие независимости дисперсии Условие В нашем распоряжении находятся данные наблюдений (Xt, Yt), t = 1,…, n и модель (9), и условия (10). Оценим параметры a, b и s 2 наилучшим способом. Вся проблема состоит в том, какой смысл вкладывать в слово “наилучшая”. Теорема Гаусса-Маркова. При выборе модели f (X) = a + bX оценки
Тема 3. Классическая нормальная линейная модель множественной регрессии. Предпосылки регрессионного анализа. Адекватность, значимость и точность модели. Оценка значимости коэффициентов регрессии. Уравнение регрессии в стандартизованной форме. Пример построения линейной модели множественной регрессии. Экономическая интерпретация параметров модели. Экономические явления определяются, как правило, большим числом совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости одной переменной Y от нескольких объясняющих переменных X1, X2, …,Xn. Эта задача решается с помощью множественного регрессионного анализа. Построение уравнения множественной регрессии начинается с решения вопроса о спе-цификации модели, включающего отбор факторов и выбор вида уравнения регрессии. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям: - они должны быть количественно измеримы (качественным факторам необходимо придать количественную определенность); - между факторами не должно быть высокой корреляционной, а тем более функциональной зависимости, т.е. наличия мультиколлинеарности. Включение в модель мультиколлинеарных факторов может привести к следующим последствиям: · затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом виде», поскольку факторы связаны между собой; параметры линейной регрессии теряют экономический смысл; · оценки параметров ненадежны, имеют большие стандартные ошибки и меняются с изменением объема наблюдений. Пусть Y=(y1, y2, …,yn)т – матрица-столбец значений зависимой переменной размера n;
β=(β0, β1, …,βm)т – матрица-столбец (вектор) параметров размера m+1; ε=(ε1, …, εn)т – матрица-столбец (вектор) остатков размера n. Тогда в матричной форме модель множественной линейной регрессии запишется следующим образом: Y = Xβ + ε. (1) Оценка этой модели по выборке: Y = Xb + e, (2) где b=(b0, b1, …,bm)т – матрица-столбец (вектор) оценок параметров размера Для оценки параметров уравнения регрессии (вектора b) применяется метод наименьших квадратов (МНК). При этом делаются определенные предпосылки: 1. В модели (1) ε – случайный вектор, X – неслучайная (детерминированная) матрица. 2. Математическое ожидание величины остатков равно нулю: М(ε)= 0 n. 3. Дисперсия остатков εi постоянна для любого i (условие гомоскедастичности), остатки εi и εj при i≠j не коррелированы: М(εεТ)=σ2En. 4. ε – нормально распределенный случайный вектор, т.е. ε~N(0 n; σ2En). 5. r(X) = m+1<n. Столбцы матрицы Х должны быть линейно независимыми (ранг матрицы Х максимальный, а число наблюдений n превосходит ранг матрицы). Модель (1), в которой зависимая переменная, остатки и объясняющие переменные удовлетворяют предпосылкам 1-5 называется классической нормальной линейной моделью множественной регрессии. Если не выполняется только предпосылка 4, то модель называется классической линейной моделью множественной регрессии (КЛММР). Согласно методу наименьших квадратов неизвестные параметры выбираются таким образом, чтобы сумма квадратов отклонений фактических значений от значений, найденных по уравнению регрессии, была минимальной:
Решением этой задачи является вектор b = (XТX)-1XТY. Полученная оценка параметров модели должна быть несмещенной, состоятельной и эффективной, то есть иметь наименьшее рассеяние относительно оцениваемого параметра. По теореме Гаусса-Маркова при выполнении предпосылок регрессионного анализа оценка метода наименьших квадратов b = (XТX)-1XТY является наиболее эффективной, то есть обладает наименьшей дисперсией в классе линейных несмещенных оценок. Оценка адекватности модели множественной регрессии. Одной из наиболее эффективных оценок адекватности модели является коэффициент детерминации R2, определяемый формулой:
Коэффициент детерминации характеризует долю вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющих переменных. Чем ближе R2 к единице, тем лучше построенная регрессионная модель описывает зависимость между объясняющими и зависимой переменной. Следует иметь в виду, что при включении в модель новой объясняющей переменной, коэффициент детерминации увеличивается, хотя это и не обязательно означает улучшение качества регрессионной модели. В этой связи лучше использовать скорректированный (поправленный) коэффициент детерминации
где n – число наблюдений, m – число параметров при переменных x. Из формулы следует, что с включением в модель дополнительных переменных разница между значениями Но использование только коэффициента детерминации для выбора наилучшего уравнения регрессии может оказаться недостаточным. Средняя относительная ошибка аппроксимации рассчитывается по формуле:
Значимость уравнения регрессии в целом сводится к проверке гипотезы об одновременном равенстве нулю всех коэффициентов регрессии при факторных признаках, т.е. гипотезы: Н 0: b 1 = b 2 =…= bm =0. Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех факторных признаков х 1, х 2,… х m, включенных в модель, на зависимую переменную y можно считать статистически несущественным. Проверка данной гипотезы осуществляется на основе дисперсионного анализа. Основной идеей дисперсионного анализа является разложение общей суммы квадратов отклонений результативной переменной y от среднего значения
Для приведения дисперсий к сопоставимому виду, определяют дисперсии на одну степень свободы. Результаты вычислений заносят в специальную таблицу дисперсионного анализа:
В данной таблице n – число наблюдений, m – число параметров при переменных x. Сравнивая полученные оценки объясненной и остаточной дисперсии на одну степень свободы, определяют значение F-критерия Фишера, используемого для оценки значимости уравнения регрессии:
С помощью F -критерия проверяется нулевая гипотеза о равенстве дисперсий Н0: sR2 = s2. Если нулевая гипотеза справедлива, то объясненная и остаточная дисперсии не отличаются друг от друга. Для того, чтобы уравнение регрессии было значимо в целом (гипотеза Н0 была опровергнута) необходимо, чтобы объясненная дисперсия превышала остаточную в несколько раз. Критическое значение F -критерия определяется по таблице Фишера-Снедекора. Расчетное значение сравнивается с табличным, и если оно превышает табличное (Fрасч >Fтабл), то гипотеза Н0 отвергается, и уравнение регрессии признается значимым. Если Fрасч <Fтабл, то уравнение регрессии считается статистически незначимым. Нулевая гипотеза Н0 не может быть отклонена. Расчетное значение F -критерия связано с коэффициентом детерминации R2
где m – число параметров при переменных x; n – число наблюдений. Оценка значимости коэффициентов регрессии сводится к проверке гипотезы о Н 0: b j =0. Проверка гипотезы проводится с помощью t -критерия Стьюдента. Для этого определяется расчетное значение t -критерия:
где bj – коэффициент регрессии при xi;
сравнивается с табличным tтабл при заданном уровне значимости α и числе степеней свободы (n -2). Если расчетное значение превышает табличное, то гипотезу о несущественности коэффициента регрессии можно отклонить. Рассмотрим интерпретацию параметров модели линейной множественной регрессии. В линейной модели множественной регрессии На практике часто бывает необходимо сравнить влияние на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизованные коэффициенты регрессии βj и коэффициенты эластичности Эj (j=1, 2, …, m). Уравнение регрессии в стандартизованной форме:
где В результате такого нормирования средние значения всех стандартизованных переменных равны нулю, а дисперсии равны единице, т.е. Коэффициенты «чистой» регрессии связаны со стандартизованными коэффициентами следующим соотношением: Стандартизованные коэффициенты показывают, на сколько стандартных отклонений (сигм) изменится в среднем результат, если соответствующий фактор xi изменится на одно стандартное отклонение (одну сигму) при неизменном среднем уровне других факторов. Сравнивая стандартизованные коэффициенты друг с другом, можно ранжировать факторы по силе их воздействия на результат. Средние коэффициенты эластичности вычисляются по формуле:
Коэффициент эластичности показывает, на сколько процентов (от средней) изменится в среднем Y при увеличении только фактора Xj на 1%.
Рассмотрим пример построения модели множественной регрессии с помощью средств приложения Microsoft Excel.
Пример 1. По данным, представленным в таблице 2, изучается зависимость балансовой прибыли предприятия торговли
Таблица 2
Задание: 1. Для заданного набора данных постройте линейную модель множественной 2. Оцените точность и адекватность построенного уравнения регрессии. 3. Выделите значимые и незначимые факторы в модели. 4. Постройте уравнение регрессии со статистически значимыми факторами. Дайте экономическую интерпретацию параметров модели.
Решение. Для получения отчета по построению модели в среде EXCEL необходимо выполнить ледующие действия: 1. В меню Сервис выбираем строку Анализ данных. На экране появится окно
Рис. 1. 2. В появившемся окне выбираем пункт Регрессия. Появляется диалоговое окно, в котором задаем необходимые параметры (рис. 2).
Рис. 2. 3. Диалоговое окно рис. 2 заполняется следующим образом: Входной интервал Входной интервал Метки – флажок, который указывает, содержат ли первые элементы отмеченных диапазонов названия переменных (столбцов) или нет; Константа-ноль - флажок, указывающий на наличие или отсутствие свободного члена в уравнении регрессии ( Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона, в котором будет сохранен отчет по построению модели; Новый рабочий лист – можно задать произвольное имя нового листа, Если необходимо получить значения и графики остатков ( Вид отчета о результатах регрессионного анализа представлен на рис. 3.
Рис. 3.
Рассмотрим таблицу " Регрессионная статистика ". Множественный R – это R-квадрат – это Нормированный R-квадрат – поправленный (скорректированный по числу степеней свободы) коэффициент детерминации. Стандартная ошибка регрессии Наблюдения – число наблюдений n.
Рассмотрим таблицу с результатами дисперсионного анализа. df – degrees of freedom – число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант (m +1). SS – sum of squares – сумма квадратов (регрессионная (RSS –regression sum of squares), остаточная (ESS – error sum of squares) и общая (TSS – total sum of squares), соответственно). MS – mean sum - сумма квадратов на одну степень свободы. F - расчетное значение F -критерия Фишера. Если нет табличного значения, то для проверки значимости уравнения регрессии в целом можно посмотреть Значимость F. На уровне значимости Для нашего примера имеем следующие значения:
В нашем случае расчетное значение F -критерия Фишера составляет 21,32. Значимость F = 8,28Е-07, что меньше 0,05. Таким образом, полученное уравнение в целом значимо. В последней таблице приведены значения параметров (коэффициентов) модели, их стандартные ошибки и расчетные значения t-критерия Стьюдента для оценки значимости отдельных параметров модели.
Анализ таблицы для рассматриваемого примера позволяет сделать вывод о том, что на уровне значимости Поскольку коэффициент регрессии в эконометрических исследованиях имеют четкую экономическую интерпретацию, то границы доверительного интервала для коэффициента регрессии не должны содержать противоречивых результатов, как например, -0,1948 Исключим несущественные факторы Х1 и Х3 и построим уравнение зависимости Таблица 3
Оценим точность и адекватность полученной модели. Значение Значение поправленного коэффициента детерминации (0,7967) возросло по сравнению с первой моделью, в которую были включены все объясняющие переменные (0,7794). Стандартная ошибка регрессии во втором случае меньше, чем в первом Расчетное значение F -критерия Фишера составляет 46,08. Значимость F = 2,08847E-08, что меньше 0,05. Таким образом, полученное уравнение в целом значимо. Далее оценим значимость отдельных параметров построенной модели. Из таблицы 3 видно, что теперь на уровне значимости Границы доверительного интервала для коэффициентов регрессии не содержат противоречивых результатов: - с надежностью 0,95 (c вероятностью 95%) коэффициент b1 лежит в интервале 0,64 ≤ b1 ≤ 1,19; - с надежностью 0,95 (c вероятностью 95%) коэффициент b2 лежит в интервале 0,01 ≤ b2 ≤ 0,12 Таким образом, модель балансовой прибыли предприятия торговли запишется в следующем виде:
Рассмотрим теперь экономическую интерпретацию параметров модели. Коэффициент b1 = 0,916, означает, что при увеличении только фонда оплаты труда (Х2) на 1 тыс. руб. балансовая прибыль в среднем возрастает на 0,916 тыс. руб., а то, что коэффициент b2 = 0,065, означает, что увеличение только объема продаж по безналичному расчету (Х4) на 1 тыс. руб. приводит в среднем к увеличению балансовой прибыли на 0,065 тыс. руб. Как было отмечено выше, анализ P-значений показывает, что оба коэффициента значимы.¨
Дата добавления: 2014-01-07; Просмотров: 1503; Нарушение авторских прав?; Мы поможем в написании вашей работы! |