Ангелина Витальевна Яковлева Ответы на экзаменационные билеты по эконометрике
1. Определение эконометрики. Задачи эконометрики
Эконометрикой называется наука, позволяющая анализировать связи между различными экономическими показателями на основании реальных статистических данных с применением методов теории вероятностей и математической статистики. С помощью эконометрики выявляют новые, ранее неизвестные связи, уточняют или отвергают гипотезы о существовании определенных связей между экономическими показателями, предлагаемые экономической теорией.
Основная цель эконометрики заключается в модельном описании конкретных количественных взаимосвязей, обусловленных общими качественными закономерностями, выявленными в экономической теории.
Основной предмет исследования эконометрики – это массовые экономические явления и процессы. Предметы исследования эконометрики и статистики являются весьма схожими, потому что эконометрика исследует массовые экономические явления и процессы, а статистика исследует массовые явления и процессы любой природы (в том числе и экономические).
Слово «эконометрика» образовано от двух слов: «экономика» и «метрика» («метрон» (греч.) – правило определения расстояния между двумя точками в пространстве, «метрия» – измерение). Следовательно, эконометрику можно определить как науку об экономических измерениях.
Эконометрика возникла на основе междисциплинарного подхода к изучению экономики. Поэтому эконометрику можно представить как комбинацию трёх наук – экономической теории, математической и экономической статистики и математики. Помимо этого, на современном этапе развития науки одним из важнейших факторов развития эконометрики стало развитие компьютерных технологий и специальных пакетов прикладных программ.
Анализ экономических процессов и явлений в эконометрике осуществляется с помощью математических моделей, построенных на эмпирических данных.
Моделью называется материальный или мысленно представляемый объект, замещающий в процессе исследования объект-оригинал таким образом, что его непосредственное изучение дает новые знания об объекте-оригинале. Модель выступает в качестве средства анализа и прогнозирования конкретных экономических процессов на основе реальной статистической информации. Применение метода моделирования вызвано тем, что большинство объектов (или проблем, относящихся к этим объектам) непосредственно исследовать или совершенно невозможно, или подобное исследование требует много времени и средств.
Большинство эконометрических методов и приёмов исследования экономических явлений и процессов позаимствованы из математической статистики. Однако в применении этих методов в эконометрике существует определённая специфика. В связи с тем, что практически все экономические показатели являются случайными величинами, а не результатами контролируемого эксперимента, были разработаны определённые усовершенствования и модификации методов, которые не применяются в математической статистике.
По причине того, что экономические данные могут быть измерены с ошибкой, в эконометрике были разработаны специальные методы анализа, позволяющие устранить или снизить влияние этих ошибок на полученные результаты.
Таким образом, эконометрика исследует различные экономические закономерности, установленные экономической теорией, с помощью методов математической и экономической статистики.
С помощью эконометрики решается очень широкий круг задач. Наиболее общими задачами эконометрики являются:
1) обнаружение и анализ статистических закономерностей в экономике;
2) построение на базе выявленных эмпирических экономических зависимостей эконометрических моделей.
Данные задачи делятся на более конкретные подзадачи, которые можно классифицировать по трём признакам:
1) классификация задач по конечным прикладным целям:
а) прогноз социально-экономических показателей, определяющих состояние и развитие изучаемой системы;
б) моделирование возможных вариантов социально-экономического развития системы для выявления факторов, изменение которых оказывает наиболее мощное влияние на состояние системы в целом;
2) классификация задач по уровню иерархии:
а) задачи, решаемые на макроуровне (страна в целом);
б) задачи, решаемые на мезоуровне (уровень отраслей, регионов);
в) задачи, решаемые на микроуровне (уровень фирмы, семьи, предприятия);
3) классификация задач по профилю изучаемой экономической системы:
а) рынок;
б) инвестиционная, социальная, финансовая политика;
в) ценообразование;
г) распределительные отношения;
д) спрос и потребление;
е) отдельно выделенный комплекс проблем.
2. Основные математические предпосылки эконометрического моделирования. Закон больших чисел, неравенство и теорема Чебышева
Основными математическими предпосылками эконометрического моделирования являются теоремы Чебышева, Бернулли и Ляпунова. Совокупность этих теорем носит общее название закона больших чисел.
На практике исследователи часто сталкиваются с таким комплексом условий, при осуществлении которого совокупное поведение достаточно большого количества случайных величин почти утрачивает случайный характер и приобретает определённые закономерности. Поэтому для решения подобных задач необходимо знать данный подобный комплекс условий, вследствие которого результат совокупного воздействия количества случайных факторов почти не зависит от случая. В этом случае опираются на закон больших чисел.
Для рассмотрения теоремы Чебышева вначале необходимо доказать неравенство Чебышева. Неравенство Чебышева справедливо как для дискретных, так непрерывных случайных величин. Рассмотрим его на примере дискретных случайных величин.
Предположим, что случайная дискретная величина X подчиняется закону распределения вида:
Задача состоит в оценке вероятности того, что отклонение случайной величины Х от её математического ожидания М(Х) не превышает по абсолютной величине положительного числа β. Если число β достаточно мало, то задача будет состоять в оценке вероятности того, что случайная величина Х примет значения, достаточно близкие к своему математическому ожиданию М(Х). Данная задача решается с применением неравенства П.Л. Чебышева.
Неравенство Чебышева. Вероятность того, что отклонение случайной величины Х от её математического ожидания М(Х) по абсолютной величине меньше положительного числа β не меньше, чем
т. е.
Доказательство. Так как события |Х-М(Х)|‹ε и |Х-М(Х)|≥ε являются противоположными, то на основании теоремы сложения вероятностей сумма их вероятностей равна единице:
P(|Х-М(Х)|‹ε)+P(|Х-М(Х)|≥ε)=1.
Выразим из полученного равенства вероятность |Х-М(Х)|‹ε:
P(|Х-М(Х)|‹ε)=1– P(|Х-М(Х)|≥ε). (1)
Дисперсия случайной величины Х определяется по формуле:
D(X)=(x1–M(X))2*p1+(x2–M(X))2*p2+…+(xn–M(X))2*pn.
Если отбросить первые k+1 слагаемые, для которых выполняется условие |xj-M(X)|‹ ε, то получим следующее неравенство:
D(X)≥(xk+1–M(X))2*pk+1+(xk+2–M(X))2*pk+2+…+(xn–M(X))2*pn.
Возведя обе части неравенства
в квадрат, получим равносильное неравенство |xj–M(X)|2≥ε2. Если заменить в оставшейся сумме каждый из множителей |xj–M(X)|2 числом β2, то получим следующее выражение:
D(X)≥ ε2(pk+1+ pk+2+…+ pn).
Так как сумма в скобках (pk+1+ pk+2+…+ pn) является выражением вероятности P(|Х-М(Х)|≥ε), то справедливо неравенство (2):
D(X)≥ ε2P(|Х-М(Х)|≥ε),
или
Если подставить неравенство (2) в выражение (1), то получим:
что и требовалось доказать.
Теорема Чебышева. Если величины X1, X2, …, Xn являются последовательностью попарно независимых случайных величин, имеющих дисперсии, ограниченные одной и той же постоянной С (D(Xi)≤C), то, как бы ни было мало положительное число ε, вероятность неравенства
ε будет приближаться к единице, если число случайных величин достаточно мало. Другими словами, для любого положительного числа существует предел:
Доказательство. В силу второго свойства дисперсии (постоянный множитель можно выносить за знак дисперсии, возводя его в квадрат) и оценки D(Xi)≤C получим:
Таким образом,
Из данного соотношения и неравенства Чебышева вытекает, что
Отсюда, переходя к пределу при n›ε, получим
Учитывая, что вероятность не может быть больше единицы, окончательно запишем:
что и требовалось доказать.
Если для рассматриваемых случайных величин математическое ожидание одинаково и дисперсии данных величин ограничены, то к ним применима теорема Чебышева. В этом случае считается справедливым утверждение, что среднее арифметическое достаточно большого количества попарно независимых случайных величин, дисперсии которых ограничены одной и той же постоянной, утрачивает характер случайной величины.
3. Теоремы Бернулли и Ляпунова
Предположим, что проводится n независимых испытаний. В каждом из этих испытаний вероятность наступления события А постоянна и равна р. Задача состоит в определении относительной частоты появлений события А. Данная задача решается с помощью теоремы Бернулли.
Теорема Бернулли. Если в каждом из n независимых испытаний событие A имеет постоянную вероятность p, то, как угодно близка к единице вероятность того, что отклонение относительной частоты m/n от вероятности p по абсолютной величине будет сколь угодно малым, если число испытаний достаточно велико, т. е. при соблюдении условий теоремы справедливо равенство:
Доказательство. Предположим, что
является дискретной случайной величиной, которая характеризует число появлений события А в каждом из испытаний. Данная величина может принимать только два значения: 1 (событие А наступило) с вероятностью р и 0 (событие А не наступило) с вероятностью q=1-p.
Случайные дискретные величины Хiявляются попарно независимыми и дисперсии их ограниченны, следовательно, к данным величинам применима теорема Чебышева:
Математическое ожидание а каждой из величин Хiравно вероятности р наступления события, следовательно, справедливо следующее равенство:
Таким образом, необходимо доказать, что дробь
или
равна относительной частоте m/n появлений события А в n испытаниях.
Каждая из величин
при наступлении события А в соответствующем испытании принимает значение, равное единице. Следовательно, сумма
равна числу m появлений события А в n испытаниях:
С учётом данного равенства можно окончательно записать:
что и требовалось доказать.
Однако при использовании теоремы Бернулли необходимо учитывать то, что из неё не следует равенство
Главным утверждением теоремы является то, что при достаточно большом количестве испытаний относительная частота m/n будет сколь угодно мало отличаться от постоянной вероятности р наступления события в каждом испытании. Другими словами, теорема Бернулли утверждает, что при n›ε относительная частота стремится по вероятности к р. Поэтому теорема Бернулли может быть записана следующим образом:
При проведении статистических исследований, в ходе которых осуществляется сбор данных об исследуемом объекте или процессе, часто сталкиваются с проблемой ошибочности наблюдений. В основе ошибочности наблюдений может лежать как несовершенство методов и инструментов, используемых при проведении статистического исследования, так и заранее непредусмотренные факторы. В связи с этим возникла задача исключения подобных ошибок наблюдения.
Ошибки наблюдения делятся на систематические ошибки и случайные ошибки.
Систематическими ошибками наблюдения называются такие ошибки, которые вызваны несовершенством методов и инструментов, применяемых при проведении исследования. Теоретически все систематические ошибки наблюдения могут быть исключены.
Случайными ошибками наблюдения называются такие ошибки, которые возникают под воздействием целой совокупности случайных факторов. При этом каждый из этих факторов в отдельности вызывает частичную ошибку, а результатом совместного действия всех случайных факторов является суммарная случайная ошибка, которую уже подлежит оценке.
Допустим, что была проведена серия наблюдений некоторой случайной величины Х. В ходе наблюдений данной случайной величины возникли ошибки, сформированные воздействием множества независимых факторов
Тогда ошибка а, возникающая в ходе наблюдения случайной величины Х, может быть представлена с помощью выражения:
а=f(X1,X2,…,Xn),
где f– это закономерность образования ошибки.
В связи с тем, что ошибка наблюдений а – величина случайная, то для наиболее точной характеристики данной величины необходимо знать закон распределения её вероятностей. Данная задача решается с помощью теоремы А.М. Ляпунова, также известной под названием центральной предельной теоремы. В качестве одной из математических предпосылок эконометрического моделирования выступает следствие из теоремы Ляпунова.
Следствие теоремы Ляпунова. Если случайная величина Х является суммой очень большого числа попарно независимых случайных величин, влияние каждой из которых на всю сумму ничтожно мало, то случайная величина Х подчиняется закону распределения, который близок к нормальному закону распределения вероятностей случайной величины.
Если суммарную ошибку наблюдений рассматривать как сумму очень большого числа попарно независимых частных ошибок, следовательно, то можно сделать вывод, что суммарная ошибка подчиняется закону распределения, который близок к нормальному закону распределения вероятностей.
4. Виды эконометрических моделей
Главным инструментом эконометрического исследования является модель. Выделяют три основных класса эконометрических моделей:
1) модель временных рядов;
2) модели регрессии с одним уравнением;
3) системы одновременных уравнений.
Моделью временных рядов называется зависимость результативной переменной от переменной времени или переменных, относящихся к другим моментам времени.
К моделям временных рядов, характеризующих зависимость результативной переменной от времени, относятся:
а) модель зависимости результативной переменной от трендовой компоненты или модель тренда;
б) модель зависимости результативной переменной от сезонной компоненты или модель сезонности;
в) модель зависимости результативной переменной от трендовой и сезонной компонент или модель тренда и сезонности.
К моделям временных рядов, характеризующих зависимость результативной переменной от переменных, датированных другими моментами времени, относятся:
а) модели с распределённым лагом, объясняющие вариацию результативной переменной в зависимости от предыдущих значений факторных переменных;
б) модели авторегрессии, объясняющие вариацию результативной переменной в зависимости от предыдущих значений результативных переменных;
в) модели ожидания, объясняющие вариацию результативной переменной в зависимости от будущих значений факторных или результативных переменных.
Кроме рассмотренной классификации, модели временных рядов делятся на модели, построенные по стационарным и нестационарным временным рядам.
Стационарным временным рядом называется временной ряд, который характеризуется постоянными во времени средней, дисперсией и автокорреляцией, т. е. данный временной ряд не содержит трендовой и сезонной компонент.
Нестационарным временным рядом называется временной ряд, который содержит трендовую и сезонную компоненты.
Определение. Моделью регрессии с одним уравнением называется зависимость результативной переменной, обозначаемой как у, от факторных (независимых) переменных, обозначаемых как х1,х2,…,хn. Данную зависимость можно представить в виде функции регрессии или модели регрессии:
y=f(x,β)=f(х1,х2,…,хn, β1…βk)
где β1…βk – параметры модели регрессии.
Можно выделить две основных классификации моделей регрессии::
а) классификация моделей регрессии на парные и множественные регрессии в зависимости от числа факторных переменных;
б) классификация моделей регрессии на линейные и нелинейные регрессии в зависимости от вида функции f(x,β).
В качестве примеров моделей регрессии с одним уравнением можно привести следующие модели:
а) производственная функция вида Q=f(L,K), выражающая зависимость объёма производства определённого товара (Q) от производственных факторов – от затрат капитала (К) и затрат труда (L);
б) функция цены Р=f(Q,Pk), характеризующая зависимость цены определённого товара (Р) от объема поставки (Q) и от цен конкурирующих товаров (Pk);
в) функция спроса Qd=f(P,Pk,I), характеризующая зависимость величины спроса на определённый товар (Р) от цены данного товара (Р), от цен товаров-конкурентов (Pk) и от реальных доходов потребителей (I).
Системой одновременных уравнений называется модель, которая описывается системами взаимозависимых регрессионных уравнений.
Системы одновременных уравнений могут включать в себя тождества и регрессионные уравнения, в каждое из которых могут входить не только факторные переменные, но и результативные переменные из других уравнений системы.
Регрессионные уравнения, входящие в систему одновременных уравнений, называются поведенческими уравнениями. В поведенческих уравнениях значения параметров являются неизвестными и подлежат оцениванию.
Основное отличие тождеств от регрессионных уравнений заключается в том, что их вид и значения параметров известны заранее.
Примером системы одновременных уравнений является модель спроса и предложения, в которую входит три уравнения:
а) уравнение предложения: =а0+а1*Рt+a2*Pt-1;
б) уравнение спроса: =b0+b1* Рt+b2*It;
в) тождество равновесия: QSt = Qdt,
где QSt – предложение товара в момент времени t;
Qdt – спрос на товар в момент времени t;
Рt – цена товара в момент времени t;
Pt-1 – цена товара в предшествующий момент времени (t-1);
It– доход потребителей в момент времени.
В модели спроса и предложения выражаются две результативные переменные:
а) Qt– объём спроса, равный объёму предложения в момент времени t;
б) Pt– цена товара в момент времени t.
5. Классификация эконометрических моделей
Общая классификация эконометрических или экономико-математических моделей включает более десяти основных признаков, но с развитием экономико-математических исследований проблема классификации данных моделей всё более усложняется. Помимо появления новых типов моделей (особенно смешанных типов) и новых признаков их классификаций, также идёт процесс интеграции моделей различных типов в более сложные, комбинированные модельные конструкции.
Рассмотрим несколько ключевых классификаций эконометрических моделей:
1) классификация эконометрических моделей по целевому назначению:
а) теоретико-аналитические модели, которые используются при исследовании общих свойств и закономерностей экономических процессов;
б) прикладные модели, которые используются при решении конкретных экономических задач (модели экономического анализа, прогнозирования, управления);
Также эконометрические модели могут быть использованы при исследовании различных сторон народного хозяйства и его отдельных частей.
2) классификация эконометрических моделей по исследуемым экономическим процессам и содержательной проблематике. При этом выделяются:
а) модели народного хозяйства в целом и его отдельных подсистем-отраслей, регионов и т. д.;
б) комплексы моделей производства и потребления;
в) комплексы моделей формирования и распределения доходов;
г) комплексы моделей трудовых ресурсов;
д) комплексы моделей ценообразования;
е) комплексы моделей финансовых связей и др.
3) классификация эконометрических моделей на дескриптивные и нормативные модели:
а) дескриптивные модели предназначены для объяснения наблюдаемых фактов или для построения вероятностного прогноза. В качестве примера дескриптивной модели можно привести производственные функции и функции покупательного спроса, построенные на основе обработки статистических данных;
б) нормативные модели отвечают на вопрос «как это должно бытьβ», т. е. предполагают целенаправленную деятельность. В качестве примера нормативной модели можно привести модели оптимального планирования, характеризующие тем или иным образом цели экономического развития, возможности и средства их достижения;
4) классификация эконометрических моделей по характеру отражения причинно-следственных связей. При этом выделяют:
а) модели жестко детерминистские;
б) модели, в которых учитываются факторы случайности и неопределенности.
Вследствие перехода от жёстко детерминированных моделей к моделям второго типа, были разработаны реальные возможности успешного применения более совершенной методологии моделирования экономических процессов, учитывающих факторы случайности и неопределённости, а именно:
а) проведение многовариантных расчетов и модельных экспериментов с вариацией конструкции модели и ее исходных данных;
б) изучение устойчивости и надежности получаемых решений;
в) выделение зоны неопределенности;
г) включение в модель резервов;
д) применение приемов, повышающих приспособляемость (адаптивность) экономических решений к вероятным и непредвиденным ситуациям
В последнее время широко применяются эконометрические модели, непосредственно отражающие стохастичность и неопределенность экономических процессов. Данные модели используют соответствующий математический аппарат: теорию вероятностей и математическую статистику, теорию игр и статистических решений, теорию массового обслуживания, теорию случайных процессов.
5) Классификация эконометрических моделей по способам отражения фактора времени. При этом выделяют:
а) статические модели, характеризующие исследуемую зависимость между переменными на определённый момент времени;
б) динамические модели, характеризующие изменение экономических процессов во времени.
6. Этапы эконометрического моделирования. Проблемы, решаемые при эконометрическом исследовании
Выделяют семь основных этапов эконометрического моделирования:
1) постановочный этап, в процессе осуществления которого определяются конечные цели и задачи исследования, а также совокупность включённых в модель факторных и результативных экономических переменных. При этом включение в эконометрическую модель той или иной переменной должно быть теоретически обоснованно и не должно быть слишком большим. Между факторными переменными не должно быть функциональной или тесной корреляционной связи, потому что это приводит к наличию в модели мультиколлинеарности и негативно сказывается на результатах всего процесса моделирования;
2) априорный этап, в процессе осуществления которого проводится теоретический анализ сущности исследуемого процесса, а также формирование и формализация известной до начала моделирования (априорной) информации и исходных допущений, касающихся в частности природы исходных статистических данных и случайных остаточных составляющих в виде ряда гипотез;
3) этап параметризации (моделирования), в процессе осуществления которого выбирается общий вид модели и определяется состав и формы входящих в неё связей, т. е. происходит непосредственно моделирование.
К основным задачам этапа параметризации относятся:
а) выбор наиболее оптимальной функции зависимости результативной переменной от факторных переменных. При возникновении ситуации выбора между нелинейной и линейной функциями зависимости, предпочтение всегда отдаётся линейной функции, как наиболее простой и надёжной;
б) задача спецификации модели, в которую входят такие подзадачи, как аппроксимация математической формой выявленных связей и соотношений между переменными, определение результативных и факторных переменных, формулировка исходных предпосылок и ограничений модели.
4) информационный этап, в процессе осуществления которого происходит сбор необходимых статистических данных, а также анализируется качество собранной информации;
5) этап идентификации модели, в ходе осуществления которого происходит статистический анализ модели и оцененивание неизвестных параметров. Данный этап непосредственно связан с проблемой идентифицируемостимодели, т. е. ответа на вопрос «Возможно ли восстановить значения неизвестных параметров модели по имеющимся исходным данным в соответствии с решением, принятым на этапе параметризацииβ». После положительного ответа на этот вопрос решается проблема идентификации модели, т. е. реализуется математически корректная процедура оценивания неизвестных параметров модели по имеющимся исходным данным;
6) этап оценки качества модели, в ходе осуществления которого проверяется достоверность и адекватность модели, т. е. определяется, насколько успешно решены задачи спецификации и идентификации модели, какова точность расчётов, полученных на её основе. Построенная модель должна быть адекватна реальному экономическому процессу. Если качество модели является неудовлетворительным, то происходит возврат ко второму этапу моделирования;
7) этап интерпретации результатов моделирования.
К наиболее распространённым эконометрическим моделям относятся:
1) модели потребительского и сберегательного потребления;
2) модели взаимосвязи риска и доходности ценных бумаг;
3) модели предложения труда;
4) макроэкономические модели (модель роста);
5) модели инвестиций;
6) маркетинговые модели;
7) модели валютных курсов и валютных кризисов и др.
Эконометрическое исследование связано с решением следующих проблем:
1) качественный анализ связей экономических переменных, т. е. определение зависимых (yi) и независимых (хi) переменных;
2) изучение соответствующего раздела экономической теории;
3) подбор данных;
4) спецификация формы связи между yi и хi;
5) оценка неизвестных параметров модели;
6) проверка ряда гипотез о свойствах распределения вероятностей для случайной компоненты (гипотезы о средней дисперсии и ковариации);
7) анализ мультиколлинеарности объясняющих переменных, оценка ее статистической значимости, определение переменных, ответственных за мультиколлинеарность;
8) введение фиктивных переменных;
9) выявление автокорреляции;
10) выявление тренда, циклической и случайной компонент;
11) проверка остатков модели на гетероскедастичность;
12) анализ структуры связей и построения системы одновременных уравнений;
13) проверка условия идентификации;
14) оценка параметров системы одновременных уравнений;
15) проблемы моделирования на основе системы временных рядов;
16) построение рекурсивных моделей, авторегрессионных моделей;
17) выработка управленческих решений
18) прогноз экономических показателей, характеризующих изучаемый процесс;
19) моделирование поведения процесса при различных значениях независимых (факторных) переменных.
7. Сбор статистических данных для оценивания параметров эконометрической модели
Первым этапом при проведении эконометрического исследования является сбор статистических данных об анализируемом объекте или процессе в виде конкретных значений эндогенных переменных и предопределенных переменных, входящих в спецификацию модели. Данная информация необходима для определения оценок неизвестных коэффициентов, входящих в эконометрическую модель.
Сбором статистических данных называется процесс получения исходных данных об элементах исследуемой совокупности и их свойствах, которые в дальнейшем становятся предметом статистической обработки и анализа.
В связи с многообразием статистических наблюдений, их принято классифицировать по следующим признаками:
1) по форме организации;
2) по времени регистрации фактов;
3) по признаку полноты охвата элементов изучаемой совокупности.
По форме организации выделяют отчётность и специально организованные статистические наблюдения.
Отчётностью называется основная организационная форма статистического наблюдения, которая состоит в сборе сведений от предприятий, учреждений и организаций о различных сторонах их деятельности на специальных бланках, называемых отчётами. В зависимости от продолжительности периода, относительно которого составляется отчётность, выделяют основную и текущую отчётность.
Основной отчётностью называется организационная форма статистического наблюдения, которая содержит наиболее широкий круг показателей, характеризующих все стороны деятельности предприятия. Основная отчётность также называется годовой.
Текущей отчётностью называется организационная форма статистического наблюдения, которая представляется предприятиями в течение года за различные по продолжительности промежутки времени.
По той причине, что существуют данные, которые принципиально невозможно получить на основе отчётности и данные, которые нецелесообразно включать в неё, используются специально организованные статистические наблюдения – различного рода обследования и переписи.
Статистическим обследованием называется такая форма специально организованного статистического наблюдения, при котором исследуемая совокупность явлений подвергается наблюдению в течение определённого периода времени.
Переписью называется такая форма специально организованного статистического наблюдения, при котором исследуемая совокупность явлений наблюдается на какую-либо дату.
По признаку времени регистрации фактов в эконометрике различают текущее (непрерывное) и дискретное (прерывное) статистическое наблюдение.
Текущим (непрерывным) статистическим наблюдением называется наблюдение, которое осуществляется во времени непрерывно. При этом отдельные явления, факты, события регистрируются по мере их возникновения.
Дискретным (прерывным) статистическим наблюдением называется наблюдение, при котором наблюдаемые явления, факты, события регистрируются через периоды времени, равной или неравной продолжительности. Дискретное наблюдение может быть периодическим и единовременным.
Периодическим наблюдением называется такая форма прерывного наблюдения, которая осуществляется через периоды времени равной продолжительности.
Единовременным наблюдением называется такая форма прерывного наблюдения, которое осуществляется через периоды времени неравной продолжительности или имеющие разовый характер.
В соответствии с признаком полноты охвата элементов изучаемой совокупности явлений, фактов, событий статистические наблюдения делятся на сплошные и несплошные наблюдения.
Сплошным наблюдением называется такая форма статистического наблюдения, при использовании которой учитываются все без исключения явления, факты, события, входящие в исследуемую совокупность.
Несплошным наблюдением называется такая форма статистического наблюдения, при использовании которой учитывается только некоторая часть явлений, фактов, событий, входящих в исследуемую совокупность.
Объективные причины использования несплошного наблюдения:
1) физическая невозможность или нецелесообразность осуществления сплошного наблюдения;
2) ограниченность исследователей во времени или средствах.
Выделяют несколько основных разновидностей несплошного наблюдения:
1) обследование основного массива характеризуется тем, что та часть исследуемой совокупности, которая подлежит наблюдению, устанавливается заранее. При этом отобранная часть единиц является преобладающей в объеме исследуемого объекта;
2) выборочное наблюдение характеризуется тем, что отбор той части единиц исследуемой совокупности, которая подлежит обследованию, производится строго в случайном порядке в соответствии с требованиями, установленными в теории вероятности;
3) анкетное наблюдение характеризуется тем, что лицам, от которых необходимо получить сведения, рассылают анкеты с просьбой заполнить их и возвратить обратно;
4) монографическое наблюдение характеризуется тем, что в составе исследуемой совокупности выделяются типические группы. В каждой подлежащей обследованию группе подвергают наблюдению одну (иногда две, три) типичную единицу. Установленные при наблюдении величины признаков рассматривают как типичные (средние) величины для группы в целом. Программа наблюдения при монографическом наблюдении обычно бывает достаточно широкой, т. е. охватывает большое число признаков.
8. Классификация видов эконометрических переменных и типов данных. Проблемы, связанные с данными
В эконометрических моделях в основном используются данные трёх типов:
1) пространственные данные (cross-sectional data);
2) временные ряды (time-series data);
3) панельные данные (panel data).
Пространственными данными называется совокупность экономической информации, которая характеризует различные объекты, однако полученной за один и тот же период или момент времени.
Пространственные данные являются выборочной совокупностью из некоторой генеральной совокупности. Примером пространственных данных может служить комплекс экономической информации по какому-либо предприятию (численность работников, объём производства, размер основных фондов), объёмах потребления продукции определённого вида, данные о ВВП различных стран в каком-либо конкретном году и т. д.
Временными данными называется совокупность экономической информации, которая характеризует один и тот же объект, но за разные периоды времени.
Отдельно взятый временной ряд можно рассматривать как выборку из бесконечного ряда значений показателей во времени. Примером временных данных могут служить данные о динамике индекса потребительских цен, ежедневные обменные курсы валют.
Отличия временных данных от пространственных данных:
1) единицы временных рядов подвержены явлению автокорреляции (зависимости между прошлыми и текущими наблюдениями временного ряда), т. е. они не являются статистически независимыми в отличие от единиц случайной пространственной выборки;
2) единицы временных рядов не являются одинаково распределёнными величинами;
3) в отличие от пространственных данных временные данные естественным образом упорядочены во времени.
Панельными данными называются данные, содержащие сведения об одном и том же множестве объектов за ряд последовательных периодов времени.
Панельные данные являются обобщением или комбинацией пространственных и временных данных. Примером панельных данных могут служить показатели хозяйственной деятельности совокупности предприятий, которые собираются каждый год. В этом случае мы получим массив данных, в котором содержатся и данные об однородных объектах за один и тот же период времени, и последовательные значения одной экономической переменной в различные периоды времени. Но если совокупность предприятий из года в год будет различна, то такие данные уже не будут панельными.
Набором признаков называется совокупность экономической информации, которая характеризует изучаемый процесс или объект.
Признаки взаимосвязаны между собой, и при этом они могут выступать в одной из двух ролей:
1) в роли результативного или зависимого признака;
2) в роли факторного или независимого признака.
В эконометрических моделях результативный признак называется объясняемой переменной, а факторный признак называется объясняющей переменной.
В эконометрическом моделировании выделяют следующие виды экономических переменных:
1) экзогенные или независимые переменные (х), значения которых задаются извне. В определённой степени экзогенные переменные поддаются управлению;
2) эндогенные или зависимые переменные (у), значения которых определяются внутри модели;
3) лаговые переменные – это экзогенные или эндогенные переменные, которые относятся к предыдущим моментам времени и находятся в эконометрической модели одновременно с переменными, относящимися к текущему моменту времени. Например, xt-1 – это лаговая экзогенная переменная, а yt-1 – это лаговая эндогенная переменная;
4) предопределённые или объясняющие переменные – это лаговые (xt-1) и текущие (х) экзогенные переменные, а также лаговые эндогенные переменные (yt-1).
5) фиктивные переменные используются в эконометрических моделях для характеристики явления или процесса, в отношении которого нет данных по качественному признаку;
6) переменные-заместители искусственно вводятся в эконометрическую модель для характеристики явления или процесса, который не может быть количественно охарактеризован. При этом переменная-заместитель тесно коррелирует с этим явлением.
В эконометрических исследованиях большое внимание уделяется проблеме данных, т. е. специальным методам работы при наличии данных с пропусками, влиянию агрегирования данных на эконометрические измерения. Зачастую по единицам исследуемой совокупности информация отсутствует, а в наличии имеются данные, характеризующие более крупные единицы (агрегаты). Следует отметить, что при агрегировании временных данных опасность искажения результатов измерений гораздо больше, чем при агрегировании пространных данных, потому что с одной стороны, добавляется эффект автокорреляции, а с другой – происходит погашение случайной компоненты.
9. Общая модель парной (однофакторной) регрессии
Общая модель парной регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем в целом по совокупности наблюдений.
Регрессионным анализом называется определение аналитического выражения связи между исследуемыми переменными, в котором изменение результативной переменной происходит под влиянием факторной переменной.
Модель регрессии или уравнение регрессии позволяет количественно оценить взаимосвязь между исследуемыми переменными.
Предположим, что имеется набор значений двух переменных: yi (результативная переменная) и xi (факторная переменная). Между этими переменными существует зависимость вида: y = f (x).
Задача регрессионного анализа состоит в том, чтобы по данным наблюдений определить такую функцию ỹ = f (x), которая наилучшим образом описывала исследуемую зависимость между переменными.
Для определения аналитической формы зависимости между исследуемыми переменными применяются следующие методы:
1) графический метод или визуальная оценка характера связи. В этом случае на линейном графике по оси абсцисс откладываются значения факторной переменной х, а по оси ординат – значения результативной переменной у. Затем на пересечении соответствующих значений отмечаются точки. Полученный точечный график в системе координат (х, у) называется корреляционным полем. Линия, которая соединяет точки на графике, называется эмпирической линией. По её виду можно судить не только о наличии, но и о форме зависимости между изучаемыми переменными;
2) на основе теоретического и логического анализа природы изучаемых явлений, их социально-экономической сущности;
3) определение аналитической формы зависимости между переменными экспериментальным путём.
При исследовании зависимости между двумя переменными чаще всего используется линейная форма связи. Это связано с двумя обстоятельствами:
1) чёткая экономическая интерпретация параметров линейной модели регрессии;
2) в большинстве случаев нелинейные модели регрессии преобразуются к линейному виду.
Общий вид модели парной регрессии зависимости переменной у от переменной х:
yi=β0+β1xi+εi,
где yi– результативные переменные,
xi– факторные переменные,
β0, β1 – параметры модели регрессии, подлежащие оцениванию;
εi – случайная ошибка модели регрессии. Данная величина является случайной, она характеризует отклонения реальных значений результативных переменных от теоретических, рассчитанных по уравнению регрессии.
Присутствие случайной ошибки в модели регрессии порождено следующими источниками:
1) нерепрезентативность выборки. Модель парной регрессии в большинстве случаев является большим упрощением истинной зависимости между переменными, потому что в модель входит только одна факторная переменная, не способная полностью объяснить вариацию результативной переменной. При этом результативная переменная может быть подвержена влиянию множества других факторных переменных в гораздо большей степени;
2) ошибки, возникающие при измерении данных;
3) неправильная функциональная спецификация модели.
Коэффициент β1, входящий в модельпарной регрессии, называется коэффициентом регрессии. Он характеризует, на сколько в среднем изменится результативная переменная у при условии изменения факторной переменной х на единицу своего измерения. Знак коэффициента регрессии указывает на направление связи между переменными:
1) если β1›0, то связь между изучаемыми переменными (с уменьшением факторной переменной х уменьшается и результативная переменная у, и наоборот);
2) если β1‹0, то связь между изучаемыми переменными (с увеличением факторной переменной х результативная переменная у уменьшается, и наоборот).
Коэффициент β0, входящий в модель парной регрессии, трактуется как среднее значение результативной переменной у при условии, что факторная переменная х равна нулю. Но если факторная переменная не имеет и не может иметь нулевого значения, то подобная трактовка коэффициента β0 не имеет смысла.
Общий вид модели парной регрессии в матричном виде:
Y= X* β+ ε,
где
– случайный вектор-столбец значений результативной переменной размерности n x 1;
– матрица значений факторной переменной размерности n x 2. Первый столбец является единичным, потому что в модели регрессии коэффициент β0 умножается на единицу;
– вектор-столбец неизвестных коэффициентов модели регрессии размерности 2 x 1;
– случайный вектор-столбец ошибок модели регрессии размерности n x 1.
10. Нормальная линейная модель парной (однофакторной) регрессии
Общий вид нормальной (традиционной или классической) линейной модели парной (однофакторной) регрессии (Classical Normal Regression Model):
yi=β0+β1xi+εi,
где yi– результативные переменные,
xi – факторные переменные,
β0, β1 – параметры модели регрессии, подлежащие оцениванию;
εi – случайная ошибка модели регрессии.
При построении нормальной линейной модели парной регрессии учитываются пять условий:
1) факторная переменная xi – неслучайная или детерминированная величина, которая не зависит от распределения случайной ошибки модели регрессии εi;
2) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:
3) дисперсия случайной ошибки модели регрессии постоянна для всех наблюдений:
4) между значениями случайных ошибок модели регрессии в любых двух наблюдениях отсутствует систематическая взаимосвязь, т. е. случайные ошибки модели регрессии не коррелированны между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю): Cov(εi,εj)=E(εi,εj)=0 (). Это условие выполняется в том случае, если исходные данные не являются временными рядами;
5) на основании третьего и четвёртого условий часто добавляется пятое условие, заключающееся в том, что случайная ошибка модели регрессии – это случайная величина, подчиняющейся нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2: εi~N(0, G2).
Общий вид нормальной линейной модели парной регрессии в матричной форме:
Y= X* β+ ε,
где
– случайный вектор-столбец значений результативной переменной размерности n x 1;
– матрица значений факторной переменной размерности n x 2. Первый столбец является единичным, потому что в модели регрессии коэффициент β0 умножается на единицу;
– вектор-столбец неизвестных коэффициентов модели регрессии размерности 2 x 1;
– случайный вектор-столбец ошибок модели регрессии размерности n x 1.
Условия построения нормальной линейной модели парной регрессии, записанные в матричной форме:
1) факторная переменная xi – неслучайная или детерминированная величина, которая не зависит от распределения случайной ошибки модели регрессии βi;
2) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:;
3) третье и четвёртое условия можно записать через ковариационную матрицы случайных ошибок нормальной линейной модели парной регрессии:
где G2 – дисперсия случайной ошибки модели регрессии ε;
In – единичная матрица размерности n x n.
Определение. Ковариацией называется показатель тесноты связи между переменными х и у, который рассчитывается по формуле:
где
– среднее арифметическое значение произведения факторного и результативного признаков;
Основными свойствами показателя ковариации являются:
а) ковариация переменной и константы равна нулю, т. е. cov(x,C)=0 (C=const);
б) ковариация переменной с самой собой равна дисперсии переменной, т. е. Cov(ε,ε)=G2(ε). По этой причине на диагонали ковариационной матрицы случайных ошибок нормальной линейной модели парной регрессии располагается дисперсия случайных ошибок;
4) случайная ошибка модели регрессии подчиняется нормальному закону распределения: εi~N(0, G2).
11. Критерии оценки неизвестных коэффициентов модели регрессии
В ходе регрессионного анализа была подобрана форма связи, которая наилучшим образом отражает зависимость результативной переменной у от факторной переменной х:
y=f(x).
Необходимо оценить неизвестные коэффициенты модели регрессии β0…βn. Для определения оптимальных коэффициентов модели регрессии возможно применение следующих критериев:
1) критерий суммы квадратов отклонений наблюдаемых значений результативной переменной у от теоретических значений β (рассчитанных на основе функции регрессии f(x)):
Данный критерий определения оптимальных коэффициентов модели регрессии получил название метода наименьших квадратов или МНК. К основным преимуществам данного метода относятся:
а) все расчёты сводятся к механической процедуре нахождения коэффициентов;
б) доступность полученных математических выводов.
Недостаток метода наименьших квадратов заключается в излишней чувствительности оценок к резким выбросам, встречающимся в исходных данных.
Для определения оптимальных значений коэффициентов β0…βn необходимо минимизировать функционал F по данным параметрам:
Суть минимизации функционала наименьших квадратов F состоит в определении таких значений коэффициентов β0…βn, при которых сумма квадратов отклонений наблюдаемых значений результативной переменной у от теоретических значений β была бы минимальной;
2) критерий суммы модулей отклонений наблюдаемых значений результативной переменной у от теоретических значений β (рассчитанных на основе функции регрессии f(x)):
Главное преимущество данного критерия заключается в устойчивости полученных оценок к резким выбросам в исходных данных, в отличие от метода наименьших квадратов.
К недостаткам данного критерия относятся:
а) сложности, возникающие в процессе вычислений;
б) зачастую большим отклонениям в исходных данных следует придавать больший вес для уравновешивания их в общей сумме наблюдений;
в) разным значениям оцениваемых коэффициентов β0…βn могут соответствовать одинаковые суммы модулей отклонений.
Для определения оптимальных значений коэффициентов β0…βn необходимо минимизировать функционал Fпо данным параметрам:
Суть минимизации функционала F состоит в определении таких значений коэффициентов β0…βn, при которых сумма квадратов отклонений наблюдаемых значений результативной переменной у от теоретических значений β была бы минимальной;
3) критерий, имеющий вид:
где g – это мера или вес, с которой отклонение (yi-f|xi,β|) входит в функционал F. В качестве примера веса g можно привести функцию Хубера, которая при малых значениях переменной х является квадратичной, а при больших значениях х – линейной:
где с – ограничения функции.
Данный критерий определения наилучших оценок коэффициентов модели регрессии β0…βn является попыткой объединения достоинств двух предыдущих критериев. Основное преимущество данного критерия заключается в том, что оценки неизвестных коэффициентов, найденные с его помощью, являются более устойчивыми к случайным выбросам в исходных данных, чем оценки, полученные методом наименьших квадратов.
Для определения оптимальных значений коэффициентов β0…βn необходимо минимизировать функционал F по данным параметрам:
Суть минимизации функционала F состоит в определении таких значений коэффициентов β0…βn, при которых сумма квадратов отклонений наблюдаемых значений результативной переменной у от теоретических значений ỹ с учётом заданных весов g была бы минимальной.
12. Оценивание неизвестных коэффициентов модели регрессии методом наименьших квадратов. Теорема Гаусса – Маркова
Определение коэффициентов модели регрессии осуществляется на третьем этапе схемы построения эконометрической модели. В результате этой процедуры рассчитываются оценки (приближенные значения) неизвестных коэффициентов спецификации модели.
Спецификация линейной эконометрической модели из изолированного уравнения с гомоскедастичными возмущениями имеет вид:
Рассмотрим метод наименьших квадратов на примере оценивания эконометрических моделей в виде моделей парной регрессии (изолированных уравнений с двумя переменными).
Если уравнение модели содержит две экономические переменные – эндогенную yiи предопределенную xi, то модель имеет вид:
Данная модель называется моделью линейной парной регрессии и содержит три неизвестных параметра:
β0 , β1 , σ. (3)
Предположим, что имеется выборка: (х1, y1), (х2, y2),… (хn , yn) (4)
Тогда в рамках исследуемой модели данные величины связаны следующим образом:
y1 = a0 + a1 * x1 + u1,
y2 = a0 + a1 * x2 + u2, (5)
…
yn= a0 + a1 * x n + u n.
Данная система называется системой уравнений наблюдения объекта в рамках исследуемой линейной модели или схемой Гаусса-Маркова.
Компактная запись схемы Гаусса-Маркова:
где
– вектор-столбец известных значений эндогенной переменной yiмодели регрессии;
– вектор-столбец неизвестных значений случайных возмущений εi;
– матрица известных значений предопределенной переменной xi модели;
β = (β0 β1 )Т (10) – вектор неизвестных коэффициентов модели регрессии.
Обозначим оценку вектора неизвестных коэффициентов модели регрессии как
Данная оценка вычисляется на основании выборочных данных (7) и (9) с помощью некоторой процедуры:
где P (X, ỹ) – символ процедуры.
Процедура (12) называется линейной относительно вектора (7) значений эндогенной переменной yi, если выполняется условие:
где
(14) – матрица коэффициентов, зависящих только от выборочных значений (9) предопределенной переменной хi.
Теорема Гаусса-Маркова. Пусть матрица Х коэффициентов уравнений наблюдений (6) имеет полный ранг, а случайные возмущения (8) удовлетворяют четырем условиям:
E(ε1) = E(ε2) = … = E(εn) = 0, (15)
Var(ε1) = Var(ε2) = … = Var(εn) = σ2(16)
Cov(εi, εj) = 0 при i≠j(17)
Cov(xi,εj) = 0 при всех значениях i и j (18)
В этом случае справедливы следующие утверждения:
а) наилучшая линейная процедура (13), приводящая к несмещенной и эффективной оценке (11), имеет вид:
б) линейная несмещенная эффективная оценка (19) обладает свойством наименьших квадратов:
в) ковариационная матрица оценки (19) вычисляется по правилу:
г) несмещенная оценка параметра σ2 модели (2) находится по формуле:
Следствие теоремы Гаусса-Маркова. Оценка
доставляемая процедурой (19) метода наименьших квадратов, может быть вычислена в процессе решения системы двух линейных алгебраических уравнений:
Данная система называется системой нормальных уравнений. Ее коэффициенты и свободные члены определяются по правилам:
[x] = x1 + x2 +…+ xn,
[y] = y1 + y2 +…+ yn, (24)
x2] = x12 + x22 +…+ xn2,
[xy] = x1*y1 + x2*y2 + … + xn*yn.
Явный вид решения системы (23):
13. Система нормальных уравнений и явный вид ее решения при оценивании методом наименьших квадратов линейной модели парной регрессии
Предположим, что в ходе регрессионного анализа была установлена линейная взаимосвязь между исследуемыми переменными х и у, которая описывается моделью регрессии вида:
В результате оценивания данной эконометрической модели определяются оценки неизвестных коэффициентов. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).
Метод наименьших квадратов позволяет получить такие оценки параметров β0 и β1, при которых сумма квадратов отклонений фактических значений результативного признака y от расчетных (теоретических) ỹ минимальна:
В процессе минимизации функции (1) неизвестными являются только значения коэффициентов β0 и β1, потому что значения результативной и факторной переменных известны из наблюдений. Для определения минимума функции двух переменных вычисляются частные производные этой функции по каждому из оцениваемых параметров и приравниваются к нулю. Результатом данной процедуры будет стационарная система уравнений для функции (2):
.
Если разделить обе части каждого уравнения системы на (-2), раскрыть скобки и привести подобные члены, то получим систему нормальных уравнений для функции регрессии вида yi=β0+β1xi:
Если решить данную систему нормальных уравнений, то мы получим искомые оценки неизвестных коэффициентов модели регрессии β0 и β1:
где
– среднее значение зависимой переменной;
– среднее значение независимой переменной;
– среднее арифметическое значение произведения зависимой и независимой переменных;
– дисперсия независимой переменной;
Gcov (x, y) – ковариация между зависимой и независимой переменными.
Таким образом, явный вид решения системы нормальных уравнений может быть записан следующим образом:
14. Оценка коэффициентов модели парной регрессии с помощью выборочного коэффициента регрессии
Помимо метода наименьших квадратов, с помощью которого в большинстве случаев определяются неизвестные параметры модели регрессии, в случае линейной модели парной регрессии осуществим иной подход к решению данной проблемы.
Линейная модель парной регрессии может быть записана в виде:
где у – значения зависимой переменной;
х – значения независимой переменной;
– среднее значение зависимой переменной, которое определяется на основании выборочных данных вычисленное по формуле средней арифметической:
уi– значения зависимой переменной,
n – объём выборки;
– среднее значение независимой переменной, которое определяется на основании выборочных данных вычисленное по формуле средней арифметической:
Параметр βyx называется выборочным коэффициентом регрессии переменной у по переменной х. Данный параметр показывает, на сколько в среднем изменится зависимая переменная у при изменении независимой переменной х на единицу своего измерения.
Выборочный коэффициент регрессии переменной у по переменной х рассчитывается по формуле:
где ryx – это выборочный парный коэффициент корреляции между переменными у и х, который рассчитывается по формуле:
– среднее арифметическое значение произведения зависимой и независимой переменных:
Sy – показатель выборочного среднеквадратического отклонения зависимой переменной у. Этот показатель характеризует, на сколько единиц в среднем отклоняются значения зависимой переменной у от её среднего значения. Он рассчитывается по формуле:
– среднее значение из квадратов значений зависимой переменной у:
– квадрат средних значений зависимой переменной у:
Sx – показатель выборочного среднеквадратического отклонения независимой переменной х. Этот показатель характеризует, на сколько единиц в среднем отклоняются значения независимой переменной х от её среднего значения. Они рассчитывается по формуле:
– среднее значение из квадратов значений независимой переменной х:
– квадрат средних значений независимой переменной х:
При использовании рассмотренного подхода оценивания неизвестных параметров линейной модели парной регрессии, следует учитывать что ryx=rxy, однако βyx≠βxy.
15. Оценка дисперсии случайной ошибки модели регрессии
При проведении регрессионного анализа основная трудность заключается в том, что генеральная дисперсия случайной ошибки является неизвестной величиной, что вызывает необходимость в расчёте её несмещённой выборочной оценки.
Несмещённой оценкой дисперсии (или исправленной дисперсией) случайной ошибки линейной модели парной регрессии называется величина, рассчитываемая по формуле:
где n – это объём выборочной совокупности;
еi– остатки регрессионной модели:
Для линейной модели множественной регрессии несмещённая оценка дисперсии случайной ошибки рассчитывается по формуле:
где k – число оцениваемых параметров модели регрессии.
Оценка матрицы ковариаций случайных ошибок Cov(ε) будет являться оценочная матрица ковариаций:
где In – единичная матрица.
Оценка дисперсии случайной ошибки модели регрессии распределена по ε2(хи-квадрат) закону распределения с (n-k-1) степенями свободы.
Для доказательства несмещённости оценки дисперсии случайной ошибки модели регрессии необходимо доказать справедливость равенства
Доказательство. Примем без доказательства справедливость следующих равенств:
где G2(ε) – генеральная дисперсия случайной ошибки;
S2(ε) – выборочная дисперсия случайной ошибки;
– выборочная оценка дисперсии случайной ошибки.
Тогда:
т. е.
что и требовалось доказать.
Следовательно, выборочная оценка дисперсии случайной ошибки
является несмещённой оценкой генеральной дисперсии случайной ошибки модели регрессии G2(ε).
При условии извлечения из генеральной совокупности нескольких выборок одинакового объёма n и при одинаковых значениях объясняющих переменных х, наблюдаемые значения зависимой переменной у будут случайным образом колебаться за счёт случайного характера случайной компоненты β. Отсюда можно сделать вывод, что будут варьироваться и зависеть от значений переменной у значения оценок коэффициентов регрессии и оценка дисперсии случайной ошибки модели регрессии.
Для иллюстрации данного утверждения докажем зависимость значения МНК-оценки
от величины случайной ошибки ε.
МНК-оценка коэффициента β1 модели регрессии определяется по формуле:
В связи с тем, что переменная у зависит от случайной компоненты ε (yi=β0+β1xi+εi), то ковариация между зависимой переменной у и независимой переменной х может быть представлена следующим образом:
Для дальнейших преобразования используются свойства ковариации:
1) ковариация между переменной х и константой С равна нулю: Cov(x,C)=0, C=const;
2) ковариация переменной х с самой собой равна дисперсии этой переменной: Cov(x,x)=G2(x).
Исходя из указанных свойств ковариации, справедливы следующие равенства:
Cov(x,β0)=0 (β0=const);
Cov(x, β1x)= β1*Cov(x,x)= β1*G2(x).
Следовательно, ковариация между зависимой и независимой переменными Cov(x,y) может быть записана как:
Cov(x,y)= β1G2(x)+Cov(x,ε).
В результате МНК-оценка коэффициента β1 модели регрессии примет вид:
Таким образом, МНК-оценка
может быть представлена как сумма двух компонент:
1) константы β1, т. е. истинного значения коэффициента;
2) случайной ошибки Cov(x,ε), вызывающей вариацию коэффициента модели регрессии.
Однако на практике подобное разложение МНК-оценки невозможно, потому что истинные значения коэффициентов модели регрессии и значения случайной ошибки являются неизвестными. Теоретически данное разложение можно использовать при изучении статистических свойств МНК-оценок.
Аналогично доказывается, что МНК-оценка
коэффициента модели регрессии и несмещённая оценка дисперсии случайной ошибки
могут быть представлены как сумма постоянной составляющей (константы) и случайной компоненты, зависящей от ошибки модели регрессии ε.
16. Состоятельность и несмещённость МНК-оценок
Предположим, что методом наименьших квадратов получена оценка
Для того, чтобы данная оценка могла быть принята за оценку параметра
необходимо и достаточно выполнения трёх статистических свойств:
1) свойства несмещённости;
2) свойства состоятельности;
3) свойства эффективности.
Сделаем следующие предположения об отклонениях єi:
1) величина єiявляется случайной переменной;
2) математическое ожидание єiравно нулю: М (єi) = 0;
3) дисперсия є постоянна: D(єi) = D(єi) = s 2 для всех i, j;
4) значения єiнезависимы между собой, следовательно, справедливо следующее выражение:
Если данные предпосылки выполняются, то оценки, найденные с помощью метода наименьших квадратов, обладают свойствами несмещённости, состоятельности и эффективности.
Если третье и четвёртое предположения не выполняются, т. е. дисперсия случайных компонент непостоянна и/или значения є коррелируют друг с другом, то свойства несмещенности и состоятельности сохраняются, но свойство эффективности – нет.
Величина
называется несмещённой оценкой параметра
если её выборочное математическое ожидание равно оцениваемому параметру генеральной совокупности:
Отсюда следует, что
где φi – это величина смещения оценки.
Рассмотрим свойство несмещённости МНК-оценок на примере модели парной регрессии.
Необходимо доказать, что оценка
полученная методом наименьших квадратов, является несмещённой оценкой параметра β1 для нормальной линейной модели регрессии, т. е. необходимо доказать справедливость равенства
Доказательство. Проведём доказательство утверждения
через ковариационную матрицу:
То же самое утверждение
можно доказать в более развёрнутом виде:
Следовательно, оценка
полученная методом наименьших квадратов, является несмещённой оценкой коэффициента β1 нормальной линейной модели парной регрессии.
Свойство несмещённости оценки
коэффициента β0нормальной линейной модели парной регрессии, полученной методом наименьших квадратов, доказывается аналогично.
Для модели множественной регрессии доказательство свойства несмещённости оценок параметров βi, полученных методом наименьших квадратов, целесообразно провести в матричной форме:
Следовательно, оценки
полученные методом наименьших квадратов, являются несмещёнными оценками коэффициентов βiнормальной линейной модели множественной регрессии.
Величина
является состоятельной оценкой параметра
если она удовлетворяет закону больших чисел. Суть закона больших чисел состоит в том, что с увеличением выборочной совокупности значение оценки
стремится к значению параметра
генеральной совокупности:
Условие состоятельности можно также записать через теорему Бернулли:
т. е. значение оценки
сходится по вероятности к значению параметра
генеральной совокупности, при условии, что объём выборочной совокупности стремится к бесконечности.
На практике оценка
полученная методом наименьших квадратов, считается состоятельной оценкой параметра,
если выполняются два условия:
1) смещение оценки равно нулю или стремится к нему при объёме выборки, стремящемся к бесконечности:
2) дисперсия оценки параметра
стремится к нулю при объёме выборки, стремящемся к бесконечности:
Рассмотрим свойство состоятельности МНК-оценок на примере модели парной регрессии.
Необходимо доказать, что оценка
полученная методом наименьших квадратов, является состоятельной оценкой параметра β1для нормальной линейной модели регрессии.
Доказательство. Докажем первое условие состоятельности для МНК-оценки
Докажем второе условие состоятельности для МНК-оценки
МНК-оценка
подчиняется нормальному закону распределения с математическим ожиданием β1 и дисперсией
или
где индекс 22 указывает на расположение дисперсии параметра β1в матрице ковариаций.
Свойство состоятельности оценки
коэффициента β0 нормальной линейной модели парной регрессии, полученной методом наименьших квадратов, доказывается аналогично.
Оценка стандартной ошибки МНК-оценки
определяется по формуле:
Для модели множественной регрессии доказательство свойства несмещённости оценок параметров βi, полученных методом наименьших квадратов, целесообразно провести в матричной форме:
Следовательно, оценки
полученные методом наименьших квадратов, являются несмещёнными оценками коэффициентов βiнормальной линейной модели множественной регрессии.
Эффективность МНК-оценок доказывается с помощью теоремы Гаусса-Маркова.
17. Эффективность МНК-оценок МНК
Свойство эффективности оценок неизвестных параметров модели регрессии, полученных методом наименьших квадратов, доказывается с помощью теоремы Гаусса-Маркова.
Сделаем следующие предположения о модели парной регрессии:
1) факторная переменная xi– неслучайная или детерминированная величина, которая не зависит от распределения случайной ошибки модели регрессии βi;
2) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:
3) дисперсия случайной ошибки модели регрессии постоянна для всех наблюдений:;
4) между значениями случайных ошибок модели регрессии в любых двух наблюдениях отсутствует систематическая взаимосвязь, т. е. случайные ошибки модели регрессии не коррелированны между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю):
Это условие выполняется в том случае, если исходные данные не являются временными рядами;
5) на основании третьего и четвёртого условий часто добавляется пятое условие, заключающееся в том, что случайная ошибка модели регрессии – это случайная величина, подчиняющейся нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2: εi~N(0, G2).
Если выдвинутые предположения справедливы, то оценки неизвестных параметров модели парной регрессии, полученные методом наименьших квадратов, имеют наименьшую дисперсию в классе всех линейных несмещённых оценок, т. е. МНК-оценки можно считать эффективными оценками неизвестных параметров β0 и β1.
Если выдвинутые предположения справедливы для модели множественной регрессии, то оценки неизвестных параметров данной модели регрессии, полученные методом наименьших квадратов, имеют наименьшую дисперсию в классе всех линейных несмещённых оценок, т. е. МНК-оценки можно считать эффективными оценками неизвестных параметров β0…βn.
Для обозначения дисперсий МНК-оценок неизвестных параметров модели регрессии используется матрица ковариаций.
Матрицей ковариаций МНК-оценок параметров линейной модели парной регрессии называется выражение вида:
где
– дисперсия МНК-оценки параметра модели регрессии β0;
– дисперсия МНК-оценки параметра модели регрессии β1.
Матрицей ковариаций МНК-оценок параметров линейной модели множественной регрессии называется выражение вида:
где G2(ε) – это дисперсия случайной ошибки модели регрессии ε.
Для линейной модели парной регрессии дисперсии оценок неизвестных параметров определяются по формулам:
1) дисперсия МНК-оценки коэффициента модели регрессии β0:
2) дисперсия МНК-оценки коэффициента модели регрессии β1:
где G2(ε) – дисперсия случайной ошибки уравнения регрессии β;
G2(x) – дисперсия независимой переменой модели регрессии х;
n – объём выборочной совокупности.
В связи с тем, что на практике значение дисперсии случайной ошибки модели регрессии G2(ε) неизвестно, для вычисления матрицы ковариаций МНК-оценок применяют оценку дисперсии случайной ошибки модели регрессии S2(ε).
Для линейной модели парной регрессии оценка дисперсии случайной ошибки определяется по формуле:
где
– это остатки регрессионной модели, которые рассчитываются как
Тогда оценка дисперсии МНК-оценки коэффициента β0 линейной модели парной регрессии будет определяться по формуле:
Оценка дисперсии МНК-оценки коэффициента β1линейной модели парной регрессии будет определяться по формуле:
Для модели множественной регрессии общую формулу расчёта матрицы ковариаций МНК-оценок коэффициентов на основе оценки дисперсии случайной ошибки модели регрессии можно записать следующим образом:
18. Характеристика качества модели регрессии
Качеством модели регрессии называется адекватность построенной модели исходным (наблюдаемым) данным.
Для оценки качества модели регрессии используются специальные показатели.
Качество линейной модели парной регрессии характеризуется с помощью следующих показателей:
1) парной линейный коэффициент корреляции, который рассчитывается по формуле:
где G(x) – среднеквадратическое отклонение независимой переменной;
G(y) – среднеквадратическое отклонение зависимой переменной.
Также парный линейный коэффициент корреляции можно рассчитать через МНК-оценку коэффициента модели регрессии
по формуле:
Парный линейный коэффициент корреляции характеризует степень тесноты связи между исследуемыми переменными. Он рассчитывается только для количественных переменных. Чем ближе модуль значения коэффициента корреляции к единице, тем более тесной является связь между исследуемыми переменными. Данный коэффициент изменяется в пределах [-1; +1]. Если значение коэффициента корреляции находится в пределах от нуля до единицы, то связь между переменными прямая, т. е. с увеличением независимой переменной увеличивается и зависимая переменная, и наборот. Если коэффициент корреляции находится в пределах от минус еиницы до нуля, то связь между переменными обратная, т. е. с увеличением независимой переменной уменьшается зависимая переменная, и наоборот. Если коэффициент корреляции равен нулю, то связь между переменными отсутствует. Если коэффициент корреляции равен единице или минус единице, то связь между переменными существует функциональная связь, т. е. изменения независимой и зависимой переменных полностью соответствуют друг другу.
2) коэффициент детерминации рассчитывается как вадрат парного линейного коэффициента корреляции и обозначается как ryx2. Данный коэффициент характеризует в процентном отношении вариацию зависимой переменной, объяснённой вариацией независимой переменной, в общем объёме вариации.
Качество линейной модели множественной регрессии характеризуется с помощью показателей, построенных на основе теоремы о разложении дисперсий.
Теорема. Общая дисперсия зависимой переменной может быть разложена на объяснённую и необъяснённую построенной моделью регрессии дисперсии:
G2(y)=σ2(y)+δ2(y),
где G2(y) – это общая дисперсия зависимой переменной;
σ2(y) – это объяснённая с помощью построенной модели регрессии дисперсия переменной у, которая рассчитывается по формуле:
δ2(y) – необъяснённая или остаточная дисперсия переменной у, которая рассчитывается по формуле:
С использованием теоремы о разложении дисперсий рассчитываются следующие показатели качества линейной модели множественной регрессии:
1) множественный коэффициент корреляции между зависимой переменной у и несколькими независимыми переменными хi:
Данный коэффициент характеризует степень тесноты связи между зависимой и независимыми переменными. Свойства множественного коэффициента корреляции аналогичны свойствам линейнойго парного коэффициента корреляции.
2) теоретический коэффициент детерминации рассчитывается как квадрат множественного коэффициента корреляции:
Данный коэффициент характеризует в процентном отношении вариацию зависимой переменной, объяснённой вариацией независимых переменных;
3) показатель
характеризует в процентном отношении ту долю вариации зависимой переменной, которая не учитывается а построенной модели регрессии;
4) среднеквадратическая ошибка модели регрессии (Mean square error – MSE):
где h– это количество параметров, входящих в модель регрессии.
Если показатель среднеквадратической ошибки окажется меньше показателя среднеквадратического отклонения наблюдаемых значений зависимой переменной от модельных значений β(у), то модель регрессии можно считать качественной.
Показатель среднеквадратического отклонения наблюдаемых значений зависимой переменной от модельных значений рассчитывается по формуле:
5) показатель средней ошибки аппроксимации рассчитывается по формуле:
Если величина данного показателя составляет менее 6-7%, то качество построенной модели регрессии считается хорошим. Максимально допустимым значением показателя средней ошибки аппроксимации считается 12-15 %.
19. Понятие статистической гипотезы. Общая постановка задачи проверки статистической гипотезы
Проверка статистических гипотез – это один из основных методов математической статистики, который используется в эконометрике.
С помощью методов математической статистики можно проверить предположения о законе распределения некоторой случайной величины (генеральной совокупности), о значениях параметров этого закона (например, математического ожидания или дисперсии), о наличии корреляционной зависимости между случайными величинами, определенными на множестве объектов одной и той же генеральной совокупности.
Предположим, что на основании имеющихся данных у исследователя есть основания выдвинуть предположения о законе распределения или о параметре закона распределения случайной величины (или генеральной совокупности, на множестве объектов которой определена эта случайная величина). Задача проверки статистической гипотезы заключается в подтверждении или опровержении этого предположения на основании выборочных (экспериментальных) данных.
Статистической гипотезой называется любое предположение о виде неизвестного закона распределения или о параметрах известных распределений.
Параметрической гипотезой называется гипотеза о значениях параметров распределения или о сравнительной величине параметров двух распределений.
Примером параметрической статистической гипотезы является гипотеза о равенстве математических ожиданий двух нормальных совокупностей.
Непараметрическими гипотезами называются гипотезы о виде распределения случайной величины.
Проверка статистической гипотезы означает проверку соответствия выборочных данных выдвинутой гипотезе.
Параллельно с выдвигаемой основной гипотезой рассматривают и противоречащую ей гипотезу, которая называется конкурирующей или альтернативной. Противоречащая гипотеза считается справедливой, если основная выдвинутая гипотеза отвергается.
Нулевой, основной или проверяемой гипотезой называется первоначально выдвинутая гипотеза, которая обозначается Н0.
Конкурирующей или альтернативной гипотезой называется гипотеза, которая противоречит основной гипотезе Н0 и обозначается Н1.
Например, основная гипотеза Н0 состоит в том, что математическое ожидание μ равно значению μ0. В этом случае конкурирующая гипотеза Н1 может состоять в предположении, что математическое ожидание μ не равно (больше или меньше) значения μ0:
Н0: μ=μ0;
Н1: μ≠μ0,
или
Н1: μ>μ0,
или
Н1: μ<μ0.
Простой гипотезой называется гипотеза, которая содержит только одно предположение. Например, гипотеза о том, что параметр распределения Пуассона λ равен значению λ0, является простой. Основная гипотеза о том, что математическое ожидание нормального распределения равно 5 (при известной дисперсии), т.е.
Н0: а=5,
также является простой.
Сложной гипотезой называется гипотеза, которая состоит из нескольких простых гипотез. Например, сложная гипотеза вида:
Н0: λ>4,
состоит из множества простых гипотез вида:
Н0: λ>m,
где m – это люблое число, большее четырёх.
20. Ошибки первого и второго рода. Понятие о статистических критериях. Критическая область, критические точки
Проверка статистической гипотезы означает проверку согласования исходных выборочных данных с выдвинутой основной гипотезой. При этом возможно возникновение двух ситуаций – основная гипотеза может подтвердиться, а может и опровергнуться. Следовательно, при проверке статистических гипотез существует вероятность допустить ошибку, приняв или опровергнув верную гипотезу.
При проверке статистических гипотез можно допустить ошибки первого или второго рода
Ошибкой первого рода называется ошибка, состоящая в опровержении верной гипотезы.
Ошибкой второго рода называется ошибка, состоящая в принятии ложной гипотезы.
Уровнем значимостиа называется вероятность совершения ошибки первого рода.
Значение уровеня значимости а обычно задаётся близким к нулю (например, 0,05; 0,01;0,02 и т. д.), потому что чем меньше значение уровеня значимости, тем меньше вероятность совершения ошибки первого рода, состоящую в опровержении верной гипотезы Н0.
Вероятность совершения ошибки второго рода, т. е. принятия ложной гипотезы, обозначается β.
При проверке нулевой гипотезы Н0возможно возникновение следующих ситуаций:
Проверка справедливости сттатистическвх гипотез осуществляется с помощью различных статистических критериев.
Статистическим критерием называется случайная величина, которая используется с целью проверки нулевой гипотезы.
Статистические критерии называются соответственно тому закону распределения, которому они подчиняются, т. е. F-критерий подчиняется распределению Фишера-Снедекора, χ2-критерий подчиняется χ2-распределению, Т-критерий подчиняется распределению Стьюдента, U-критерий подчиняется нормальному распределению.
Наблюдаемым значением статистического критерия называется значение критерия, которое рассчитано по выборочной совокупности, подчиняющейся определённому закону распределения.
Множество всех возможных значений выбранного статистического критерия делится на два непересекающихся подмножества. Первое подмножество включает в себя те значения критерия, при которых основная гипотеза отвергается, а второе подмножество – те значения критерия, при которых основная гипотеза принимается.
Критической областью называется множество возможных значений статистического критерия, при которых основная гипотеза отвергается.
Областью принятия гипотезы или областью допустимых значений называется множество возможных значений статистического критерия, при которых основная гипотеза принимается.
Если наблюдаемое значение статистического критерия, рассчитанное по данным выборочной совокупности, принадлежит критической области, то основная гипотеза отвергается. Если наблюдаемое значение статистического критерия принадлежит области принятия гипотезы, то основная гипотеза принимается.
Критическими точками или квантилями называются точки, разграничивающие критическую область и область принятия гипотезы.
Критические области могут быть как односторонними, так и двусторонними.
21. Правосторонняя критическая область. Левосторонняя и двусторонняя критические области. Мощность критерия
При проверке статистических гипотез используют правосторонние, левосторонние и двусторонние критические области.
Правосторонняя критическая область характеризуется неравенством вида:
L>lкр,
где L – это наблюдаемое значение статистического критерия, вычисленное по данным выборки;
lкр, – это положительное значение статистического критерия, определяемое по таблице распределения данного критерия.
Следовательно, для определения правосторонней критической области необходимо рассчитать положительное значение статистического критерия lкр.
Предположим, что вероятность совершения ошибки первого рода или уровень значимости равен значению а. При условии справедливости основной гипотезы Н0, вероятность того, что значение статистического критерия L будет больше значения lкр, равна заданному уровню значимости, т.е. P(L>lкр)=a.
Для каждого статистического критерия рассчитаны специальные таблицы, с помощью которых определяют критическую точку, удовлетворяющую заданному уровню значимости.
Левосторонняя критическая область характеризуется неравенством вида:
L<lкр,
где L – это наблюдаемое значение статистического критерия, вычисленное по данным выборки;
lкр, — это отрицательное значение статистического критерия, определяемое по таблице распределения данного критерия.
Следовательно, для определения левосторонней критической области необходимо найти рассчитать отрицательное значение статистического критерия lкр.
Предположим, что вероятность совершения ошибки первого рода или уровень значимости равен значению а. При условии справедливости основной гипотезы Н0, вероятность того, что значение статистического критерия L будет меньше значения lкр, равна заданному уровню значимости, т.е. P(L<lкр)=a.
Двусторонняя критическая область характеризуется двумя неравенствами вида:
L>lкр1 и L<lкр2,
где L – это наблюдаемое значение статистического критерия, вычисленное по данным выборки;
lкр1 – это положительное значение статистического критерия, определяемое по таблице распределения данного критерия;
lкр2 — это отрицательное значение статистического критерия, определяемое по таблице распределения данного критерия;
lкр1> lкр2.
Предположим, что вероятность совершения ошибки первого рода или уровень значимости равен значению а. При условии справедливости основной гипотезы Н0, сумма вероятностей того, что значение статистического критерия L будет больше значения lкр1 или меньше значения lкр2, равна заданному уровню значимости, т.е. P(L>lкр1)+(L<lкр2)=a.
Выбор критической области осуществляется исходя из вида конкурирующей гипотезы Н1. При этом применяются следующие правила:
1) правосторонняя критическая область выбирается в том случае, если Н1:>;
2) левосторонняя критическая область выбирается в том случае, если Н1:‹;
3) двусторонняя критическая область выбирается в том случае, если Н1:≠.
Предположим, что заданы следующие параметры:
1) статистический критерий L;
2) критическая область W, где H0 отклоняется;
3) область принятия гипотезы
где H0 не отклоняется;
4) вероятность совершить ошибку первого рода a;
5) вероятность совершить ошибку второго рода β.
Тогда справедливо утверждение о том, что выражение
является вероятностью того, что статистический критерий L попадёт в критическую область, если верна гипотеза H.
При построении критической области учитываются два требования:
1) вероятность того, что статистический критерий L попадёт в критическую область, если верна Н0, равна а:
данное равенство задаёт вероятность совершения ошибки первого рода;
2) вероятность того, что статистический критерий L попадёт в критическую область (область отклонения гипотезы Н0 в пользу гипотезы Н1), если верна гипотеза Н1:
данное равенство задаёт вероятность принятия правильной гипотезы.
Мощностью статистического критерия называется вероятность попадания данного критерия в критическую область, при условии, что справедлива конкурирующая гипотеза Н1, т. е.выражение 1-β является мощностью критерия.
Если уровень значимости уже выбран, то критическую область следует строить так, чтобы мощность критерия была максимальной. Выполнение этого требования обеспечивает минимальную ошибку второго рода, состоящую в том, что будет принята неправильная гипотеза.
22. Проверка гипотезы о значимости коэффициентов модели парной регрессии
Проверкой статистической гипотезы о значимости отдельных параметров модели называется проверка предположения о том, что данные параметры значимо отличаются от нуля.
Необходимость проверки гипотез о значимости параметров модели вызвана тем, что в дальнейшем построенную модель будут использовать для дальнейших экономических расчётов.
Предположим, что по данным выборочной совокупности была построена линейная модель парной регрессии. Задача состоит в проверке значимости оценок неизвестных коэффициентов модели, полученных методом наименьших квадратов.
Основная гипотеза состоит в предположении о незначимости коэффициентов регрессии, т. е.
Н0:β0=0, или Н0:β1=0.
Обратная или конкурирующая гипотеза состоит в предположении о значимости коэффициентов регрессии, т.е.
Н1:β0≠0, или Н1:β1≠0.
Данные гипотезы проверяются с помощью t-критерия Стьюдента.
Наблюдаемое значение t-критерия (вычисленное на основе выборочных данных) сравнивают со значением t-критерия, которое определяется по таблице распределения Стьюдента и называется критическим.
Критическое значение t-критерия зависит от уровня значимости и числа степеней свободы.
Уровнем значимостиа называется величина, которая рассчитывается по формуле:
а=1-γ,
где γ – это доверительная вероятность попадания оцениваемого параметра в доверительный интервал. Значение доверительной вероятности должно быть близким к единице, например, 0.95, 0.99. Следовательно, уровень значимости а можно определить как вероятность того, что оцениваемый параметр не попадёт в доверительный интервал.
Числом степеней свободы называется показатель, который рассчитывается как разность между объёмом выборочной совокупности n и числом оцениваемых параметров по данной выборке h. Для линейной модели парной регрессии число степеней свободы рассчитывается как (n-2), потому что по данным выборочной совокупности оцениваются только два параметра – β0 и β1.
Таким образом, критическое значение t-критерия Стьюдента определяется как tкрит(а;n-h).
При проверке основной гипотезы вида Н0:β1=0 наблюдаемое значение t-критерия Стьюдента рассчитывается по формуле:
где – оценка параметра модели регрессии β1;
ω(β1) – величина стандартной ошибки параметра модели регрессии β1.
Показатель стандартной ошибки параметра модели регрессии β1 для линейной модели парной регрессии рассчитывается по формуле:
Числитель стандартной ошибки может быть рассчитан через парный коэффициент детерминации следующим образом:
где G2(y) – общая дисперсия зависимой переменной;
r2yx – парный коэффициент детерминации между зависимой и независимой переменными.
При проверке основной гипотезы β0=0 наблюдаемое значение t-критерия Стьюдента рассчитывается по формуле:
где
– оценка параметра модели регрессии β0;
ω(β0) – величина стандартной ошибки параметра модели регрессии β0.
Показатель стандартной ошибки параметра β0 модели регрессии для линейной модели парной регрессии рассчитывается по формуле:
При проверке основных гипотез возможны следующие ситуации:
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю больше критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. |tнабл|›tкрит, то с вероятностью (1-а) или γ основная гипотеза о незначимости параметров модели регрессии отвергается.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю меньше или равно критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. |tнабл|≤tкрит, то с вероятностью а или (1-γ) основная гипотеза о незначимости параметров модели регрессии принимается.
23. Проверка гипотезы о значимости парного коэффициента корреляции
Предположим, что по данным выборочной совокупности была построена линейная модель парной регрессии. Задача состоит в проверке значимости парного коэффициента корреляции между результативной переменной у и факторной переменной х.
Основная гипотеза состоит в предположении о незначимости парного коэффициента корреляции, т. е.
Н0:rxy=0.
Обратная или конкурирующая гипотеза состоит в предположении о значимости парного коэффициента корреляции, т. е.
Н1:rxy≠0.
Данные гипотезы проверяются с помощью t-критерия Стьюдента.
Наблюдаемое значение t-критерия (вычисленное на основе выборочных данных) сравнивают с критическим значением t-критерия, которое определяется по таблице распределения Стьюдента.
При проверке значимости парного коэффициента корреляции критическое значение t-критерия определяется как tкрит(a;n-h), где а – уровень значимости, (n-h) – число степеней свободы, которое определяется по таблице распределений t-критерия Стьюдента.
При проверке основной гипотезы вида Н0:rxy=0 наблюдаемое значение t-критерия Стьюдента рассчитывается по формуле:
где ryx – выборочный парный коэффициент корреляции между результативной переменной у и факторной переменной х, который рассчитывается по формуле:
ω(ryx) – величина стандартной ошибки парного выборочного коэффициента корреляции.
Показатель стандартной ошибки парного выборочного коэффициента корреляции для линейной модели парной регрессии рассчитывается по формуле:
Если данное выражение подставить в формулу для расчёта наблюдаемого значения t-критерия для проверки гипотезы вида Н0:rxy=0, то получим:
При проверке основной гипотезы возможны следующие ситуации:
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю больше критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е.
tнабл|>tкрит, то с вероятностью (1-а) или γ основная гипотеза о незначимости парного коэффициента корреляции отвергается.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю меньше или равно критического значения t-критерия (определённого по таблице распределения Стьюдента), т.е. |tнабл|≤tкрит, то с вероятностью а или (1-γ) основная гипотеза о незначимости парного коэффициента корреляции принимается. В этом случае корреляционная зависимость между исследуемыми переменными отсутствует, и продолжение регрессионного анализа считается нецелесообразным.
Применение t-статистики Стьюдента для проверки гипотезы вида Н0:rxy=0 основано на выполнении двух условий:
1) если объём выборочной совокупности достаточно велик (n≥30);
2) коэффициент корреляции по модулю значительно меньше единицы:
0,45≤|ryx|≤0.75.
В том случае, если модуль парного выборочного коэффициента корреляции близок к единице, то гипотеза вида Н0:rxy=0 также может быть проверена с помощью z-статистики. Данный метод оценки значимости парного коэффициента корреляции был предложен Р. Фишером.
Между величиной z и парным выборочным коэффициентом корреляции существует отношение вида:
В связи с тем, что величина z является нормально распределённой величиной, то проверка основной гипотезы о незначимости парного коэффициента корреляции сводится к провреке основной гипотезы о незначимости величины z:
Н0:z=0.
Обратная или конкурирующая гипотеза состоит в предположении о значимости величины z, т. е.
Н1:z≠0.
Данные гипотезы проверяются с помощью t-критерия Стьюдента.
Наблюдаемое значение t-критерия (вычисленное на основе выборочных данных) сравнивают с критическим значением t-критерия, которое определяется по таблице распределения Стьюдента.
Критическое значение критерия tкрит определяют по таблице нормального распределения (z-распределения) с доверительной вероятностью γ или (1-a).
При проверке основной гипотезы вида Н0:z=0 наблюдаемое значение t-критерия Стьюдента рассчитывается по формуле:
где β(z) – это величина стандартной ошибки величины z.
Показатель стандартной ошибки величины z для линейной модели парной регрессии рассчитывается по формуле:
При проверке основной гипотезы возможны следующие ситуации:
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю больше критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. |tнабл|>tкрит, то с вероятностью (1-а) или γ основная гипотеза о незначимости парного коэффициента корреляции отвергается.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю меньше или равно критического значения t-критерия (определённого по таблице распределения Стьюдента), т.е. |tнабл|≤tкрит, то с вероятностью а или (1-γ) основная гипотеза о незначимости парного коэффициента корреляции принимается. В этом случае корреляционная зависимость между исследуемыми переменными отсутствует, и продолжение регрессионного анализа считается нецелесообразным.
24. Проверка гипотезы о значимости модели парной регрессии. Теорема о разложении сумм квадратов
Проверка гипотезы о значимости линейной модели парной регрессии состоит в проверке гипотез о значимости коэффициентов регрессии β0 и β1 или значимости парного коэффициента детерминации r2yx.
Если проверка значимости модели парной регрессии в целом осуществляется через проверку гипотез о значимости коэффициентов регрессии, то выдвигаются основные гипотезы вида Н0:β0=0, или Н0:β1=0, утверждающие, что коэффициенты регрессии являются незначимыми, и, следовательно, модель парной регрессии в целом также является незначимой.
Обратные или конкурирующие гипотезы вида Н1:β0≠0, или Н1:β1≠0 утверждают, что коэффициенты регрессии являются значимыми, и, следовательно, модель парной регрессии в целом также является значимой.
Если проверка значимости модели парной регрессии в целом осуществляется через проверку гипотезы о значимости парного коэффициента детерминации, то выдвигается основная гипотеза вида H0:r2yx=0, утверждающая, что парный коэффициент детерминации является незначимым, и, следовательно, модель парной регрессии в целом также является незначимой.
Обратная или конкурирующая гипотеза вида H0:r2yx≠0, утверждает, что парный коэффициент детерминации является значимым, и, следовательно, модель регрессии в целом также является значимой.
Проверка выдвинутых гипотез осуществляется с помощью F-критерия Фишера-Снедекора.
Наблюдаемое значение F-критерия (вычисленное на основе выборочных данных) сравнивают с критическим значением F-критерия, которое определяется по таблице распределения Стьюдента.
Критическое значение F-критерия определяется по таблице распределения Фишера-Снедекора в зависимости от: уровня значимости а и числа степеней свободы k1=h-1 и k2=n-h, где n – это объём выборочной совокупности, а h – число оцениваемых по данной выборке параметров.
При проверке гипотезы о значимости модели парной регрессии в целом критическое значение F-критерия определяется как Fкрит(а;n-2).
При проверке основных гипотез о незначимости модели парной регрессии в целом наблюдаемое значение F-критерия рассчитывается по формуле:
При проверке основной гипотезы возможны следующие ситуации:
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл›Fкрит, то с вероятностью а основная гипотеза о незначимости коэффициентов модели регрессии или парного коэффициента детерминации отвергается, и, следовательно, модель регрессии в целом признаётся значимой.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл>Fкрит, то с вероятностью а основная гипотеза о незначимости коэффициентов модели регрессии или парного коэффициента детерминации отвергается, и, следовательно, модель регрессии в целом признаётся значимой.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т.е. Fнабл<Fкрит, то с вероятностью (1-а) основная гипотеза о незначимости коэффициентов модели регрессии или парного коэффициента детерминации принимается, и, следовательно, модель регрессии в целом признаётся незначимой.
Коэффициент детерминации может быть рассчитан не только как квадрат линейного коэффициента парной корреляции или через теорему о разложении общей дисперсии результативной переменной на составляющие, но и через теорему о разложении сумм квадратов результативной переменной.
Теорема. Сумма квадратов разностей между значениями результативной переменной и её средним значением по выборочной совокупности может быть представлена следующим образом:
где
– общая сумма квадратов (Total Sum Square – TSS);
– сумма квадратов остатков (Error Sum Square – ESS);
– сумма квадратов объяснённой регрессии (Regression Sum Square – RSS).
Представим данную теорему в векторной форме:
Общую сумму квадратов можно представить следующим образом:
Если в модель регрессии не включается свободный член β0, то данное разложение также остаётся верным.
Парный коэффициент детерминации может быть рассчитан через теорему о о разложении сумм квадратов результативной переменной по следующим формулам:
или
25. Точечный и интервальный прогнозы для модели парной регрессии
Одна из задач эконометрического моделирования заключается в прогнозировании поведения исследуемого явления или процесса в будущем. В большинстве случаев данная задача решается на основе регрессионных моделей, с помощью которых можно спрогнозировать поведение результативной переменной в зависимости от поведения факторных переменных.
Рассмотрим подробнее процесс прогнозирования для линейной модели парной регрессии.
Точечный прогноз результативной переменной у на основе линейной модели парной регрессии при заданном значении факторной переменной хm будет осуществляться по формуле:
ym=β0+β1xm+εm.
Точечный прогноз результативной переменной ym с доверительной вероятностью γ или (1–а) попадает в интервал прогноза, определяемый как:
ym–t*ω(m)≤ ym≤ ym+t*ω(m),
t – t-критерий Стьюдента, который определяется в зависимости от заданного уровня значимости a и числа степеней свободы (n-2) для линейной модели парной регрессии;
ω(m) – величина ошибки прогноза в точке m.
Для линейной модели парной регрессии величина ошибки прогноза определяется по формуле:
где S2(ε) – несмещённая оценка дисперсии случайной ошибки линейной модели парной регрессии.
Рассмотрим процесс определения величины ошибки прогноза β(m).
Предположим, что на основе выборочных данных была построена линейная модель парной регрессии вида:
Факторная переменная х в данной модели представлена в центрированном виде.
Задача состоит в расчёте прогноза результативной переменной у при заданном значении факторной переменной хm, т. е.
Математическое ожидание результативной переменной у в точке m рассчитывается по формуле:
Дисперсия результативной переменной у в точке m рассчитывается по формуле:
где D(β0) – дисперсия оценки параметра β0 линейной модели парной регрессии, которая рассчитывается по формуле:
Следовательно, точечная оценка прогноза результативной переменной у в точке m имеет нормальный закон распределения с математическим ожиданием
и дисперсией
Если в формулу дисперсии результативной переменной у в точке m вместо дисперсии G2 подставить её выборочную оценку S2, то получим доверительный интервал для прогноза результативной переменной у при заданном значении факторной переменной хm:
где выборочная оценка генеральной дисперсии S2 для линейной модели парной регрессии рассчитывается по формуле:
В этом случае прогнозный интервал можно преобразовать к виду:
что и требовалось доказать.
26. Линейная модель множественной регрессии
Построение модели множественной регрессии является одним из методов характеристики аналитической формы связи между зависимой (результативной) переменной и несколькими независимыми (факторными) переменными.
Модель множественной регрессии строится в том случае, если коэффициент множественной корреляции показал наличие связи между исследуемыми переменными.
Общий вид линейной модели множественной регрессии:
yi=β0+β1x1i+…+βmxmi+εi,
где yi – значение i-ой результативной переменной,
x1i…xmi – значения факторных переменных;
β0…βm – неизвестные коэффициенты модели множественной регрессии;
εi – случайные ошибки модели множественной регрессии.
При построении нормальной линейной модели множественной регрессии учитываются пять условий:
1) факторные переменные x1i…xmi – неслучайные или детерминированные величины, которые не зависят от распределения случайной ошибки модели регрессии βi;
2) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:
3) дисперсия случайной ошибки модели регрессии постоянна для всех наблюдений:
4) между значениями случайных ошибок модели регрессии в любых двух наблюдениях отсутствует систематическая взаимосвязь, т.е. случайные ошибки модели регрессии не коррелированны между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю):
Это условие выполняется в том случае, если исходные данные не являются временными рядами;
5) на основании третьего и четвёртого условий часто добавляется пятое условие, заключающееся в том, что случайная ошибка модели регрессии – это случайная величина, подчиняющейся нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2: εi~N(0, G2).
Общий вид нормальной линейной модели парной регрессии в матричной форме:
Y=X* β+ε,
Где
– случайный вектор-столбец значений результативной переменной размерности (n*1);
– матрица значений факторной переменной размерности (n*(m+1)). Первый столбец является единичным, потому что в модели регрессии коэффициент β0 умножается на единицу;
– вектор-столбец неизвестных коэффициентов модели регрессии размерности ((m+1)*1);
– случайный вектор-столбец ошибок модели регрессии размерности (n*1).
Включение в линейную модель множественной регрессии случайного вектора-столбца ошибок модели обусловлено тем, что практически невозможно оценить связь между переменными со 100-процентной точностью.
Условия построения нормальной линейной модели множественной регрессии, записанные в матричной форме:
1) факторные переменные x1j…xmj – неслучайные или детерминированные величины, которые не зависят от распределения случайной ошибки модели регрессии εi. В терминах матричной записи Х называется детерминированной матрицей ранга (k+1), т.е. столбцы матрицы X линейно независимы между собой и ранг матрицы Х равен m+1<n;
2) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:
3) предположения о том, что дисперсия случайной ошибки модели регрессии является постоянной для всех наблюдений и ковариация случайных ошибок любых двух разных наблюдений равна нулю, записываются с помощью ковариационной матрицы случайных ошибок нормальной линейной модели множественной регрессии:
где
G2 – дисперсия случайной ошибки модели регрессии ε;
In – единичная матрица размерности (n*n).
4) случайная ошибка модели регрессии ε является независимой и независящей от матрицы Х случайной величиной, подчиняющейся многомерному нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2: ε→N(0;G2In.
В нормальную линейную модель множественной регрессии должны входить факторные переменные, удовлетворяющие следующим условиям:
1) данные переменные должны быть количественно измеримыми;
2) каждая факторная переменная должна достаточно тесно коррелировать с результативной переменной;
3) факторные переменные не должны сильно коррелировать друг с другом или находиться в строгой функциональной зависимости.
27. Классический метод наименьших квадратов для модели множественной регрессии. Метод Крамера
В общем виде линейную модель множественной регрессии можно записать следующим образом:
yi=β0+β1x1i+…+βmxmi+εi,
где yi – значение i-ой результативной переменной,
x1i…xmi – значения факторных переменных;
β0…βm – неизвестные коэффициенты модели множественной регрессии;
εi – случайные ошибки модели множественной регрессии.
В результате оценивания данной эконометрической модели определяются оценки неизвестных коэффициентов. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). Суть метода наименьших квадратов состоит в том, чтобы найти такой вектор β оценок неизвестных коэффициентов модели, при которых сумма квадратов отклонений (остатков) наблюдаемых значений зависимой переменной у от расчётных значений ỹ (рассчитанных на основании построенной модели регрессии) была бы минимальной.
Матричная форма функционала F метода наименьших квадратов:
где
– случайный вектор-столбец значений результативной переменной размерности (n*1);
– матрица значений факторной переменной размерности (n*(m+1)). Первый столбец является единичным, потому что в модели регрессии коэффициент β0 умножается на единицу;
В процессе минимизации функции (1) неизвестными являются только значения коэффициентов β0…βm, потому что значения результативной и факторных переменных известны из наблюдений. Для определения минимума функции (1) необходимо вычислить частные производные этой функции по каждому из оцениваемых параметров и приравнять их к нулю. Результатом данной процедуры будет стационарная система уравнений для функции (1):
где
– вектор-столбец неизвестных коэффициентов модели регрессии размерности ((m+1)*1);
Общий вид стационарной системы уравнений для функции (1):
Решением стационарной системы уравнений будут МНК-оценки неизвестных параметров линейной модели множественной регрессии:
Оценим с помощью метода наименьших квадратов неизвестные параметры линейной модели двухфакторной регрессии:
yi=β0+β1x1i+β2x2i+εi,
где
Чтобы рассчитать оценки неизвестных коэффициентов β0,β1 и β2 данной двухфакторной модели регрессии, необходимо минимизировать функционал F вида:
Для определения экстремума функции нескольких переменных, частные производные по этим переменным приравниваются к нулю. Результатом данной процедуры будет стационарная система уравнений для модели множественной линейной регрессии с двумя переменными:
В результате элементарных преобразований данной стационарной системы уравнений получим систему нормальных уравнений:
Данная система называется системой нормальных уравнений относительно коэффициентов
для модели регрессии yi=β0+β1x1i+β2x2i+εi.
Полученная система нормальных уравнений является квадратной, т. к. количество уравнений равняется количеству неизвестных переменных, поэтому коэффициенты
можно рассчитать с помощью метода Крамера или метода Гаусса.
Рассмотрим подробнее метод Крамера решения квадратных систем нормальных уравнений.
Единственное решение квадратной системы линейных уравнений определяется по формуле:
где Δ – основной определитель квадратной системы линейных уравнений;
Δj – определитель, полученный из основного определителя путём замены j-го столбца на столбец свободных членов.
При использовании метода Крамера возможно возникновение следующих ситуаций:
1) если основной определитель системы Δ равен нулю и все определители Δjтакже равны нулю, то данная система имеет бесконечное множество решений;
2) если основной определитель системы Δ равен нулю и хотя бы один из определителей Δjтакже равен нулю, то система решений не имеет.
28. Линейная модель множественной регрессии стандартизированного масштаба
Помимо классического метода наименьших квадратов для определения неизвестных параметров линейной модели множественной регрессии β0…βm используется метод оценки данных параметров через β-коэффициенты (коэффициенты модели регрессии в стандартных масштабах).
Построение модели множественной регрессии в стандартизированном или нормированном масштабе означает, что все переменные, включенные в модель регрессии, стандартизируются с помощью специальных формул.
Посредством процесса стандартизации точкой отсчёта для каждой нормированной переменной устанавливается её среднее значение по выборочной совокупности. При этом в качестве единицы измерения стандартизированной переменной принимается её среднеквадратическое отклонение σ.
Факторная переменная х переводится в стандартизированный масштаб по формуле:
где xij – значение переменной xjв i-том наблюдении;
G(xj) – среднеквадратическое отклонение факторной переменной xi;
Результативная переменная у переводится в стандартизированный масштаб по формуле:
где G(y) – среднеквадратическое отклонение результативной переменной у.
Если между исследуемыми переменными в исходном масштабе является линейной, то процесс стандартизации не нарушает этой связи, поэтому стандартизированные переменные будут связаны между собой линейно:
Неизвестные коэффициенты данной функции можно определить с помощью классического метода наименьших квадратов для линейной модели множественной регрессии. В этом случае минимизируется функционал F вида:
В результате минимизации данного функционала получим систему нормальных уравнений, переменными в которой будут являться парные коэффициенты корреляции между факторными и результативной переменной. Такой подход основывается на следующем равенстве:
Система нормальных уравнений для стандартизированной модели множественной регрессии имеет вид:
В связи с тем, что полученная система нормальных уравнений является квадратной (количество уравнений равняется количеству неизвестных переменных), то оценки коэффициентов
можно рассчитать с помощью метода Крамера, метода Гаусса или метода обратных матриц.
Рассчитанные из системы нормальных уравнений β-коэффициенты в стандартизированном масштабе необходимо перевести в масштаб исходных данных по формулам:
Рассмотрим метод Гаусса решения квадратных систем линейных уравнений. Суть данного метода заключается в том, что исходная квадратная система из n линейных уравнений с n неизвестными переменными преобразовывают к треугольному виду. Для этого в одном и уавнений системы оставляют все неизвестные переменные. В другом уравнении сокращают одну из неизвестных переменных для того, чтобы число неизвестных стало (n-1). В следующем уравнении сокращают две неизвестных переменных, чтобы число переменных стало (n-2). В результате данных преобразований исходная система уравнений примет треугольный вид, первое уравнение которой содержит все неизвестные, а последнее – только одну. В последнем уравнении системы остаётся (n-(n-1)) неизвестных переменных, т. е. одна неизвестная переменная, которая называется базисной. Дальнейшее решение сводится к выражению свободных (n-1) неизвестных переменных через базисную переменную и получению общего решения квадратной системы линейных уравнений.
29. Соизмеримые показатели тесноты связи
К соизмеримым показателям тесноты связи относятся:
1) коэффициенты частной эластичности;
2) стандартизированные частные коэффициенты регрессии;
3) частный коэффициент детерминации.
Если факторные переменные имеют несопоставимые единицы измерения, то связь между ними измеряется с помощью соизмеримых показателей тесноты связи. С помощью соизмеримых показателей тесноты связи характеризуется степень зависимости между факторной и результативной переменными в модели множественной регрессии.
Коэффициент частной эластичности рассчитывается по формуле:
где
– среднее значение факторной переменной xi по выборочной совокупности,
– среднее значение результативной переменной у по выборочной совокупности;
– первая производная результативной переменной у по факторной переменной х.
Частный коэффициент эластичности измеряется в процентах и характеризует объём изменения результативной переменной у при изменении на 1 % от среднего уровня факторной переменной xiпри условии постоянства всех остальных факторных переменных, включённых в модель регрессии.
Для линейной модели регрессии частный коэффициент эластичности рассчитывается по формуле:
где βi– коэффициент модели множественной регрессии.
Для того чтобы рассчитать стандартизированные частные коэффициенты регрессии, необходимо построить модель множественной регрессии в стандартном (нормированном) масштабе. Это означает, что все переменные, включённые в модель регрессии, стандартизируются с помощью специальных формул. Посредством процесса стандартизации точкой отсчёта для каждой нормированной переменной устанавливается её среднее значение по выборочной совокупности. При этом в качестве единицы измерения стандартизированной переменной принимается её среднеквадратическое отклонение β.
Факторная переменная х переводится в стандартизированный масштаб по формуле:
где xij – значение переменной xj в i-том наблюдении;
G(xj) – среднеквадратическое отклонение факторной переменной xi;
Результативная переменная у переводится в стандартизированный масштаб по формуле:
где G(y) – среднеквадратическое отклонение результативной переменной у.
Стандартизированные частные коэффициенты регрессии характеризуют, на какую долю своего среднеквадратического отклонения G(y) изменится результативная переменная у при изменении факторной переменной х на величину своего среднеквадратического отклонения G(x), при условии постоянства всех остальных факторных переменных, включённых в модель регрессии.
Стандартизированный частный коэффициент регрессии характеризует степень непосредственной или прямой зависимости между результативной и факторной переменными. Но в связи с тем, что между факторными переменными, включёнными в модель множественной регрессии, существует зависимость, факторная переменная оказывает не только прямое, но и косвенное влияние на результативную переменную.
Частный коэффициент детерминации используется для характеристики степени косвенного влияния факторной переменной х на результативную переменную у:
где βi– стандартизированный частный коэффициент регрессии;
r(xixj) – коэффициент частной корреляции между факторными переменными xi и xj.
Частный коэффициент детерминации характеризует, на сколько процентов вариация результативной переменной вызвана вариацией i-ой факторной переменной, включённой в модель множественной регрессии, при условии постоянства всех остальных факторных переменных, включённых в модель регрессии.
Стандартизированные частные коэффициенты регрессии и частные коэффициенты эластичности могут давать различные результаты. Это несовпадение может быть объяснено, например, слишком большой величиной среднеквадратического отклонения одной из факторных переменных или эффектом неоднозначного воздействия одной из факторных переменных на результативную переменную.
30. Частные коэффициенты корреляции для линейной модели регрессии с двумя факторными переменными
Частные коэффициенты корреляции используются для оценки зависимости между результативной переменной и одной из факторных переменных при условии постоянства всех остальных факторных переменных, включённых в модель множественной регрессии. Таким образом, частный коэффициент корреляции позволяет элиминировать влияние на результат всех факторных модельных переменных кроме одной.
Рассчитаем частные коэффициенты корреляции на основе линейной модели регрессии с двумя факторными переменными.
Общий вид модели двухфакторной регрессии:
yi=β0+β1xi+β2zi+εi,
где yi – результативная переменная,
xi – первая факторная переменная;
zi – второй факторная переменная;
β0, β1, β2– неизвестные коэффициенты модели регрессии;
εi – случайная ошибка модели регрессии.
Для определения степени зависимости между результативной переменной yiи факторной переменной xi при постоянном значении факторной переменой zi и результативной переменной yi и факторной переменной zi при постоянном значении факторной переменной xi используются частные коэффициенты корреляции первого порядка, потому что они позволяют элиминировать влияние только одного признака. Порядок частного коэффициента корреляции характеризуется количеством признаков, влияние которых устраняется. Для модели парной регрессии рассчитывается коэффициент корреляции нулевого порядка.
Коэффициент частной корреляции между результативной переменной yi и факторной переменной xiпри постоянном значении факторной переменой ziрассчитывается по формуле:
Коэффициент частной корреляции между результативной переменной yi и факторной переменной ziпри постоянном значении факторной переменной xi рассчитывается по формуле:
Кроме влияния на результативную переменную, частный коэффициент корреляции позволяет рассчитать степень зависимости между факторными переменными.
Коэффициент частной корреляции между факторной переменной xi и факторной переменной ziпри постоянном значении результативной переменной yi рассчитывается по формуле:
Рассмотренные коэффициенты частной корреляции изменяются в пределах от минус единицы до единицы.
Частные коэффициенты корреляции также можно рассчитать через коэффициент множественной детерминации.
Коэффициент частной корреляции между результативной переменной yi и факторной переменной xi при постоянном значении факторной переменой zi:
где
– множественный коэффициент детерминации двухфакторной модели регрессии.
Данный коэффициент корреляции изменяется в пределах от нуля до единицы.
При проверке значимости частных коэффициентов корреляции выдвигается основная гипотеза о незначимости данных коэффициентов, например:
Н0:ryx/z=0.
Тогда конкурирующей или альтернативной гипотезой будет гипотеза вида:
Н1:ryx/z≠0.
Проверка выдвинутых гипотез осуществляется с помощью t-критерия Стьюдента. Критическое значение t-критерия tкрит(а,n-h) определяется по таблице распределения Стьюдента, где а – уровень значимости, (n-h) – число степеней свободы. Для модели двухфакторной регрессии число степеней свободы равно (n-3).
Наблюдаемое значение t-критерия рассчитывается по формуле (на примере частного коэффициента корреляции между результативной переменной yi и факторной переменной xi при постоянном значении факторной переменой zi):
Если |tнабл|≤tкрит, то основная гипотеза не отклоняется, и частный коэффициент корреляции является незначимым. Следовательно, между переменными х и у при постоянном значении переменой z корреляционная связь отсутствует.
Если |tнабл|>tкрит, то основная гипотеза отклоняется в пользу конкурирующей гипотезы с вероятностью совершения ошибки первого рода а. В этом случае можно считать, что между переменными х и у при постоянном значении переменной z существует корреляционная зависимость.
Частные коэффициенты корреляции позволяют сделать вывод об обоснованности включения переменной в модель регрессии. Если значение частного коэффициента корреляции мало или коэффициент незначим, то связь между данной факторной переменной и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели без ущерба для её качества.
31. Частные коэффициенты корреляции для модели множественной регрессии с тремя и более факторными переменными
Частные коэффициенты корреляции для модели множественной регрессии с тремя и более факторными переменными позволяют определить степень зависимости между результативной переменной и одной из факторных переменных при постоянстве остальных факторных переменных, включённых в модель.
Для модели множественной регрессии с тремя факторными переменными рассчитываются частные коэффициенты, как первого, так и второго порядка.
Общий вид модели трёхфакторной регрессии:
yi=β0+β1x1i+β2x2i+β3x3i+εi,
где yi – результативная переменная,
x1i – первая факторная переменная;
x2i – второй факторная переменная;
x3i – третья факторная переменная;
β0,β1,β2,β3 – неизвестные коэффициенты модели регрессии;
εi – случайная ошибка модели регрессии.
Частные коэффициенты корреляции первого порядка для модели трёхфакторной регрессии строятся точно так же, как и для модели двухфакторной регрессии.
Частные коэффициенты корреляции второго порядка для модели трёхфакторной регрессии строятся следующим образом.
Частный коэффициент корреляции между результативной переменной у и факторной переменной х1 при постоянстве факторных переменных х2 и х3:
Частный коэффициент корреляции между результативной переменной у и факторной переменной х2 при постоянстве факторных переменных х1 и х3:
Частный коэффициент корреляции между результативной переменной у и факторной переменной х3 при постоянстве факторных переменных х1 и х1:
Частные коэффициенты корреляции второго порядка построены с использованием частных коэффициентов корреляции первого порядка.
Следовательно, частный коэффициент корреляции порядка t может быть построен через частный коэффициент корреляции (t-1) порядка. Формулы, построенные через указанную взаимосвязь, называются рекуррентными.
При анализе модели множественной регрессии с n факторными переменными, частный коэффициент корреляции (n-1) порядка рассчитывается по общей формуле:
Частные коэффициенты корреляции, вычисленные по рекуррентным формулам, изменяются в пределах от минус единицы до плюс единицы.
32. Построение частных коэффициентов корреляции для модели множественной регрессии через показатель остаточной дисперсии и коэффициент множественной детерминации
Помимо рекуррентных формул, которые используются для построения частных коэффициентов корреляции для моделей множественной регрессии, возможно также построение этих показателей с помощью показателя остаточной дисперсии.
В случае линейной модели парной регрессии показатель остаточной дисперсии определяется по формуле:
где
– это оценка модели парной регрессии с независимой переменной х1.
Если в линейную модель парной регрессии включить новую независимую переменную х2, то можно вычислить показатель остаточной дисперсии для линейной модели регрессии с двумя независимыми переменными:
где
– это оценка модели регрессии с двумя независимыми переменными х1 и х2.
Вне зависимости от качества построенной линейной модели двухфакторной регрессии будет справедливо неравенство вида:
Тогда величину
можно охарактеризовать как долю сокращения остаточной дисперсии за счёт включения в модель регрессии новой независимой переменной х2. Чем больше величина данного показателя, тем сильнее дополнительная переменная х2 влияет на результативную переменную у и на качество модели регрессии в целом.
Для линейной модели двухфакторной регрессии частный коэффициент корреляции между независимой переменной х2 и результативной переменной у при постоянном значении независимой переменной х1 через показатель остаточной дисперсии определяется по формуле:
Для модели множественной регрессии с n независимыми переменными частный коэффициент корреляции (n-1) порядка независимой переменной х1 и результативной переменной у при постоянном значении остальных независимых переменных, включённых в модель, определяется по формуле:
Показатель остаточной дисперсии результативной переменной и коэффициент множественной детерминации связаны отношением:
Если в формуле частного коэффициента корреляции выразить остаточную дисперсию результативной переменной с помощью коэффициента множественной детерминации, то для модели множественной регрессии с n независимыми переменными частный коэффициент корреляции в общем виде можно определить по формуле:
Частные коэффициенты корреляции, вычисленные через показатель остаточной дисперсии или коэффициент множественной детерминации, изменяются в пределах от нуля до единицы.
Частный коэффициент корреляции для модели множественной регрессии в общем случае характеризует степень зависимости между результативной переменной и одной из факторных переменных при постоянном значении остальных независимых переменных, включённых в модель регрессии.
33. Коэффициент множественной корреляции. Коэффициент множественной детерминации
Если частные коэффициенты корреляции модели множественной регрессии оказались значимыми, т. е. между результативной переменной и факторными модельными переменными действительно существует корреляционная взаимосвязь, то в этом случае построение множественного коэффициента корреляции считается целесообразным.
С помощью множественного коэффициента корреляции характеризуется совокупное влияние всех факторных переменных на результативную переменную в модели множественной регрессии.
Коэффициент множественной корреляции для линейной модели множественной регрессии с n факторными переменными рассчитывается через стандартизированные частные коэффициенты регрессии и парные коэффициенты корреляции по формуле:
где r (yxi) – парный (не частный) коэффициент корреляции между результативной переменной у и факторной переменной xi
Коэффициент множественной корреляции изменяется в пределах от нуля до единицы. С его помощью нельзя охарактеризовать направление связи между результативной и факторными переменными. Чем ближе значение множественного коэффициента корреляции к единице, тем сильнее взаимосвязь между результативной и независимыми переменными, и наоборот, чем ближе значение множественного коэффициента корреляции к нулю, тем слабее взаимосвязь между результативной и независимыми переменными.
Коэффициентом множественной детерминации R2 называется квадрат множественного коэффициента корреляции:
Коэффициент множественной детерминации характеризует, на сколько процентов построенная модель регрессии объясняет вариацию значений результативной переменной относительно своего среднего уровня, т. е. показывает долю общей дисперсии результативной переменной, объяснённой вариацией факторных переменных, включённых в модель регрессии.
Коэффициент множественной детерминации также называется количественной характеристикой объяснённой построенной моделью регрессии дисперсии результативной переменной. Чем больше значение коэффициента множественной детерминации, тем лучше построенная модель регрессии характеризует взаимосвязь между переменными.
Для коэффициента множественной детерминации всегда выполняется неравенство вида:
Следовательно, включение в линейную модель регрессии дополнительной факторной переменной xn не снижает значения коэффициента множественной детерминации.
Коэффициент множественной детерминации может быть определён не только как квадрат множественного коэффициента корреляции, но и с помощью теоремы о разложении сумм квадратов по формуле:
где ESS (Error Sum Square) – сумма квадратов остатков модели множественной регрессии с n независимыми переменными:
TSS (TotalSumSquare) – общая сумма квадратов модели множественной регрессии с n независимыми переменными:
Однако классический коэффициент множественной детерминации не всегда способен определить влияние на качество модели регрессии дополнительной факторной переменной. Поэтому наряду с обычным коэффициентом рассчитывают также и скорректированный (adjusted) коэффициент множественной детерминации, в котором учитывается количество факторных переменных, включённых в модель регрессии:
где n – количество наблюдений в выборочной совокупности;
h – число параметров, включённых в модель регрессии.
При большом объёме выборочной совокупности значения обычного и скорректированного коэффициентов множественной детерминации отличаться практически не будут.
34. Проверка гипотезы о значимости частного и множественного коэффициентов корреляции
Предположим, что по данным выборочной совокупности была построена линейная модель множественной регрессии. Задача состоит в проверке значимости частных и множественного коэффициентов корреляции.
Рассмотрим процесс проверки значимости частных коэффициентов корреляции.
Основная гипотеза состоит в предположении о незначимости частных коэффициентов корреляции, т. е.
Н0:r(yxi/x1…xn-1)=0.
Обратная или конкурирующая гипотеза состоит в предположении о значимости частных коэффициентов корреляции, т.е.
Н1:r(yxi/x1…xn-1)≠0.
Данные гипотезы проверяются с помощью t-критерия Стьюдента.
Наблюдаемое значение t-критерия (вычисленное на основе выборочных данных) сравнивают со значением t-критерия, которое определяется по таблице распределения Стьюдента и называется критическим.
При проверке значимости частного коэффициента корреляции критическое значение t-критерия определяется как tкрит( ;n–l–1), где а – уровень значимости, n – объём выборочной совокупности, l – число оцениваемых по выборке параметров, (n–l–1) – число степеней свободы, которое определяется по таблице распределений t-критерия Стьюдента.
При проверке основной гипотезы вида Н0:r(yxi/x1…xn-1)=0 наблюдаемое значение t-критерия Стьюдента рассчитывается по формуле:
При проверке основной гипотезы возможны следующие ситуации.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю больше критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. |tнабл|›tкрит, то с вероятностью а основная гипотеза о незначимости частного коэффициента корреляции отвергается, и между переменными xi и y существует корреляционная связь при постоянных значениях остальных переменных, включённых в модель регрессии.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю меньше или равно критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. |tнабл|≤tкрит, то основная гипотеза о незначимости частного коэффициента корреляции принимается, и между переменными xi и y отсутствует корреляционная связь при постоянных значениях остальных переменных, включённых в модель регрессии. Следовательно, включение независимой переменной xi в данную модель регрессии является необоснованным.
Рассмотрим процесс проверки значимости коэффициента множественной корреляции.
Основная гипотеза состоит в предположении о незначимости коэффициента множественной корреляции, т. е.
Обратная или конкурирующая гипотеза состоит в предположении о значимости коэффициента множественной корреляции, т. е.
Н1:R(y,xi)≠0.
Данные гипотезы проверяются с помощью F-критерия Фишера-Снедекора через коэффициент множественной детерминации.
Наблюдаемое значение F-критерия (вычисленное на основе выборочных данных) сравнивают со значением F-критерия, которое определяется по таблице распределения Фишера-Снедекора, и называется критическим.
При проверке значимости коэффициента множественной корреляции критическое значение F-критерия определяется как Fкрит(a;k1;k2), где а – уровень значимости, k1=l–1 и k2=n–l – число степеней свободы, n – объём выборочной совокупности, l – число оцениваемых по выборке параметров.
При проверке основной гипотезы вида Н0:R(y,xi)=0 наблюдаемое значение F-критерия Фишера-Снедекора рассчитывается по формуле:
где R2(y,xi) – коэффициент множественный детерминации.
При проверке основной гипотезы возможны следующие ситуации.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл>Fкрит, то с вероятностью а основная гипотеза о незначимости коэффициента множественной корреляции отвергается, и он признаётся значимым. В этой ситуации включение в модель регрессии всех исследуемых переменных считается обоснованным.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл≤Fкрит, то основная гипотеза о незначимости коэффициента множественной корреляции принимается, и он признаётся незначимым. В этой ситуации построение модели регрессии на основе исследуемых переменных считается необоснованным.
35. Проверка гипотезы о значимости коэффициентов регрессии и модели множественной регрессии в целом
Проверка значимости коэффициентов регрессии означает проверку основной гипотезы об их значимом отличии от нуля.
Основная гипотеза состоит в предположении о незначимости коэффициентов модели множественной регрессии, т. е.
Обратная или конкурирующая гипотеза состоит в предположении о значимости коэффициентов модели множественной регрессии, т. е.
Данные гипотезы проверяются с помощью t-критерия Стьюдента, который вычисляется посредством частного F-критерия Фишера-Снедекора.
При проверке основной гипотезы о значимости коэффициентов модели множественной регрессии применяется зависимость, которая существует между t-критерием Стьюдента и частным F-критерием Фишера-Снедекора:
При проверке значимости коэффициентов модели множественной регрессии критическое значение t-критерия определяется как tкрит(а;n-l-1), где а – уровень значимости, n – объём выборочной совокупности, l – число оцениваемых по выборке параметров, (n-l-1) – число степеней свободы, которое определяется по таблице распределений t-критерия Стьюдента.
При проверке основной гипотезы вида
наблюдаемое значение частного F-критерия Фишера-Снедекора рассчитывается по формуле:
При проверке основной гипотезы возможны следующие ситуации.
Если наблюдаемое значение t-критерия больше критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е.
tнабл≥tкрит, то основная гипотеза о незначимости коэффициента βk модели множественной регрессии отвергается, и он является значимым.
Если наблюдаемое значение t-критерия меньше критического значения t-критерия (определённого по таблице распределения Стьюдента), т.е. tнабл<tкрит, то основная гипотеза о незначимости коэффициента βk модели множественной регрессии принимается.
Проверка основной гипотезы о значимости модели множественной регрессии в целом состоит в проверке гипотезы о значимости коэффициента множественной корреляции или значимости параметров модели регрессии.
Если проверка значимости модели множественной регрессии в целом осуществляется через проверку гипотезы о значимости коэффициента множественно корреляции, то выдвигается основная гипотеза вида Н0:R(y,xi)=0, утверждающая, что коэффициент множественной корреляции является незначимым, и, следовательно, модель множественной регрессии в целом также является незначимой.
Обратная или конкурирующая гипотеза вида Н1:R(y,xi)≠0 утверждает, что коэффициент множественной корреляции является значимым, и, следовательно, модель множественной регрессии в целом также является значимой.
Данные гипотезы проверяются с помощью F-критерия Фишера-Снедекора.
Наблюдаемое значение F-критерия (вычисленное на основе выборочных данных) сравнивают со значением F-критерия, которое определяется по таблице распределения Фишера-Снедекора, и называется критическим.
При проверке значимости коэффициента множественной корреляции критическое значение F-критерия определяется как Fкрит(a;k1;k2), где а – уровень значимости, k1=l–1 и k2=n–l – число степеней свободы, n – объём выборочной совокупности, l – число оцениваемых по выборке параметров.
При проверке основной гипотезы вида Н0:R(y,xi наблюдаемое значение F-критерия Фишера-Снедекора рассчитывается по формуле:
где R2(y,xi) – коэффициент множественный детерминации.
При проверке основной гипотезы возможны следующие ситуации.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл>Fкрит, то с вероятностью а основная гипотеза о незначимости коэффициента множественной корреляции отвергается, и он признаётся значимым. Следовательно, модель множественной регрессии в целом также является значимой.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т.е. Fнабл≤Fкрит, то основная гипотеза о незначимости коэффициента множественной корреляции принимается, и он признаётся незначимым. В этом случае модель множественной регрессии признаётся незначимой.
36. Процедура проверки адекватности оцененной линейной эконометрической модели на примере модели Оукена
Общий вид модели Оукена:
Yt=a0+ a1* wt+ ut
E (ut/wt) = 0t
Var (ut/wt) = бu2
t=1,2,...
где wt – темп прироста безработицы в году t;
Yt – темп роста валового внутреннего продукта (ВВП);
a0,a1 – параметры модели, подлежащие оценке.
При проверке качества спецификации данной эконометрической модели, задача состоит в оценке объясняющей способности независимой переменной или регрессора wt.
При проверке качества спецификации эконометрической модели перед нами стоит задача выяснить, какова же объясняющая способность регрессора wt.
Предположим, что неизвестные параметры модели Оукена были найдены с помощью метода наименьших квадратов. Необходимо проверить адекватность оценённой эконометрической модели. Для этого на основе выборочных данных рассчитывается коэффициент детерминации R2. Если коэффициент детерминации равен единице (R2=1), то можно сделать вывод, что поведение зависимой переменной Yt полностью объясняются поведением независимой переменной wt. Если коэффициент детерминации равен нулю (R2=0), то поведение независимой переменной wt не влияет на поведение зависимой переменной Yt в рамках построенной модели. Однако такой вывод должен быть доказан с помощью F-теста.
Основная гипотеза состоит в предположении о незначимости параметра a1 модели Оукена:
Н0: a1=0.
Обратная или конкурирующая гипотеза состоит в утверждении о значимости параметра a1 модели Оукена:
Н0: a1≠0.
Данные гипотезы проверяются с помощью F-критерия Фишера-Снедекора.
Наблюдаемое значение F-критерия (вычисленное на основе выборочных данных) сравнивают со значением F-критерия, которое определяется по таблице распределения Фишера-Снедекора, и называется критическим.
При проверке значимости коэффициента множественной корреляции критическое значение F-критерия определяется как Fкрит(a;k1;k2), где а – уровень значимости, k1=1 и k2=n–(l+1) – число степеней свободы, n – объём выборочной совокупности, l – число оцениваемых по выборке параметров.
При проверке основной гипотезы вида Н0: a1=0 наблюдаемое значение F-критерия Фишера-Снедекора рассчитывается по формуле:
F=(R2/l)/((1-R2)*(n-(l+1))).
Для рассматриваемой модели Оукена величина F-статистики равна:
F=R2/((1-R2)*(n-2)).
При проверке основной гипотезы возможны следующие ситуации.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т.е. Fнабл>Fкрит, то основная гипотеза о незначимости коэффициента a1 модели Оукена отвергается, и он признаётся значимым. В этом случае делается вывод о том, что независимая переменная в оценённой модели обладает способностью объяснять эндогенные значения Yt и модель считается качественной.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т.е. Fнабл≤Fкрит, то основная гипотеза о незначимости коэффициента a1 модели Оукена принимается, и он признаётся незначимым. В этом случае делается вывод об отсутствии объясняющей способности рассматриваемой независимой переменной.
Процедура проверки адекватности модели Оукена на основании результатов интервального прогнозирования.
Интервальное прогнозирование подразумевает следующую процедуру объективного (формального) контроля адекватности модели:
1) все результаты наблюдения делятся на две выборки:
а) обучающая выборка, содержащая 90-95 % объема проведённых наблюдений, т. е. это выборка, на основании данных которой осуществляется оценка неизвестных параметров модели;
б) контрольная выборка, состоящая из оставшегося количества наблюдений;
2) модель оценивается (при условии адекватности всех предпосылок теоремы Гаусса-Маркова) с помощью метода наименьших квадратов;
3) задается доверительная вероятность (бета) из диапазона [0,95;0,999]. По значениям объясняющих переменных из контрольной выборки вычисляют точечные прогнозы ỹ0=ã0+ã1*w0 и строят доверительный интервал [y0+;y0-] для эндогенных переменных из контрольной выборки.
В том случае, если значения эндогенной переменной из контрольной выборки накрывается доверительными интервалами, то построенная модель считается адекватной. На её основе можно строить рабочие прогнозы и использовать для изучения объекта. Если же значения эндогенной переменной из контрольной выборки не накрывается доверительными интервалами, то модель не считается адекватной и подлежит доработке.
Процедура проверки адекватности модели Оукена на основании результатов точечного прогнозирования.
Предположим, что модель Оукена вида yt= a0+a1*wt+ut была оценена с помощью метода наименьших квадратов на основании данных из обучающей выборки. Для проверки адекватности модели была подготовлена контрольная выборка (y0;w0), где величины y0 и w0 были получены в процессе наблюдения исследуемых переменных. Прогноз зависимой переменной получается в результате подстановки в оценку модели регрессии значения w=w0 независимой переменной:
ỹ0=~a0+~a1*x0(1)
Среднеквадратичная ошибка прогноза (1) определяется по формуле:
Sy0=~бu*(1+q0)1/2,
где q0=w0T*Q*w0;
w0T=(1,w0) – вектор известного значения независимой переменной;
Q=(WT*W)-1.
Величина q0 учитывает в структуре среднеквадратической ошибки Sy0 погрешности (ошибки оценивания) величины ~a0. Если величина полученного прогноза (1) удовлетворяет с учетом среднеквадратической ошибки прогноза истинному значению, то модель признается адекватной, если нет – то модель подлежит доработке.
37. Определение мультиколлинеарности. Последствия мультиколлинеарности. Методы обнаружения мультиколлинеарности
Наибольшие затруднения в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторных переменных, когда более чем два фактора связаны между собой линейной зависимостью.
Мультиколлинеарностью для линейной множественной регрессии называется наличие линейной зависимости между факторными переменными, включёнными в модель.
Мультиколлинеарность – нарушение одного из основных условий, лежащих в основе построения линейной модели множественной регрессии.
Мультиколлинеарность в матричном виде – это зависимость между столбцами матрицы факторных переменных Х:
Если не учитывать единичный вектор, то размерность данной матрицы равна n*n. Если ранг матрицы Х меньше n, то в модели присутствует полная или строгая мультиколлинеарность. Но на практике полная мультиколлинеарность почти не встречается.
Можно сделать вывод, что одной из основных причин присутствия мультиколлинеарности в модели множественной регрессии является плохая матрица факторных переменных Х.
Чем сильнее мультиколлинеарность факторных переменных, тем менее надежной является оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.
Включение в модель мультиколлинеарных факторов нежелательно по нескольким причинам:
1) основная гипотеза о незначимости коэффициентов множественной регрессии может подтвердиться, но сама модель регрессии при проверке с помощью F-критерия оказывается значимой, что говорит о завышенной величине коэффициента множественной корреляции;
2) полученные оценки коэффициентов модели множественной регрессии могут быть неоправданно завышены или иметь неправильные знаки;
3) добавление или исключение из исходных данных одного-двух наблюдений оказывает сильное влияние на оценки коэффициентов модели;
4) мультиколлинеарные факторы, включённые в модель множественной регрессии, способны сделать её непригодной для дальнейшего применения.
Конкретных методов обнаружения мультиколлинеарности не существует, а принято применять ряд эмпирических приёмов. В большинстве случаев множественный регрессионный анализ начинается с рассмотрения корреляционной матрицы факторных переменных R или матрицы (ХТХ).
Корреляционной матрицей факторных переменных называется симметричная относительно главной диагонали матрица линейных коэффициентов парной корреляции факторных переменных:
где rij – линейный коэффициент парной корреляции между i-м и j-ым факторными переменными,
На диагонали корреляционной матрицы находятся единицы, потому что коэффициент корреляции факторной переменной с самой собой равен единице.
При рассмотрении данной матрицы с целью выявления мультиколлинеарных факторов руководствуются следующими правилами:
1) если в корреляционной матрице факторных переменных присутствуют коэффициенты парной корреляции по абсолютной величине большие 0,8, то делают вывод, что в данной модели множественной регрессии существует мультиколлинеарность;
2) вычисляют собственные числа корреляционной матрицы факторных переменных λmin и λmax. Если λmin‹10-5, то в модели регрессии присутствует мультиколлинеарность. Если отношение
то также делают вывод о наличии мультиколлинеарных факторных переменных;
3) вычисляют определитель корреляционной матрицы факторных переменных. Если его величина очень мала, то в модели регрессии присутствует мультиколлинеарность.
38. Методы устранения мультиколлинеарности
Если оцененную модель регрессии предполагается использовать для изучения экономических связей, то устранение мультиколлинеарных факторов является обязательным, потому что их наличие в модели может привести к неправильным знакам коэффициентов регрессии.
При построении прогноза на основе модели регрессии с мультиколлинеарными факторами необходимо оценивать ситуацию по величине ошибки прогноза. Если её величина является удовлетворительной, то модель можно использовать, несмотря на мультиколлинеарность. Если же величина ошибки прогноза большая, то устранение мультиколлинеарных факторов из модели регрессии является одним из методов повышения точности прогноза.
К основным способам устранения мультиколлинеарности в модели множественной регрессии относятся:
1) один из наиболее простых способов устранения мультиколлинеарности состоит в получении дополнительных данных. Однако на практике в некоторых случаях реализация данного метода может быть весьма затруднительна;
2) способ преобразования переменных, например, вместо значений всех переменных, участвующих в модели (и результативной в том числе) можно взять их логарифмы:
lny=β0+β1lnx1+β2lnx2+ε.
Однако данный способ также не способен гарантировать полного устранения мультиколлинеарности факторов;
Если рассмотренные способы не помогли устранить мультиколлинеарность факторов, то переходят к использованию смещённых методов оценки неизвестных параметров модели регрессии, или методов исключения переменных из модели множественной регрессии.
Если ни одну из факторных переменных, включённых в модель множественной регрессии, исключить нельзя, то применяют один из основных смещённых методов оценки коэффициентов модели регрессии – гребневую регрессию или ридж (ridge).
При использовании метода гребневой регрессии ко всем диагональным элементам матрицы (ХТХ) добавляется небольшое число τ: 10-6 ‹ τ ‹ 0.1. Оценивание неизвестных параметров модели множественной регрессии осуществляется по формуле:
где ln – единичная матрица.
Результатом применения гребневой регрессии является уменьшение стандартных ошибок коэффициентов модели множественной регрессии по причине их стабилизации к определённому числу.
Метод главных компонент является одним из основных методов исключения переменных из модели множественной регрессии.
Данный метод используется для исключения или уменьшения мультиколлинеарности факторных переменных модели регрессии. Суть метода заключается в сокращении числа факторных переменных до наиболее существенно влияющих факторов. Это достигается с помощью линейного преобразования всех факторных переменных xi (i=0,…,n) в новые переменные, называемые главными компонентами, т. е. осуществляется переход от матрицы факторных переменных Х к матрице главных компонент F. При этом выдвигается требование, чтобы выделению первой главной компоненты соответствовал максимум общей дисперсии всех факторных переменных xi (i=0,…,n), второй компоненте – максимум оставшейся дисперсии, после того как влияние первой главной компоненты исключается и т. д.
Метод пошагового включения переменных состоит в выборе из всего возможного набора факторных переменных именно те, которые оказывают существенное влияние на результативную переменную.
Метод пошагового включения осуществляется по следующему алгоритму:
1) из всех факторных переменных в модель регрессии включаются те переменные, которым соответствует наибольший модуль линейного коэффициента парной корреляции с результативной переменной;
2) при добавлении в модель регрессии новых факторных переменных проверяется их значимость с помощью F-критерия Фишера. При том выдвигается основная гипотеза о необоснованности включения факторной переменной xk в модель множественной регрессии. Обратная гипотеза состоит в утверждении о целесообразности включения факторной переменной xk в модель множественной регрессии. Критическое значение F-критерия определяется как Fкрит(a;k1;k2), где а – уровень значимости, k1=1 и k2=n–l – число степеней свободы, n – объём выборочной совокупности, l – число оцениваемых по выборке параметров. Наблюдаемое значение F-критерия рассчитывается по формуле:
где q – число уже включённых в модель регрессии факторных переменных.
При проверке основной гипотезы возможны следующие ситуации.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл›Fкрит, то основная гипотеза о необоснованности включения факторной переменной xk в модель множественной регрессии отвергается. Следовательно, включение данной переменной в модель множественной регрессии является обоснованным.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл≤Fкрит, то основная гипотеза о необоснованности включения факторной переменной xk в модель множественной регрессии принимается. Следовательно, данную факторную переменную можно не включать в модель без ущерба для её качества
3) проверка факторных переменных на значимость осуществляется до тех пор, пока не найдётся хотя бы одна переменная, для которой не выполняется условие Fнабл›Fкрит.
39. Модели регрессии, нелинейные по факторным переменным
При исследовании социально-экономических явлений и процессов далеко не все зависимости можно описать с помощью линейной связи. Поэтому в эконометрическом моделировании широко используется класс нелинейных моделей регрессии, которые делятся на два класса:
1) модели регрессии, нелинейные относительно включенных в анализ независимых переменных, но линейные по оцениваемым параметрам;
2) модели регрессии, нелинейные по оцениваемым параметрам.
К моделям регрессии, нелинейным относительно включённых в анализ независимых переменных (но линейных по оцениваемым параметрам), относятся полиномы выше второго порядка и гиперболическая функция.
Модели регрессии, нелинейным относительно включённых в анализ независимых переменных, характеризуются тем, что зависимая переменная yi линейно связана с параметрами β0…βn модели.
Полиномы или полиномиальные функции применяются при анализе процессов с монотонным развитием и отсутствием пределов роста. Данному условию отвечают большинство экономических показателей (например, натуральные показатели промышленного производства). Полиномиальные функции характеризуются отсутствием явной зависимости приростов факторных переменных от значений результативной переменной yi.
Общий вид полинома n-го порядка (n-ой степени):
Чаще всего в эконометрическом моделировании применяется полином второго порядка (параболическая функция), характеризующий равноускоренное развитие процесса (равноускоренный рост или снижение уровней).:
Полиномы, чей порядок выше четвёртого, в эконометрических исследованиях обычно не применяются, потому что они не способны точно отразить существующую зависимость между результативной и факторными переменными.
Гиперболическая функция характеризует нелинейную зависимость между результативной переменной yi и факторной переменной xi, однако, данная функция является линейной по оцениваемым параметрам β0 и β1.
Гиперболоид или гиперболическая функция имеет вид:
Данная гиперболическая функция является равносторонней.
В качестве примера эконометрической модели в виде гиперболической функции можно привести модель зависимости затрат на единицу продукции от объёма производства.
Неизвестные параметры β0…βn модели регрессии, нелинейной по факторным переменным, можно найти только после того, как модели будет приведена к линейному виду.
Для того чтобы оценить неизвестные параметры β0…βn нелинейной регрессионной модели необходимо привести её к линейному виду. Суть процесс линеаризации нелинейных по факторным переменным моделей регрессии заключается в замене нелинейных факторных переменных на линейные переменные.
Рассмотрим процесс линеаризации полиномиальной функции порядка n:
Заменим все факторные переменные на линейные следующим образом:
x=c1;
x2=c2;
x3=c3;
…
xn=cn.
Тогда модель множественной регрессии можно записать в виде:
yi=β0+β1c1i+ β2c2i+…+ βncni+εi.
Рассмотрим процесс линеаризации гиперболической функции:
Данная функция может быть приведена к линейному виду путём замены нелинейной факторной переменной 1/x на линейную переменную с. Тогда модель регрессии можно записать в виде:
yi=β0+β1ci+εi.
Следовательно, модели регрессии, нелинейные относительно включенных в анализ независимых переменных, но линейные по оцениваемым параметрам, могут быть преобразованы к линейному виду. Это позволяет применять к линеаризованным моделям регрессии классические методы определения неизвестных параметров модели (метод наименьших квадратов), а также методы проверки различных гипотез.
40. Модели регрессии, нелинейные по оцениваемым коэффициентам
Нелинейными по оцениваемым параметрам моделями регрессииназываются модели, в которых результативная переменная yi нелинейно зависит от коэффициентов модели β0…βn.
К моделям регрессии, нелинейными по оцениваемым параметрам, относятся:
1) степенная функция:
2) показательная или экспоненциальная функция:
3) логарифмическая парабола:
4) экспоненциальная функция:
5) обратная функция:
6) кривая Гомперца:
7) логистическая функция или кривая Перла-Рида:
Кривыми насыщения называются показательная, логарифмическая и экспоненциальная функции, т. к. будущий прирост результативной переменной зависит от уже достигнутого уровня функции.
Кривые насыщения применяются для характеристики явлений и процессов, величина роста которых является ограниченной величиной (например, в демографии).
Определение. S-образными кривыми называются кривая Гомперца и кривая Перла-Рида. Данные кривые представляют собой кривые насыщения с точкой перегиба.
S-образные кривые применяются для характеристики явлений, включающий в себя два последовательных процесса – ускорения и замедления достигнутого уровня развития. Подобные явления характерны для демографии, страхования и других областей.
Модели регрессии, нелинейные по оцениваемым коэффициентам, делятся на два класса:
1) модели регрессии, которые можно с помощью преобразований привести к линейному виду;
2) модели регрессии, которые невозможно привести к линейному виду.
Рассмотрим первый класс моделей регрессии.
Показательная функция вида
является нелинейной по коэффициенту β1 и относится к классу моделей регрессии, которые можно с помощью преобразований привести к линейному виду. Данная модель характеризуется тем, что случайная ошибка εi мультипликативно связана с факторной переменной хi.
Данную модель можно привести к линейному виду с помощью логарифмирования:
Log yi=log β0+ хi* logβ1+ logεi.
Для более наглядного представления данной модели регрессии воспользуемся методом замен:
log yi=Yi;
log β0=A;
logβ1=B;
logεi=E.
В результате произведённых замен получим окончательный вид показательной функции, приведённой к линейной форме:
Yi=A+Bхi+E.
Таким образом, можно сделать вывод, что рассмотренная показательная функция является внутренне линейной, поэтому оценки неизвестных параметров её линеаризованной формы можно рассчитать с помощью классического метода наименьших квадратов.
Другим примером моделей регрессии первого класса является степенная функция вида:
Данная модель характеризуется тем, что случайная ошибка βi мультипликативно связана с факторной переменной хi.
Данную модель можно привести к линейному виду с помощью логарифмирования:
lnyi=lnβ0+β1 lnхi + lnεi.
Для более наглядного представления данной модели регрессии воспользуемся методом замен:
ln yi=Yi;
ln β0=A;
lnхi=Xi;
lnεi=E.
В результате произведённых замен получим окончательный вид показательной функции, приведённой к линейной форме:
Yi=A+β1Xi+E.
Таким образом, можно сделать вывод, что рассмотренная степенная функция является внутренне линейной, поэтому оценки неизвестных параметров её линеаризованной формы можно рассчитать с помощью классического метода наименьших квадратов.
Рассмотрим второй класс моделей регрессии, нелинейных по оцениваемым коэффициентам.
Показательная функция вида
относится к классу моделей регрессии, которые невозможно привести к линейной форме путём логарифмирования. Данная модель характеризуется тем, что случайная ошибка βi аддитивно связана с факторной переменной хi.
Степенная функция вида
относится к классу моделей регрессии, которые невозможно привести к линейной форме путём логарифмирования. Данная модель характеризуется тем, что случайная ошибка εi аддитивно связана с факторной переменной хi.
Таким образом, для оценки неизвестных параметров моделей регрессии, которые нельзя привести к линейному виду, нельзя применять классический метод наименьших квадратов. В этом случае используются итеративные процедуры оценивания (квази-ньютоновский метод, симплекс-метод, метод Хука-Дживса, метод Розенброка и др.).
41. Модели регрессии с точками разрыва
Определение. Моделями регрессии с точками разрыва называются модели, которые нельзя привести к линейной форме, т. е. внутренне нелинейные модели регрессии.
Модели регрессии делятся на два класса:
1) кусочно-линейные модели регрессии;
2) собственно модели регрессии с точками разрыва.
Кусочно-линейные модели регрессии характеризуются тем, что вид зависимости между результативной переменной и факторными переменными может быть неодинаков в различных областях значений факторных переменных.
В качестве примера кусочно-линейной модели регрессии рассмотрим регрессионную зависимость показателя себестоимости единицы произведённой промышленной продукции (результативная переменная) от показателя объёма промышленного производства за месяц (факторная переменная). Исследуемые показатели связаны линейной зависимостью, т. к. с увеличением показателя объема промышленного производства показатель себестоимости единицы произведённой промышленной продукции снижается, и наоборот.
Но не всегда данная зависимость носит линейный характер. Если основные фонды, которые используются при производстве данной промышленной продукции, являются изношенным, то с увеличением показателя объема промышленного производства показатель себестоимости единицы произведённой промышленной продукции может также увеличиваться.
При условии, что изношенные основные фонды применяются для производства промышленной продукции до того момента, когда объём промышленного производства достигнет заранее определённого значения, можно построить кусочно-линейную модель регрессии. Предположим, что объём промышленного производства равен 500 единицам продукции. Тогда модель примет вид:
y=β0+β1x(x≤500)+β2x(x>500),
где y – себестоимость единицы промышленной продукции;
x – объём промышленного производства за месяц;
(x≤500) и (x›500) – логические выражения, принимающие значения 1, если они истинны, или 0, если они ложны.
Данная кусочно-линейная модель регрессии зависит от общего свободного члена β0 и углового коэффициента. Угловой коэффициент может быть равен либо β1 (если выражение (x≤500) истинно, т. е. равно единице), либо β2 (если выражение (x›500) истинно, т. е. равно единице).
Значение показателя объёма промышленной продукции, равное 500 единицам, считается точкой разрыва кривой регрессии.
Если же точка разрыва кривой регрессии не задана или её невозможно точно определить, то значение данной точки можно оценить с помощью дополнительного коэффициента, включённого в модель регрессии.
Заменим логические выражения в построенной кусочно-линейной модели регрессии на коэффициент β3. В результате модель примет вид:
y=β0+β1x(x≤β3)+β2x(x>β3).
Собственно модели регрессии с точками разрыва характеризуются скачкообразными изменениями зависимой переменной в нескольких точках кривой регрессии. Кусочно-линейную модель регрессии можно преобразовать в собственно модель регрессии с точками разрыва.
Допустим, что при достижении основными фондами определённого уровня изношенности, себестоимость единицы промышленной продукции резко выросла, а затем продолжила медленно снижаться при условии увеличения объёмов производства данной продукции. В этом случае регрессионная зависимость примет вид:
y=(β0+β1x)(x≤500)+(β3+β2x)(x>500).
В связи с тем, что модели регрессии с точками разрыва являются внутренне нелинейными, то неизвестные параметры данных моделей нельзя оценить с помощью классического метода наименьших квадратов. Для оценки этих параметров применяются итерационные методы нелинейного оценивания и метод максимального правдоподобия.
Если в начале эконометрического моделирования перед исследователем стоит выбор между моделью регрессии, внутренне нелинейной и линейной моделью регрессии (или сводящейся к линейному виду), то предпочтение отдаётся линейным формам моделей.
42. Метод наименьших квадратов для моделей регрессии, нелинейных по факторным переменным
Если модель регрессии является нелинейной по факторным переменным или нелинейной по оцениваемым коэффициентам, но внутренне линейной, то неизвестные коэффициенты данных моделей можно оценить с помощью классического метода наименьших квадратов.
Рассмотрим применение метода наименьших квадратов для определения неизвестных параметров модели регрессии, нелинейной по факторным переменным.
Параболическая функция второго порядка вида
является моделью регрессии, нелинейной по факторным переменным xi.
Метод наименьших квадратов позволяет получить такие оценки параметров β0,β1 и β2 при которых сумма квадратов отклонений фактических значений результативного признака ỹ от расчетных (теоретических) β минимальна:
В процессе минимизации исходной функции регрессии неизвестными являются только значения коэффициентов β0,β1 и β2, потому что значения результативной и факторной переменных известны из наблюдений. Для определения минимума функции трёх переменных вычисляются частные производные этой функции по каждому из оцениваемых параметров и приравниваются к нулю. Результатом данной процедуры будет стационарная система уравнений.
Составим стационарную систему уравнений для функционала F, не пользуясь методом замен:
После элементарных преобразований стационарной системы уравнений, получим систему нормальных уравнений, позволяющую определить значения неизвестных коэффициентов параболической функции:
Данная система является системой нормальных уравнений относительно параметров
для параболической функции второго порядка.
Полученная система нормальных уравнений является квадратной, т. к. количество уравнений равняется количеству неизвестных переменных, поэтому коэффициенты
можно рассчитать с помощью метода Крамера или метода Гаусса.
Если рассматривать полиномиальную функцию n-ой степени вида
то для определения оценок неизвестных коэффициентов данной модели регрессии методом наименьших квадратов минимизируется функционал F:
Для определения минимума функции нескольких переменных вычисляются частные производные этой функции по каждому из оцениваемых параметров и приравниваются к нулю. Результатом данной процедуры будет стационарная система уравнений:
Решением данной стационарной системы уравнений будут оценки неизвестных коэффициентов полиномиальной функции n-ой степени.
43. Метод наименьших квадратов для моделей регрессии, нелинейных по оцениваемым коэффициентам
Показательная функция вида
является нелинейной по коэффициенту β1 и относится к классу моделей регрессии, которые можно с помощью преобразований привести к линейному виду. Данная модель характеризуется тем, что случайная ошибка εi мультипликативно связана с факторной переменной хi. Следовательно, для определения оценок неизвестных коэффициентов данной модели можно применить классический метод наименьших квадратов.
Данную модель можно привести к линейному виду с помощью логарифмирования:
Log yi=log β0+ хi* logβ1+ logεi.
Для более наглядного представления данной модели регрессии воспользуемся методом замен:
log yi=Yi;
log β0=A;
logβ1=B;
logεi=E.
В результате произведённых замен получим окончательный вид показательной функции, приведённой к линейной форме:
Yi=A+Bхi+E.
Таким образом, мы будем применять метод наименьших квадратов не к исходной форме показательной функции, а к её преобразованной форме.
Для определения неизвестных коэффициентов линеаризованной формы показательной функции методом наименьших квадратов необходимо минимизировать сумму квадратов отклонений логарифмов наблюдаемых значений результативной переменной у от теоретических значений ỹ (значений, рассчитанных на основании модели регрессии), т. е. минимизировать функционал МНК вида:
Оценки неизвестных коэффициентов А и В линеаризованной формы показательной функции находятся при решении системы нормальных уравнений вида:
Данная система является системой нормальных уравнений относительно коэффициентов А и В для функции вида Yi=A+Bхi+E.
Однако основным недостатком полученных МНК-оценок неизвестных коэффициентов моделей регрессии, сводимых к линейному виду, является их смещённость.
44. Методы нелинейного оценивания коэффициентов модели регрессии
Функцией потерь или ошибок называется функционал вида
Также в качестве функции потерь может быть использована сумма модулей отклонений наблюдаемых значений результативного признака у от теоретических значений ỹ:
Функция потерь характеризует потери в точности аппроксимации исходных данных построенной моделью регрессии.
В интересах исследователя минимизировать функцию ошибок. Для этого используются различные методы, однако, их общий недостаток заключается в наличии локальных минимумов. Например, если оценка неизвестного параметра модели регрессии будет немного изменена, то значение функция потерь практически не изменится, но существует вероятность того, что ошибочное значение оцениваемого параметра модели регрессии даст в результате ощутимое уменьшение функции ошибок. Такое явление называется локальным минимумом.
Следствием локальных минимумов являются неоправданно завышенные или заниженные оценки неизвестных параметров модели регрессии.
Избежать попадания в локальный минимум можно путём повторения процедуры оценивания неизвестных параметров модели регрессии с изменёнными начальными условиями (шагом, ограничением оцениваемых параметров и т. д.).
При достижении функцией ошибок глобального минимума, оценки неизвестных коэффициентов модели регрессии считаются оптимальными.
К основным методам минимизации функции ошибок относятся:
1) метод Ньютона. В соответствии с данным методом основной шаг в направлении глобального минимума метода Ньютона рассчитывается по формуле:
где βk– вектор значений оцениваемых параметров на k-ой итерации;
Н – матрица вторых частных производных, или матрица Гессе;
gk – вектор градиента на k-ой итерации.
Предположим, что задана скалярная функция у от переменных
вида y=f(x).
Независимые переменные xi можно записать в виде вектора: x=[x1x2…xn]T. Тогда по определению производной:
Вектор-столбец
называется градиентом функции y=f(x) в точке x;
2) для избежания громоздких вычислений матрицы Гессе существуют различные способы её замены приближёнными выражениями. Эти приёмы легли в основу квазиньютоновых методов. Суть квазиньютоновых методов заключается в том, что в различных точках вычисляются значения функции ошибок для определения первой и второй производной. Первая производная функции в заданной точке равна тангенсу угла наклона графика функции, а вторая производная функции в заданной точке равна скорости его изменения. Затем эти данные применяются для определения направления изменения параметров, а соответственно, и для минимизации функции ошибок;
3) симплекс-метод – это метод нелинейного оценивания, который не использует производные функции ошибок. При каждой итерации функция ошибок оценивается в n+1 точках n-мерного пространства, образуя при этом фигуру, называемую симплексом. В многомерном пространстве симплекс будет постепенно менять параметры, смещаясь в сторону минимизации функции потерь. Основное преимущество симплекс-метода перед остальными методами нелинейного оценивания заключается в том, что при слишком большом шаге для точного определения направления минимизации функции потерь или при слишком большом симплексе, алгоритм автоматически уменьшает симплекс, и вычислительная процедура продолжается. При обнаружении минимума, симплекс вновь увеличивается для проверки минимума на локальность.
45. Показатели корреляции и детерминации для нелинейных моделей регрессии
Индексом корреляции для нелинейных форм связи называется коэффициент корреляции, который вычисляется для оценки качества построенной нелинейной модели регрессии.
Индекс корреляции для нелинейных форм вычисляется с помощью теоремы о разложении дисперсий по формуле:
где G2(y) – это общая дисперсия зависимой переменной;
σ2(y) – это объяснённая с помощью построенной модели регрессии дисперсия переменной у, которая рассчитывается по формуле:
δ2(y) – необъяснённая или остаточная дисперсия переменной у, которая рассчитывается по формуле:
Также индекс корреляции для нелинейных форм можно рассчитать с помощью теоремы о разложении сумм квадратов по формуле:
где RSS (Regression Sum Square) – сумма квадратов объяснённой регрессии:
ESS (Error Sum Square) – сумма квадратов остатков модели множественной регрессии с n независимыми переменными:
TSS (TotalSumSquare) – общая сумма квадратов модели множественной регрессии с n независимыми переменными:
Индекс корреляции для нелинейных форм связи изменяется в пределах от нуля до единицы. С его помощью нельзя охарактеризовать направление связи между результативной и факторными переменными. Чем ближе значение индекса корреляции для нелинейных форм связи к единице, тем сильнее взаимосвязь между результативной и независимыми переменными, и наоборот, чем ближе значение индекса корреляции для нелинейных форм связи к нулю, тем слабее взаимосвязь между результативной и независимыми переменными.
Индексом детерминации называется квадрат индекса корреляции для нелинейных форм связи.
Расчёт индекса детерминации с помощью теоремы о разложении дисперсий:
Расчёт индекса детерминации с помощью теоремы о разложении сумм квадратов:
Индекс детерминации характеризует, на сколько процентов построенная модель регрессии объясняет вариацию значений результативной переменной относительно своего среднего уровня, т. е. показывает долю общей дисперсии результативной переменной, объяснённой вариацией факторных переменных, включённых в модель регрессии.
Коэффициент множественной детерминации также называется количественной характеристикой объяснённой построенной моделью регрессии дисперсии результативной переменной. Чем больше значение коэффициента множественной детерминации, тем лучше построенная модель регрессии характеризует взаимосвязь между переменными.
46. Проверка гипотезы о значимости нелинейной модели регрессии. Проверка гипотезы о линейной зависимости между переменными модели регрессии
На нелинейные модели регрессии, которые являются внутренне линейными, т. е. сводимыми к линейному виду, распространяются все методы проверки гипотез, используемые для классических линейных моделей регрессии.
Таким образом, если внутренне линейную модель регрессии можно свести к линейной модели парной регрессии, то на эту модель будут распространяться все методы проверки гипотез, используемые для парной линейной зависимости.
Проверка гипотезы о значимости линейной модели множественной регрессии состоит в проверке гипотезы значимости индекса детерминации R2.
Рассмотрим процесс проверки гипотезы о значимости индекса детерминации.
Основная гипотеза состоит в предположении о незначимости индекса детерминации, т. е.
Н0:R2=0.
Обратная или конкурирующая гипотеза состоит в предположении о значимости индекса детерминации, т. е.
Н1:R2≠0.
Данные гипотезы проверяются с помощью F-критерия Фишера-Снедекора.
Наблюдаемое значение F-критерия (вычисленное на основе выборочных данных) сравнивают со значением F-критерия, которое определяется по таблице распределения Фишера-Снедекора, и называется критическим.
При проверке значимости индекса детерминации критическое значение F-критерия определяется как Fкрит(a;k1;k2), где а – уровень значимости, k1=l-1 и k2=n-l – число степеней свободы, n – объём выборочной совокупности, l – число оцениваемых по выборке параметров.
При проверке основной гипотезы вида Н0:R2=0 наблюдаемое значение F-критерия Фишера-Снедекора рассчитывается по формуле:
При проверке основной гипотезы возможны следующие ситуации.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл›Fкрит, то с вероятностью а основная гипотеза о незначимости индекса детерминации отвергается, и он признаётся значимым. Следовательно, полученная модель регрессии также признаётся значимой.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл=Fкрит, то основная гипотеза о незначимости индекса детерминации принимается, и он признаётся незначимым. Полученная модель регрессии является незначимой и нуждается в дальнейшей доработке.
Если в начале эконометрического моделирования перед исследователем стоит выбор между моделью регрессии, внутренне нелинейной и линейной моделью регрессии (или сводящейся к линейному виду), то предпочтение отдаётся линейным формам моделей.
Проверка предположения о возможной линейной зависимости между исследуемыми переменными осуществляется с помощью коэффициента детерминации r2 и индекса детерминации R2.
Выдвигается основная гипотеза Н0о наличии линейной зависимости между переменными. Альтернативной является гипотеза Н1 о нелинейной зависимости между переменными.
Данные гипотезы проверяются с помощью t-критерия Стьюдента.
Наблюдаемое значение t-критерия (вычисленное на основе выборочных данных) сравнивают с критическим значением t-критерия, которое определяется по таблице распределения Стьюдента.
При проверке гипотезы о линейной зависимости между переменными критическое значение t-критерия определяется как tкрит(а;n-l-1), где а – уровень значимости, n – объём выборочной совокупности, l – число оцениваемых по выборке параметров, (n-l-1) – число степеней свободы, которое определяется по таблице распределений t-критерия Стьюдента.
При проверке основной гипотезы Н0 наблюдаемое значение t-критерия Стьюдента рассчитывается по формуле:
где νR-r – величина ошибки разности (R2-r2), которая определяется по формуле:
При проверке основной гипотезы возможны следующие ситуации.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) больше критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. tнабл›tкрит, то с вероятностью а основная гипотеза о линейной зависимости между переменными отвергается. В этом случае построение нелинейной модели регрессии считается целесообразным.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) меньше или равно критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. tнабл≤tкрит, то основная гипотеза о линейной зависимости между переменными принимается. Следовательно, взаимосвязь между данными переменными можно аппроксимировать простой линейной формой зависимости.
47. Тесты Бокса-Кокса и Зарембеки выбора модели регрессии
Если в начале эконометрического моделирования перед исследователем стоит выбор между моделью регрессии, внутренне нелинейной и линейной моделью регрессии (или сводящейся к линейному виду), то предпочтение отдаётся линейным формам моделей.
Однако многие модели регрессии различной функциональной формы нельзя сравнивать с помощью стандартных критериев (например, сравнение по множественному коэффициенту детерминации, или суммам квадратов отклонений), которые позволили бы подобрать наиболее подходящую модель регрессии.
Например, если перед исследователем стоит вопрос о выборе линейной или логарифмической моделями регрессии, то использовать при этом критерий суммы квадратов отклонений нельзя, потому что общая сумма квадратов отклонений для логарифмической модели намного меньше, чем для линейной модели регрессии. Это вызвано тем, что значение логарифма результативной переменной logy намного меньше, чем соответствующее значение у, поэтому сравнение сумм квадратов отклонений моделей даёт неадекватные результаты.
Если сравнивать данные модели по критерию коэффициента множественной детерминации, то мы вновь получим неадекватные результаты. Коэффициент множественной детерминации для линейной модели регрессии характеризует объяснённую регрессией долю дисперсии результативной переменной у. Индекс детерминации для логарифмической модели регрессии характеризует объяснённую регрессией долю дисперсии переменной logy. Если значения данных критериев примерно равны, то сделать выбор между моделями регрессии с их помощью также не представляется возможным.
Одним из методов проверки предположения о возможной линейной зависимости между исследуемыми переменными является метод проверки гипотезы о линейной зависимости между переменными с помощью коэффициента детерминации r2 и индекса детерминации R2.
Другим методом выбора функциональной зависимости между переменными является тест Бокса-Кокса.
Предположим, что перед исследователем стоит задача выбора между линейной и логарифмической моделями регрессии. Рассмотрим применение теста Бокса-Кокса на данном примере.
Тест Бокса-Кокса основывается на утверждении о том, что (у-1) и logy являются частными случаями функции вида
В том случае, если параметр λ равен единице, то данная функция принимает вид F=y-1.
В том случае, если параметр λ стремиться к нулю, то данная функция принимает вид F=logy.
Для того чтобы определить оптимальное значение параметра λ, необходимо провести несколько серий экспериментов с множеством значений данного параметра. С помощью такого перебора можно рассчитать такое значение параметра λ, которое даст минимальную величину критерия суммы квадратов отклонений. Подобный метод вычисления оптимального значения параметра называется поиском на решётке или на сетке значений.
П. Зарембеки разработал один из вариантов теста Бокса-Кокса специально для случая выбора между линейной и логарифмической моделями регрессии.
Суть данного теста заключается в том, что к результативной переменной у применяется процедура масштабирования. Подобное преобразование в дальнейшем позволит сравнивать величины сумм квадратов отклонений линейной и логарифмический моделей регрессий.
Тест Зарембеки реализуется в несколько шагов:
1) рассчитывается среднее геометрическое значений результативной переменной у по формуле:
2) все результативные переменные у масштабируются по формуле:
где ỹi – масштабированное значение результативной переменной у для i-го наблюдения;
3) оценивается линейная модель регрессии с использованием масштабированных значений ỹi результативной переменной вместо у, и логарифмическая модель регрессии с использованием ỹi вместо logy. Все факторные переменные и коэффициенты регрессии остаются при этом неизменными. После такого масштабирования результативных переменных значения сумм квадратов отклонений для данных моделей регрессии можно сравнивать между собой. Поэтому выбирается та модель регрессии, для которой данный критерий окажется наименьшим.
48. Коэффициенты эластичности
Коэффициенты эластичности наряду с индексами корреляции и детерминации для нелинейных форм связи применяются для характеристики зависимости между результативной переменной и факторными переменными. С помощью коэффициентов эластичности можно оценить степень зависимости между переменными х и у.
Коэффициент эластичности показывает, на сколько процентов изменится величина результативной переменной у, если величина факторной переменной изменится на 1 %.
В общем случае коэффициент эластичности рассчитывается по формуле:
где
– первая производная результативной переменной у по факторной переменной x.
Коэффициенты эластичности могут быть рассчитаны как средние и точечные коэффициенты.
Средний коэффициент эластичности характеризует, на сколько процентов изменится результативная переменная у относительно своего среднего уровня
если факторная переменная х изменится на 1 % относительного своего среднего уровня
Общая формула для расчёта коэффициента эластичности для среднего значения
факторной переменной х:
где
– значение функции у при среднем значении факторной переменной х.
Для каждой из разновидностей нелинейных функций средние коэффициенты эластичности рассчитываются по индивидуальным формулам.
Для линейной функции вида:
yi=β0+β1xi,
средний коэффициент эластичности определяется по формуле:
Для полиномиальной функции второго порядка (параболической функции) вида:
средний коэффициент эластичности определяется по формуле:
Для показательной функции вида:
средний коэффициент эластичности определяется по формуле:
Для степенной функции вида:
средний коэффициент эластичности определяется по формуле:
Это единственная нелинейная функция, для которой средний коэффициент эластичности
равен коэффициенту регрессии β1.
Точечные коэффициенты эластичности характеризуются тем, что эластичность функции зависит от заданного значения факторной переменной х1.
Точечный коэффициент эластичности характеризует, на сколько процентов изменится результативная переменная у относительно своего значения в точке х1, если факторная переменная изменится на 1 % относительно заданного уровня х1.
Общая формула для расчёта коэффициента эластичности для заданного значения х1факторной переменной х:
Для каждой из разновидностей нелинейных функций средние коэффициенты эластичности рассчитываются по индивидуальным формулам.
Для линейной функции вида:
yi=β0+β1xi,
точечный коэффициент эластичности определяется по формуле:
В знаменателе данного показателя стоит значение линейной функции в точке х1.
Для полиномиальной функции второго порядка (параболической функции) вида:
точечный коэффициент эластичности определяется по формуле:
В знаменателе данного показателя стоит значение параболической функции в точке х1.
Для показательной функции вида:
точечный коэффициент эластичности определяется по формуле:
Для степенной функции вида:
точечный коэффициент эластичности определяется по формуле:
Докажем данное утверждение.
Запишем точечный коэффициент эластичности для степенной функции вида
через первую производную результативной переменной по заданной факторной переменной x1:
Следовательно, Э(x1) = β1, что и требовалось доказать.
Чаще всего коэффициенты эластичности применяются в анализе производственных функций. Однако их расчёт не всегда имеет смысл, потому что в некоторых случаях интерпретация факторных переменных в процентном отношении невозможна или бессмысленна.
49. Производственные функции
Производственной функцией называется экономико-математическая модель, с помощью которой можно охарактеризовать зависимость результатов производственной деятельности предприятия, отрасли или национальной экономики в целом от повлиявших на эти результаты факторов.
Факторами производственной функции могут являться следующие переменные:
1) объём выпущенной продукции (в стоимостном или натуральном выражении);
2) объём основного капитала или основных фондов;
3) объём трудовых ресурсов или трудовых затрат (измеряемое количеством рабочих или количеством человеко-дней);
4) затраты электроэнергии;
5) количество станков, потребляемое в производстве и др.
Однофакторные производственные функции (т. е. функции с одной факторной переменной) относятся к наиболее простым производственным функциям. В данном случае результативной переменной является объём производства у, который зависит от единственной факторной переменной х. В качестве факторной переменной может выступать любая из вышеназванных переменных.
Основными разновидностями однофакторных производственных функций являются:
1) линейная однофакторная производственная функция вида:
y=β0+β1x,
например, производственная функция зависимости объёма производимой продукции от величины затрат определённого ресурса. Линейная однофакторная производственная функция характеризуется двумя особенностями:
а) если величина факторной переменной х равна нулю, то объём производства у не будет нулевым, потому что y=β0(β0›0);
б) объём произведённой продукции у неограниченно возрастает при увеличении затрат определённого фактора х на постоянную величину β1 (β1›0). Однако данное свойство линейной однофакторной производственной функции чаще всего справедливо только на практике;
2) параболическая однофакторная производственная функция вида:
при условиях β0›0, β1›0, β2›0.
Данная функция характеризуется тем, что при росте затрат ресурса х, объём произведённой продукции у вначале возрастает до некоторой максимальной величины, а затем снижается до нуля;
3) степенная однофакторная производственная функция вида:
при условиях β0›0, β1›0.
Данная функция характеризуется тем, что с ростом затрат ресурса х, объём производства у возрастает без ограничений;
4) показательная однофакторная производственная функция вида:
при условиях 0‹β1‹0.
Данная функция характеризуется тем, что с ростом затрат ресурса х объём произведённой продукции у также растёт, стремясь при этом к значению параметра β0.
5) гиперболическая однофакторная производственная функция вида:
Данная функция практически не применяется при изучении зависимости объёма производства от затрат какого-либо ресурса, потому что нет необходимости в изучении ресурсов, увеличение которых приводит к уменьшению объёма производства.
Двухфакторные производственные функции (функции с двумя факторными переменными) характеризуют зависимость объёма производства от каких-либо двух факторов, чаще от факторов объёма основного капитала и трудовых ресурсов. Чаще всего используются такие двухфакторные производственные функции как функции Кобба-Дугласа и Солоу.
Для наглядного изображения двухфакторных производственных функций строят графики семейства кривых, основанных на различном сочетании двух факторов, но дающих в результате одно и то же значение объёма выпуска продукции. Кривые, построенные на основании равенства f(x1,x2)=const, называются изоквантами.
Изоквантой называется сочетание минимально необходимых ресурсных затрат для заданного уровня объёма производства.
Многофакторные производственные функции используются для изучения зависимости объёма производства от n-го количества факторов производства.
Общий вид многофакторной производственной функции:
y=f(xi),
где
50. Двухфакторная производственная функция Кобба-Дугласа
Теория производственных функций была разработана американскими учёными Д. Коббом и П. Дугласом, опубликовавшими в 1928 г. опубликовали работу «Теория производства».
Эти учёные предложили одну из наиболее известных разновидностей производственных функций, носящей название функции Кобба-Дугласа.
Общий вид функции Кобба-Дугласа:
где а – числовой параметр производственной функции;
xi – i-тый аргумент или i-ый фактор производственной функции;
ai – показатель степени i-го аргумента.
Наиболее часто применяется двухфакторная форма функции Кобба-Дугласа f(K,L):
Q=A*Ka*Lβ,
где Q – объём выпущенной продукции (в стоимостном или натуральном выражении);
K – объём основного капитала или основных фондов;
L – объём трудовых ресурсов или трудовых затрат (измеряемое количеством рабочих или количеством человеко-дней).
A,a,β – неизвестные числовые параметры производственной функции, которые подчиняются условиям:
1) 0≤а≤1;
2) 0≤β≤1;
3) A›0;
4) a+β=1.
На основании четвёртного условия a+β=1, функция Кобба-Дугласа может быть представлена в виде:
Q=A*Ka*L1-а.
Данная производственная функция позволяет объяснить уровень совокупного выпуска Q количествами затраченного капитала K и труда L основных факторов производства.
На двухфакторную функцию Кобба-Дугласа накладываются определённые ограничения, которые необходимо учитывать при спецификации модели:
1)
2)
3)
4)
5)
6)
Первое и второе ограничения означают, что объём выпускаемой продукции увеличивается при постоянном значении одного из факторов и росте другого фактора. Однако если один из факторов производства фиксирован, а другой фактор возрастает, то каждая дополнительная (предельная) единица возрастающего фактора менее полезна (с точки зрения прироста выпуска продукции), чем предыдущая единица.
Третье и четвёртное ограничения означают, что при фиксированном значении одного из факторов последовательное увеличение другого фактора будет приводить к сокращению прироста значения Q.
Пятое и шестое ограничения означают, что каждый из факторов производства необходим в том смысле, что если один из факторов равен нулю (K=0 или L=0), то и объём производства также равен нулю Q=0.
51. Показатели двухфакторной производственной функции Кобба-Дугласа
Двухфакторную производственную функцию Кобба-Дугласа f(K,L) можно представить в виде:
Q=A*Ka*Lβ,
где Q – объём выпущенной продукции (в стоимостном или натуральном выражении);
K – объём основного капитала или основных фондов;
L – объём трудовых ресурсов или трудовых затрат (измеряемое количеством рабочих или количеством человеко-дней).
A, a, β – неизвестные числовые параметры производственной функции, которые подчиняются условиям:
1) 0≤а≤1;
2) 0≤β≤1;
3) A›0;
4) a+β=1.
Данная производственная функция характеризуется следующими показателями:
1) частный коэффициент эластичности производственной функции Кобба-Дугласа по факторной переменной капитала K рассчитывается по формуле:
Таким образом, ЭК(у)=а, т. е. частный коэффициент эластичности функции Кобба-Дугласа равен числовому параметру а, и, следовательно, является независимым от переменных К и L;
2) частный коэффициент эластичности производственной функции Кобба-Дугласа по факторной переменной затрат труда L рассчитывается по формуле:
Таким образом, ЭL(у)=β, т. е. частный коэффициент эластичности функции Кобба-Дугласа равен числовому параметру β, и, следовательно, является независимым от переменных К и L;
3) коэффициент средней производительности труда производственной функции Кобба-Дугласа:
4) коэффициент средней фондоотдачи производственной функции Кобба-Дугласа:
5) коэффициент предельной производительности труда производственной функции Кобба-Дугласа:
Данный показатель характеризует величину эффекта от каждой дополнительной единицы затраченного труда. Он пропорционален показателю средней производительности труда, но всегда меньше его величины, т. к. 0≤β≤1;
6) коэффициент предельной фондоотдачи производственной функции Кобба-Дугласа:
Данный показатель характеризует величину эффекта от каждой дополнительной единицы основных фондов, использованной в производстве. Он пропорционален показателю средней производительности, но всегда меньше его величины, т. к. 0≤а≤1;
7) коэффициент предельной нормы технической замены факторных переменных (замены труда капиталом) производственной функции Кобба-Дугласа:
Данный показатель характеризует, на сколько единиц можно уменьшить объём используемого капитала при увеличении объёма трудовых затрат на единицу и фиксированном объёме выпуска продукции.
52. Метод наименьших квадратов для двухфакторной производственной функции Кобба-Дугласа. Эффект от масштаба производства
Двухфакторную производственную функцию Кобба-Дугласа f(K,L) можно представить в виде:
Q=A*Ka*Lβ,
где Q – объём выпущенной продукции (в стоимостном или натуральном выражении);
K – объём основного капитала или основных фондов;
L – объём трудовых ресурсов или трудовых затрат (измеряемое количеством рабочих или количеством человеко-дней).
A,a,β – неизвестные числовые параметры производственной функции, которые подчиняются условиям:
1) 0≤а≤1;
2) 0≤β≤1;
3) A›0;
4) a+β=1.
Двухфакторная производственная функция Кобба-Дугласа относится к классу нелинейных по параметрам функций, которые можно свести к линейному виду.
Для того, чтобы привести двухфакторную производственную функцию Кобба-Дугласа к линейному виду, необходимо прологарифмировать обе части данной функции:
lnQj–lnLj=lna+β(lnKj–lnLj)+εj,,
где εj – случайная ошибка производственной функции
Для более наглядного представления данной модели регрессии воспользуемся методом замен:
yj= lnQj–lnLj;
b0=lna;
b1=β;
b=[ b0 b1]T;
xj= lnKj–lnLj;
δT(xj)=[0 xj].
В результате произведённых замен получим окончательный вид производственной функции Кобба-Дугласа, приведённой к линейной форме:
В данной функции неизвестным является только вектор коэффициентов b. Оценку данного вектора можно получить с помощью классического метода наименьших квадратов по формулам:
где
– среднее арифметическое значение переменной х:
– среднее арифметическое значение переменной у:
– среднее значение квадрата переменной х:
– среднее значение произведения переменных х и у:
После того, как будут получены МНК-оценки неизвестных коэффициентов b0 и b1 линеаризованной двухфакторной производственной функции Кобба-Дугласа, на их основе можно будет рассчитать оценки неизвестных параметров A,a,β исходной функции Кобба-Дугласа.
Эффектом от масштаба производства для двухфакторной производственной функции называется изменение объёма произведённой продукции при пропорциональном изменении затрат труда и капитала.
Пусть объём основного капитала изменился на величину nK, а объём трудовых затрат увеличился на величину nL. Рассчитаем величину изменения объёма производства для функции двухфакторной производственной Кобба-Дугласа:
Q(n)=A*(nKa)*(nLβ)= A*Ka*Lβ*na+β=Q*na+β.
Если справедливо неравенство (a+β)›1, то функция Кобба-Дугласа имеет возрастающий эффект от масштабов производства, т. е. с увеличением факторных переменных K и L в n раз, объём производства Q возрастает в na+β раз.
Если справедливо равенство (a+β)=1, то функция Кобба-Дугласа имеет фиксированный эффект от масштабов производства, т. е. с увеличением факторных переменных K и L в n раз, объём производства Q также возрастает в n раз.
Если справедливо неравенство (a+β)‹1, то функция Кобба-Дугласа имеет убывающий эффект от масштабов производства, т. е. с увеличением факторных переменных K и L в n раз, объём производства Q возрастает меньшими чем n темпами.
53. Двухфакторная производственная функция Солоу
Помимо двухфакторной производственной функции Кобба-Дугласа, одной из наиболее часто используемых двухфакторных функций является производственная функция, предложенная американским учёным Солоу в 1956 г.
Общий вид двухфакторной производственной функции Солоу:
где Q – объём выпущенной продукции (в стоимостном или натуральном выражении);
K – объём основного капитала или основных фондов;
L – объём трудовых ресурсов или трудовых затрат (измеряемое количеством рабочих или количеством человеко-дней).
A,β,a – неизвестные числовые параметры или технологические характеристики производственной функции, которые подчиняются условиям:
1) 0≤а≤1
2) A›0;
3) β›0.
По сравнению с двухфакторной производственной функцией Кобба-Дугласа производственная функция Солоу имеет много преимуществ.
Для функции Солоу является справедливым правило эффекта от масштаба производства, т. е. она является однородной относительно переменных.
Докажем данное утверждение. Пусть объём основного капитала изменился на величину nK, а объём трудовых затрат увеличился на величину nL. Рассчитаем величину изменения объёма производства для функции двухфакторной производственной Солоу:
Данное равенство означает, что с ростом факторных переменных K и L в n раз объём произведённой продукции Q также возрастает в n раз (если справедливо неравенство n›1). С уменьшением факторных переменных K и L в n раз объём произведённой продукции Q также снижается в n раз (если справедливо неравенство 0‹n‹1).
Если одна из факторных переменных производственной функции Солоу равна нулю, например, K=0, то изменение объёма производства Q будет линейно зависеть от изменения объёма второй факторной переменной, т. е. затрат труда L. И, наоборот, если L=0, то изменение объёма производства Q будет линейно зависит от изменения затрат основного капитала К.
Если одну из факторных переменных, например, затраты основного капитала K зафиксировать на уровне K0, то объем произведённой продукции Q будет увеличиваться с ростом второй факторной переменной затрат труда L. Если же зафиксировать факторную переменную затрат труда L на уровне L0, то объем произведённой продукции Q будет увеличиваться с ростом второй факторной переменной К.
Докажем данное утверждение. Рассчитаем показатель предельной производительности факторной переменной затрат труда L:
Следовательно, предельная производительность факторной переменной L всегда больше нуля.
Аналогично доказывается, что предельная производительность второй факторной переменной объёма основных фондов К также больше нуля, что говорит о росте объёма произведённой продукции Q с ростом факторной переменной К и при фиксированном значении факторной переменной L.
Изоквантой для двухфакторной производственной функции Солоу называется кривая, которая характеризуется равенством β(K,L)=const.
Для производственной функции Солоу можно рассчитать показатели эластичности:
1) частный коэффициент эластичности функции Солоу по факторной переменной К рассчитывается по формуле:
2) частный коэффициент эластичности функции Солоу по факторной переменной L рассчитывается по формуле:
54. Многофакторные производственные функции
Многофакторной производственной функцией называется функция, которая характеризует зависимость объёма производства от n-го количества факторов производства.
y=f(xi),
где
Многофакторные производственные функции полезны тем, что на их основе можно рассчитать целый ряд важнейших экономических показателей.
К основным показателям многофакторных производственных функций относятся:
1) показатель средней производительности (эффективности, отдачи) i-го фактора при условии фиксированности всех остальных факторов:
2) показатель предельной производительности (эффективности, отдачи) i-го фактора, который характеризует приращение объёма производства на единицу приращения i-го фактора, рассчитывается как частная производная по факторной переменной xi:
3) для определения характера изменения предельной производительности с изменением объёма i-го фактора при постоянном значении всех остальных факторов, включённых в модель, рассчитывается частная производная второго порядка по факторной переменной xi:
Если показатель
больше нуля, то предельная производительность возрастает с ростом объёма i-ой факторной переменной.
Если показатель
равен нулю, то можно найти такое значение объёма i-ой факторной переменной, при котором предельная производительность будет или минимальной или максимальной.
4) показатель частной эластичности i-го ресурса для многофакторной производственной функции характеризует относительное изменение результата производства на единицу относительного изменения i-ой факторной переменной:
5) потребность производства в i-том факторе выражается через функциональную зависимость вида:
xi=φ(y,x1…xi-1,xi+1…xn).
6) для любой пары факторов производства i и j можно рассчитать предельную норму замещения j-ой факторной переменной i-той факторной переменной. Эта норма равна взятому со знаком минус отношению показателей предельной производительности i-ой и j-ой факторных переменных:
При выборе конкретного вида производственной функции исследователь должен руководствоваться закономерностями изменения всех рассмотренных показателей. В некоторых случаях выбранную форму производственной функции приходится отвергать, потому что соответствующая ей система показателей противоречит результатам качественного анализа или эмпирическим данным. С другой стороны предварительные заключения о характере изменений рассмотренных показателей могут стать основным доводом в пользу выбора той или иной формы производственной функции.
55. Модели бинарного выбора
Результативная переменная у в нормальной линейной модели регрессии является непрерывной величиной, способной принимать любые значения из заданного множества. Но помимо нормальных линейных моделей регрессии существуют модели регрессии, в которых переменная у должна принимать определённый узкий круг заранее заданных значений.
Моделью бинарного выбора называется модель регрессии, в которой результативная переменная может принимать только узкий круг заранее заданных значений
В качестве примеров бинарных результативных переменных можно привести:
Приведенные в качестве примеров бинарные переменные являются дискретными величинами. Бинарная непрерывная величина задаётся следующим образом:
Если стоит задача построения модели регрессии, включающей результативную бинарную переменную, то прогнозные значения yiпрогноз, полученные с помощью данной модели, будут выходить за пределы интервала [0;+1] и не будут поддаваться интерпретации. В этом случае задача построения модели регрессии формулируется не как предсказание конкретных значений бинарной переменной, а как предсказание непрерывной переменной, значения которой заключаются в интервале [0;+1].
Решением данной задачи будет являться кривая, удовлетворяющая следующим трём свойствам:
1) 1) F(–∞)=0;
2) F(+∞)=1;
3) F(x1)>F(x2) при условии, чтоx1> x2.
Данным трём свойствам удовлетворяет функция распределения вероятности.
Модель парной регрессии с результативной бинарной переменной с помощью функции распределения вероятности можно представить в следующем виде:
prob(yi=1)=F(β0+β1xi),
где prob(yi=1) – это вероятность того, что результативная переменная yi примет значение, равное единице.
В этом случае прогнозные значения yiпрогноз, полученные с помощью данной модели, будут лежать в пределах интервала [0;+1].
Модель бинарного выбора может быть представлена с помощью скрытой или латентной переменной следующим образом:
Векторная форма модели бинарного выбора с латентной переменной:
В данном случае результативная бинарная переменная yi принимает значения в зависимости от латентной переменной yi*:
Модель бинарного выбора называется пробит-моделью или пробит-регрессией (probit regression), если она удовлетворяет двум условиям:
1) остатки модели бинарного выбора εi являются случайными нормально распределёнными величинами;
2) функция распределения вероятностей является нормальной вероятностной функцией.
Пробит-регрессия может быть представлена с помощью выражения:
NP(yi)=NP(β0+β1x1i+…+βkxki),
где NP – это нормальная вероятность (normal probability).
Модель бинарного выбора называется логит-моделью или логит-регрессией (logit regression), если случайные остатки εi подчиняются логистическому закону распределения.
Логит-регрессия может быть представлена с помощью выражения:
Данная модель логит-регрессии характеризуется тем, что при любых значениях факторных переменных и коэффициентов регрессии, значения результативной переменной yi будут всегда лежать в интервале [0;+1].
Обобщённый вид модели логит-регрессии:
Достоинством данной модели является то, что результативная переменная yi может произвольно меняться внутри заданного числового интервала (не только от нуля до плюс единицы).
Логит-регрессия относится к классу функций, которые можно привести к линейному виду. Это осуществляется с помощью преобразования, носящего название логистического или логит преобразования, которое можно проиллюстрировать на примере преобразования обычной вероятности р:
Качество построенной логит-регрессии или пробит-регрессии характеризуется с помощью псевдо коэффициента детерминации, который рассчитывается по формуле:
Если значение данного коэффициента близко к единице, то модель регрессии считается адекватной реальным данным.
56. Метод максимума правдоподобия
Метод максимума правдоподобия (maximum likelihood function) применяется для определения неизвестных коэффициентов модели регрессии и является альтернативой методу наименьших квадратов. Суть данного метода состоит в максимизации функции правдоподобия или её логарифма.
Общий вид функции правдоподобия:
где
– это геометрическая сумма, означающая перемножение вероятностей по всем возможным случаям внутри скобок.
Предположим, что на основании полученных данных была построена модель регрессии бинарного выбора, где результативная переменная представлена с помощью латентной переменной:
Следовательно, вероятность события, что результативная переменная yi примет значение, равное единице, можно выразить следующим образом:
Вероятность события, что результативная переменная yi примет значение, равное нулю, можно выразить следующим образом:
В связи с тем, что для вероятностей считается справедливым равенство вида:
функция правдоподобия может быть записана как геометрическая сумма вероятностей наблюдений:
Для логит-регрессии и пробит-регрессии функция правдоподобия строится через сумму натуральных логарифмов правдоподобия следующим образом:
Оценки неизвестных параметров логит-регрессии и пробит-регрессии определяются с помощью максимизации функции правдоподобия:
Для определения максимума функции l(β,X) необходимо вычислить частные производные этой функции по каждому из оцениваемых параметров и приравнять их к нулю. Результатом данной процедуры будет стационарная система уравнений:
С помощью преобразований данной системы уравнений переходим к системе нормальных уравнений, решениями которой и будут оценки максимального правдоподобия
Прежде, чем использовать пробит-регрессию и логит-регрессию для прогнозирования или анализа, необходимо проверить значимость вычисленных коэффициентов пробит и логит регрессий и моделей регрессии в целом. Подобная проверка осуществляется с помощью величины (l1-l0), где параметр l1 соответствует максимально правдоподобной оценке основной модели регрессии, а параметр l0 – оценка нулевой модели регрессии, т. е. yi=β0.
При проверке значимости коэффициентов пробит или логит-регрессии выдвигается основная гипотеза о незначимости данных коэффициентов:
H0:β1=β2=…=βk=0.
Тогда конкурирующей или альтернативной гипотезой будет гипотеза вида:
H1:β1≠β2≠…≠βk≠0.
Для проверки выдвинутых гипотез рассчитывается величина H=-2(l1–l0), которая распределена по χ2закону распределения с k степенями свободы.
Критическое значение χ2-критерия определяется по таблице по β2распределения в зависимости от заданного значения вероятности а и степени свободы k.
При проверке гипотез возможны следующие ситуации:
Если величина H больше критического значение χ2-критерия, т.е.
то основная гипотеза отвергается, и коэффициенты модели регрессии являются значимыми. Следовательно, модель пробит или логит-регрессии также является значимой.
Если величина H меньше критического значение β2-критерия, т. е.
то основная гипотеза принимается, и коэффициенты модели регрессии являются незначимыми. Следовательно, модель пробит или логит-регрессии также является незначимой.
Оценки неизвестных коэффициентов модели регрессии, полученные методом максимума правдоподобия, удовлетворяют следующему утверждению.
Пусть ω – это элемент, принадлежащий заданному пространству А. Если А является открытым интервалом, а функция L(ω) дифференцируема и достигает максимума в заданном интервале A, то оценки максимального правдоподобия удовлетворяют равенству вида:
Докажем данное утверждение на примере модели логит-регрессии.
Функция максимального правдоподобия для модели логит-регрессии имеет вид:
Продифференцируем полученную функцию по параметру β:
Следовательно, утверждение можно считать доказанным.
В том случае, если для модели регрессии справедливы предпосылки нормальной линейной модели регрессии, то оценки неизвестных коэффициентов, полученные с помощью метода наименьших квадратов, и оценки, полученные с помощью метода максимума правдоподобия, будут совпадать.
57. Гетероскедастичность остатков модели регрессии
Случайной ошибкой называется отклонение в линейной модели множественной регрессии:
εi=yi–β0–β1x1i–…–βmxmi
В связи с тем, что величина случайной ошибки модели регрессии является неизвестной величиной, рассчитывается выборочная оценка случайной ошибки модели регрессии по формуле:
где ei – остатки модели регрессии.
Термин гетероскедастичность в широком смысле понимается как предположение о дисперсии случайных ошибок модели регрессии.
При построении нормальной линейной модели регрессии учитываются следующие условия, касающиеся случайной ошибки модели регрессии:
6) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:
7) дисперсия случайной ошибки модели регрессии постоянна для всех наблюдений:
8) между значениями случайных ошибок модели регрессии в любых двух наблюдениях отсутствует систематическая взаимосвязь, т. е. случайные ошибки модели регрессии не коррелированны между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю):
Второе условие
означает гомоскедастичность (homoscedasticity – однородный разброс) дисперсий случайных ошибок модели регрессии.
Под гомоскедастичностью понимается предположение о том, что дисперсия случайной ошибки βi является известной постоянной величиной для всех наблюдений.
Но на практике предположение о гомоскедастичности случайной ошибки βi или остатков модели регрессии ei выполняется не всегда.
Под гетероскедастичностью (heteroscedasticity – неоднородный разброс) понимается предположение о том, что дисперсии случайных ошибок являются разными величинами для всех наблюдений, что означает нарушение второго условия нормальной линейной модели множественной регрессии:
Гетероскедастичность можно записать через ковариационную матрицу случайных ошибок модели регрессии:
Тогда можно утверждать, что случайная ошибка модели регрессии βi подчиняется нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2Ω:
εi~N(0; G2Ω),
где Ω – матрица ковариаций случайной ошибки.
Если дисперсии случайных ошибок
модели регрессии известны заранее, то проблема гетероскедастичности легко устраняется. Однако в большинстве случаев неизвестными являются не только дисперсии случайных ошибок, но и сама функция регрессионной зависимости y=f(x), которую предстоит построить и оценить.
Для обнаружения гетероскедастичности остатков модели регрессии необходимо провести их анализ. При этом проверяются следующие гипотезы.
Основная гипотеза H0 предполагает постоянство дисперсий случайных ошибок модели регрессии, т. е. присутствие в модели условия гомоскедастичности:
Альтернативная гипотеза H1 предполагает непостоянство дисперсиий случайных ошибок в различных наблюдениях, т. е. присутствие в модели условия гетероскедастичности:
Гетероскедастичность остатков модели регрессии может привести к негативным последствиям:
1) оценки неизвестных коэффициентов нормальной линейной модели регрессии являются несмещёнными и состоятельными, но при этом теряется свойство эффективности;
2) существует большая вероятность того, что оценки стандартных ошибок коэффициентов модели регрессии будут рассчитаны неверно, что конечном итоге может привести к утверждению неверной гипотезы о значимости коэффициентов регрессии и значимости модели регрессии в целом.
58. Тест Глейзера обнаружения гетероскедастичности остатков модели регрессии
Существует несколько тестов на обнаружение гетероскедастичности остатков модели регрессии.
Рассмотрим применение теста Глейзера на примере линейной модели парной регрессии.
Предположим, что на основе проведённого исследования зависимость между переменными можно аппроксимировать линейной моделью парной регрессии вида:
yi=β0+β1xi.
Неизвестные коэффициенты β0и β1линейной модели парной регрессии определяются с помощью метода наименьших квадратов. В результате мы получим оценённую модель регрессии вида:
После этого необходимо рассчитать остатки модели регрессии по формуле:
Полученные остатки модели регрессии возводятся в квадрат:
Далее для обнаружения гетероскедастичности остатков данной модели регрессии необходимо рассчитать коэффициент Спирмена между квадратами регрессионных остатков
и значениями факторной переменной xi.
Коэффициент Спирмена является аналогом парного коэффициента корреляции, однако, с его помощью можно оценить тесноту зависимости не только между количественными, но и между количественными и качественными переменными.
В качестве зависимой переменной будет выступать квадрат остатков модели регрессии
в качестве независимой переменной – значения факторной переменной xi.
Значения независимой переменной xi ранжируется и располагается по возрастанию. Ранги обозначаются как Rx. Далее проставляются ранги зависимой переменной
обозначаемые как Re.
Коэффициент Спирмена рассчитывается по формуле:
где d – ранговая разность (Rx– Re);
n – количество пар вариантов.
Далее необходимо проверить значимость вычисленного коэффициента Спирмена.
При проверке значимости коэффициента Спирмена выдвигается основная гипотеза о его незначимости:
Н0: Кспир=0.
Тогда конкурирующей или альтернативной гипотезой будет гипотеза вида:
Н1: Кспир≠0.
Проверка выдвинутых гипотез осуществляется с помощью t-критерия Стьюдента.
Наблюдаемое значение t-критерия (вычисленное на основе выборочных данных) сравнивают с критическим значением t-критерия, которое определяется по таблице распределения Стьюдента.
Критическое значение t-критерия tкрит(а, n-2) определяется по таблице распределения Стьюдента, где а – уровень значимости, (n-2) – число степеней свободы, n – объём выборочной совокупности.
Наблюдаемое значение t-критерия при проверке основной гипотезы вида Н0: Кспир=0 рассчитывается по формуле:
При проверке гипотез возможны следующие ситуации.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю больше критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. |tнабл|›tкрит, то основная гипотеза отвергается, и между переменной xi и остатками регрессионной модели
существует взаимосвязь, т. е. в модели присутствует гетероскедастичность.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю меньше или равно критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. |tнабл|≤tкрит, то основная гипотеза принимается, и в модели парной регрессии гетероскедастичность отсутствует.
Если тест Глейзера проводился для линейной модели множественной регрессии, то при принятии основной гипотезы делается вывод о том, что гетероскедастичность не зависит от выбранной переменной xmi.
59. Тест Голдфелда-Квандта обнаружения гетероскедастичности остатков модели регрессии
Основным условием проведения теста Голдфелда-Квандта является предположение о нормальном законе распределения случайной ошибки βi модели регрессии.
Рассмотрим применение данного теста на примере линейной модели множественной регрессии.
Предположим, что на основе проведённого исследования зависимость между переменными можно аппроксимировать линейной моделью множественной регрессии.
В модели множественной регрессии выбирается независимая переменная xik, от которой наиболее вероятно могут зависеть остатки модели ei.
На следующем этапе значения независимой переменной xik ранжируются
располагаются по возрастанию и делятся на равные 3 части.
Для I и III частей строятся две независимые модели регрессии вида:
Для каждой из построенных моделей регрессий рассчитываются суммы квадратов остатков:
Основная гипотеза H0 предполагает постоянство дисперсий случайных ошибок модели регрессии, т. е. присутствие в модели условия гомоскедастичности:
Альтернативная гипотеза H1 предполагает непостоянство дисперсиий случайных ошибок в различных наблюдениях, т. е. присутствие в модели условия гетероскедастичности:
Данные гипотезы проверяются с помощью F-критерия Фишера-Снедекора.
Наблюдаемое значение F-критерия (вычисленное на основе выборочных данных) сравнивают с критическим значением F-критерия, которое определяется по таблице распределения Фишера-Снедекора.
Критическое значение F-критерия определяется по таблице распределения Фишера-Снедекора в зависимости от уровня значимости а и двух степеней свободы: k1=nI–l и k2=nI–l, где l – число оцениваемых по данной выборке параметров.
Наблюдаемое значение F-критерия находят по формуле:
При проверке основной гипотезы возможны следующие ситуации.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл›Fкрит, то основная гипотеза отвергается, и, следовательно, в модели регрессии присутствует гетероскедастичность, зависящая от переменной xik.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл‹Fкрит, то основная гипотеза принимается, и гетероскедастичность в модели множественной регрессии не зависит от переменной xik.
На следующем этапе проверяются другие независимые переменные, если есть предположение об их тесной связи с G2(εi).
Если тест Голдфелда-Квандта проводился для линейной модели парной регрессии, то вывод о принятии основной гипотезы означает гомоскедастичность построенной модели регрессии.
60. Устранение гетероскедастичности остатков модели регрессии
Существует множество методов устранения гетероскедастичности остатков модели регрессии. Рассмотрим некоторые из них.
Наиболее простым методом устранения гетероскедастичности остатков модели регрессии является взвешивание параметров модели регрессии. В этом случае отдельным наблюдениям независимой переменой, характеризующимся максимальным среднеквадратическим отклонением случайной ошибки, придаётся больший вес, а остальным наблюдениям с минимальным среднеквадратическим отклонением случайной ошибки придаётся меньший вес. После данной процедуры свойство эффективности оценок неизвестных коэффициентов модели регрессии сохраняется.
Если для устранения гетероскедастичности был использован метод взвешивания, то в результате мы получим взвешенную модель регрессии с весами
Предположим, что на основе имеющихся данных была построена линейная модель парной регрессии, в которой было доказано наличие гетероскедастичности остатков
Рассмотрим подробнее процесс взвешивания для данной модели регрессии.
Разделим каждый член модели регрессии на среднеквадратическое отклонение случайной ошибки G(βi):
В общем виде процесс взвешивания для линейной модели парной регрессии выглядит следующим образом:
Для более наглядного представления полученной модели регрессии воспользуемся методом замен:
В результате получим преобразованный вид взвешенной модели регрессии:
Преобразованная взвешенная модель регрессии является двухфакторной моделью регрессии.
Дисперсию случайной ошибки взвешенной модели регрессии можно рассчитать по формуле:
Полученный результат доказывает постоянство дисперсий случайных ошибок преобразованной модели регрессии, т. е. о выполнении условия гомоскедастичности.
Главный недостаток метода взвешивания заключается в необходимости априорного знания среднеквадратических отклонений случайных ошибок модели регрессии. По той причине, что в большинстве случаев данная величина является неизвестной, приходится использовать другие методы, в частности методы коррекции гетероскедастичности.
Определение. Суть методов коррекции гетероскедастичности состоит в определении оценки ковариационной матрицы случайных ошибок модели регрессии:
Для определения оценок
используется метод Бреуше-Пайана, который реализуется в несколько этапов:
1) после получения оценок неизвестных коэффициентов модели регрессии рассчитывают остатки ei и показатель суммы квадратов остатков
2) рассчитывают оценку дисперсии остатков модели регрессии по формуле:
3) строят взвешенную модель регрессия, где весами являются оценка дисперсии остатков модели регрессии
4) если при проверке гипотез взвешенная модель регрессии является незначимой, то можно сделать вывод, что оценки матрицы ковариаций Ω являются неточными.
Если вычислены оценки дисперсий остатков модели регрессии, то в этом случае можно использовать доступный обобщённый или взвешенный методы наименьших квадратов для вычисления оценок коэффициентов модели регрессии, которые отличаются только оценкой
Если гетероскедастичность остатков не поддаётся корректировке, то можно рассчитать оценки неизвестных коэффициентов модели регрессии с помощью классического метода наименьших квадратов, но затем подвергнуть корректировке ковариационную матрицу оценок коэффициентов
т. к. условие гетероскедастичности приводит к увеличению данной матрицы.
Ковариационная матрица оценок коэффициентов
может быть скорректирована методом Уайта:
где N – количество наблюдений;
X – матрица независимых переменных;
– квадрат остатков модели регрессии;
– транспонированная i-тая строка матрицы данных Х.
Корректировка ковариационной матрицы оценок коэффициентов
методом Уайта приводит к изменению t-статистики и доверительных интервалов для коэффициентов регрессии.
61. Автокорреляция остатков модели регрессии. Последствия автокорреляции. Автокорреляционная функция
Автокорреляцией называется корреляция, возникающая между уровнями изучаемой переменной. Это корреляция, проявляющаяся во времени. Наличие автокорреляции чаще всего характерно для данных, представленных в виде временных рядов.
Автокорреляцией остатков модели регрессииei (или случайных ошибок регрессии модели βi) называется корреляционная зависимость между настоящими и прошлыми значениями остатков.
Временным лагом называется величина сдвига между рядами остатков модели регрессии.
Величина временного лага определяет порядок коэффициента автокорреляции. Например, если между остатками en и en-1 существует корреляционная зависимость, то временной лаг равен единице. Следовательно, данную корреляционную зависимость можно охарактеризовать с помощью коэффициента автокорреляции первого порядка между рядами остатков e1…en-1 и e2…en.
Одно из условий, которое учитывается при построении нормальной линейной модели регрессии, заключается в некоррелированности случайных ошибок модели регрессии, т. е. ковариация случайных ошибок любых двух разных наблюдений равна нулю:
Если в модели регрессии случайные ошибки коррелированны между собой, то данное условие нарушается.
Последствия, к которым может привести наличие в модели регрессии автокорреляции остатков, совпадают с последствиями, к которым может привести наличие в модели регрессии гетероскедастичности:
1) оценки неизвестных коэффициентов нормальной линейной модели регрессии являются несмещёнными и состоятельными, но при этом теряется свойство эффективности;
2) существует большая вероятность того, что оценки стандартных ошибок коэффициентов модели регрессии будут рассчитаны неверно, что конечном итоге может привести к утверждению неверной гипотезы о значимости коэффициентов регрессии и значимости модели регрессии в целом.
Наиболее наглядным способом обнаружения автокорреляции случайных остатков регрессионной модели является графический метод. При этом осуществляется построение графиков автокорреляционной и частной автокорреляционной функций.
Автокорреляционной функцией называется функция оценки коэффициента автокорреляции в зависимости от величины временного лага между исследуемыми рядами.
Графически автокорреляционная функция изображается с помощью коррелограммы. Коррелограмма отражает численно и графически коэффициенты автокорреляции и их стандартные ошибки для последовательности лагов из определённого диапазона (например, от 1 до 25). При этом по оси Х откладываются значения τ (тау) – величины сдвига между рядами остатков, которые совпадают с порядком автокорреляционного коэффициента. Также на коррелограмме отмечается диапазон в размере двух стандартных ошибок коэффициентов автокорреляции на каждом лаге.
Частная автокорреляционная функция является более углублённой версией обычной автокорреляционной функции. Её отличительной особенностью является исключение корреляционной зависимости между наблюдениями внутри лагов, т. е. частная автокорреляционная функция на каждом лаге отличается от обычной автокорреляционной функции на величину удалённых автокорреляций с меньшими временными лагами. Следовательно, частная автокорреляционная функция более точно характеризует автокорреляционные зависимости внутри временного ряда.
62. Критерий Дарбина-Уотсона обнаружения автокорреляции остатков модели регрессии
Помимо автокорреляционной и частной автокорреляционной функций для обнаружения автокорреляции остатков модели регрессии используется критерий Дарбина-Уотсона. Однако данный критерий можно применять только для обнаружения автокорреляции первого порядка между соседними рядами случайных остатков.
Предположим, что на основе собранных данных была построена линейная модель множественной регрессии, которая представлена в матричном виде:
Y=Xβ+εt.
Присутствующая в данной модели регрессии автокорреляция первого порядка может генерировать ошибку, определяемую по формуле:
εt=ρεt-1+νt
где ρ – коэффициент автокорреляции, |ρ|<1;
νt – независимые, одинаково распределённые случайные величины с нулевым математическим ожиданием и дисперсией G2(νt).
Перед исследователем стоит задача определения наличия автокорреляции первого порядка в построенной модели регрессии.
Выдвигается основная гипотеза о незначимости коэффициента автокорреляции первого порядка:
H0: ρ1=0.
Обратная или конкурирующая гипотеза состоит в утверждении о значимости коэффициента автокорреляции:
H0: ρ1≠0.
Проверка выдвинутых гипотез осуществляется с помощью критерия Дарбина-Уотсона.
Наблюдаемое значение критерия Дарбина-Уотсона (вычисленное на основе выборочных данных) сравнивают с критическим значением критерия Дарбина-Уотсона, которое определяется по специальным таблицам.
Критическое значение критерия Дарбина-Уотсона определяется в зависимости от значений верхней d1 и нижней d2 границ критерия по специальным таблицам. Данные границы определяются в зависимости от объёма выборочной совокупности n и числа степеней свободы (h-1), где h – количество оцениваемых по выборке параметров.
Наблюдаемое значение критерия Дарбина-Уотсона при проверке основной гипотезы вида H0: ρ1=0 определяется по формуле:
где et – остатки модели регрессии в наблюдении t, определяемые по формуле:
et-1 – остатки модели регрессии в наблюдении t-1, определяемые по формуле:
Приближённое значение величины критерия Дарбина-Уотсона можно также рассчитать по формуле:
dнабл≈2(1-r1),
где r1 – выборочный коэффициент автокорреляции первого порядка. В зависимости от величины данного коэффициента, наблюдаемое значение критерия Дарбина-Уотсона определяется следующим образом:
1) если r1=0, то dнабл=2;
2) если r1=+1, то dнабл=0;
3) если r1=-1, то dнабл=4.
Если коэффициент автокорреляции является положительной величиной, то при проверке гипотез возможно возникновение следующих ситуаций.
Если наблюдаемое значение критерия Дарбина-Уотсона меньше критического значения его нижней границы, т. е. dнабл‹d1, то основная гипотеза об отсутствии автокорреляции первого порядка между остатками модели регрессии отклоняется.
Если наблюдаемое значение критерия Дарбина-Уотсона больше критического значения его верхней границы, т. е. dнабл>d2, то основная гипотеза об отсутствии автокорреляции первого порядка между остатками модели регрессии принимается.
Если наблюдаемое значение критерия Дарбина-Уотсона находится между верхней и нижней критическими границами, т. е. d1< dнабл< d2, то достаточных оснований для принятия единственно правильного решения нет, необходимы дополнительные исследования.
Если коэффициент автокорреляции является отрицательной величиной, то при проверке гипотез возможно возникновение следующих ситуаций.
Если наблюдаемое значение критерия Дарбина-Уотсона больше критической величины 4 – d1, т.е. dнабл>4 – d1, то основная гипотеза об отсутствии автокорреляции первого порядка между остатками модели регрессии отклоняется
Если наблюдаемое значение критерия Дарбина-Уотсона меньше критической величины 4 – d2, т. е. dнабл‹4 – d2, то основная гипотеза об отсутствии автокорреляции первого порядка между остатками модели регрессии принимается.
Если наблюдаемое значение критерия Дарбина-Уотсона находится в критическом интервале между величинами 4 – d1 и 4– d2, т.е. 4 – d1< dнабл<4 – d2, , то достаточных оснований для принятия единственно правильного решения нет, необходимы дополнительные исследования.
63. Устранение автокорреляции остатков модели регрессии
В связи с тем, что наличие в модели регрессии автокорреляции между остатками модели может привести к негативным результатам всего процесса оценивания неизвестных коэффициентов модели, автокорреляция остатков должна быть устранена.
Устранить автокорреляцию остатков модели регрессии можно с помощью включения в модель автокорреляционного параметра, однако на практике данный подход реализовать весьма затруднительно, потому что оценка коэффициента автокорреляции является величиной заранее неизвестной.
Авторегрессионной схемой первого порядка называется метод устранения автокорреляции первого порядка между соседними членами остаточного ряда в линейных моделях регрессии либо моделях регрессии, которые можно привести к линейному виду.
На практике применение авторегрессионной схемы первого порядка требует априорного знания величины коэффициента автокорреляции. Однако в связи с тем, что величина данного коэффициента заранее неизвестна, в качестве его оценки рассчитывается выборочный коэффициент остатков первого порядка ρ1.
Выборочный коэффициент остатков первого порядка ρ1 рассчитывается по формуле:
В общем случае коэффициент автокорреляции порядка l рассчитывается по формуле:
где l – временной лаг;
T – число наблюдений;
t – момент времени, в который осуществлялось наблюдение;
– среднее значение исходного временного ряда.
Предположим, что на основе собранных наблюдений была построена линейная парная модель регрессии:
yt=β0+β1xt+εt.(1)
Рассмотрим применение авторегрессионной схемы первого порядка на примере данной модели.
Исходная линейная модель парной регрессии с учётом процесса автокорреляции остатков первого порядка в момент времени t может быть представлена в виде:
yt=β0+β1xt+ρεt-1+νt,.
εt=ρεt-1+νt,
где ρ – коэффициент автокорреляции, |ρ|<1;
νt – независимые, одинаково распределённые случайные величины с нулевым математическим ожиданием и дисперсией G2(νt).
Модель регрессии в момент времени (t-1) может быть представлена виде:
yt-1=β0+β1xt-1+εt-1.(2)
Если модель регрессии в момент времени (t-1) умножить на величину коэффициента автокорреляции β и вычесть её из исходной модели регрессии в момент времени t, то в результате мы получим преобразованную модель регрессии, учитывающую процесс автокорреляции первого порядка:
Для более наглядного представления преобразованной модели воспользуемся методом замен:
Yt=yt–ρyt-1;
Xt=xt–ρxt-1;
Zt=1– ρ.
В результате преобразованная модель регрессии примет вид:
Yt= Zt* β0+β1 Xt+ νt. (4)
В преобразованной модели регрессии случайная ошибка βt не подвержена процессу автокорреляции, поэтому можно считать автокорреляционную зависимость остатков модели устранённой.
Авторегрессионную схему первого порядка можно применить ко всем строкам матрицы данных Х, кроме первого наблюдения. Однако если не вычислять Y1 и X1, то подобная потеря в небольшой выборке может привести к неэффективности оценок коэффициентов преобразованной модели регрессии. Данная проблема решается с помощью поправки Прайса-Уинстена. Введём следующие обозначения:
Тогда оценки неизвестных коэффициентов преобразованной модели регрессии (4) можно рассчитать с помощью классического метода наименьших квадратов:
Оценки коэффициентов исходной модели регрессии (1) определяются по формулам:
В результате оцененная модель регрессии будет иметь вид:
64. Методы Кохрана-Оркутта и Хилдрета-Лу оценки коэффициента автокорреляции
Помимо вычисления выборочного коэффициента автокорреляции остатков оценку автокорреляционного коэффициента β можно рассчитать методом Кохрана-Оркутта.
Предположим, что на основе собранных наблюдений была построена линейная парная модель регрессии:
yt=β0+β1xt+εt.(1)
Рассмотрим применение метода Кохрана-Оркутта оценки коэффициента автокорреляции на примере данной модели.
Осуществление метода Кохрана-Оркутта происходит в несколько этапов.
1) оценки неизвестных коэффициентов исходной модели регрессии определяются классическим методом наименьших квадратов. В результате мы получим оценённую модель регрессии вида:
2) на основании исходной (1) и оценённой (2) моделей регрессии рассчитываются остатки модели:
3) рассчитывается выборочный автокорреляционный коэффициент первого порядка по формуле:
С помощью данного коэффициента можно оценить авторегрессионную зависимость остатков:
4) строится преобразованная модель регрессии. Модель регрессии в момент времени (t-1) может быть представлена виде yt-1=β0+β1xt-1+εt-1.(3). Если модель регрессии в момент времени (t-1) умножить на величину коэффициента автокорреляции β и вычесть её из исходной модели регрессии в момент времени t, то в результате мы получим преобразованную модель регрессии, учитывающую процесс автокорреляции первого порядка:
Для более наглядного представления преобразованной модели воспользуемся методом замен:
Yt=yt–ρyt-1;
Xt=xt–ρxt-1;
Zt=1– ρ.
В результате преобразованная модель регрессии примет вид:
Yt= Zt* β0+β1 Xt+ νt. (5)
5) оценки неизвестных коэффициентов преобразованной модели регрессии рассчитываются с помощью традиционного метода наименьших квадратов:
Далее рассчитываются оценки коэффициентов исходной модели регрессии по формулам:
В результате полученную модель регрессии можно представить в виде:
6) на заключительном этапе вновь вычисляются остатки et между исходной (1) и преобразованной оценённой (7) моделями регрессии, и процесс повторяется с третьего этапа.
Метод Кохрана-Оркутта является итеративным методом оценивания. Его основное отличие состоит в том, что процесс итеративного оценивания исходной модели регрессии сходится или останавливается при условии, если последнее вычисленное значение оценки коэффициента автокорреляции первого порядка ρ1 почти не отличается от своего предыдущего значения.
Другим методом вычисления оценки коэффициента автокорреляции является метод Хилдрета-Лу.
В этом случае коэффициент автокорреляции задаётся двумя параметрами: диапазоном и величиной шага. Например, коэффициента автокорреляции ρ1 заключается в пределах [-1;+1], и его значения вычисляются с шагом 0,02.
Для каждого из значений коэффициента автокорреляции с помощью метода разностей строится преобразованная модель регрессии вида:
Yt= Zt* β0+β1Xt+ νt,
где Yt=yt–ryt-1;
Xt=xt–rxt-1;
Zt=1–r.
Далее оценки неизвестных коэффициентов преобразованной модели регрессии рассчитываются с помощью классического метода наименьших квадратов:
Оценкой коэффициента автокорреляции первого порядка ρ1 будет являться то значение коэффициента, с помощью которого вычисляется минимальная сумма квадратов отклонений теоретических значений от расчётных значений (на основе преобразованной модели регрессии).
Оценки неизвестных коэффициентов результативной модели регрессии рассчитываются по формулам:
65. Обобщённая модель регрессии. Обобщённый метод наименьших квадратов. Теорема Айткена
МНК-оценки неизвестных коэффициентов модели регрессии, чьи случайные ошибки подвержены явлениям гетероскедастичности или автокорреляции, не будут удовлетворять теореме Гаусса-Маркова. Свойствами состоятельности и несмещённости МНК-оценки будут обладать, однако свойство эффективности в этом случае утрачивается.
Для вычисления оценок неизвестных коэффициентов модели регрессии с гетероскедастичными или коррелированными случайными ошибками используется обобщённый метод наименьших квадратов. Оценки, полученные с помощью данного метода, будут удовлетворять условиям состоятельности, несмещённости и эффективности.
В основе нормальной линейной модели регрессии среди прочих лежат условия о некоррелированности и гомоскедастичности случайных ошибок:
1) дисперсия случайной ошибки модели регрессии является величиной, постоянной для всех наблюдений:
2) случайные ошибки модели регрессии не коррелированны между собой, т. е. ковариация случайных ошибок любых двух разных наблюдений равна нулю:
Определение. Обобщённой линейной моделью регрессии называется модель, для которой нарушаются условия о гомоскедастичности и некоррелированности случайных ошибок.
Таким образом, обобщённая линейная модель регрессии характеризуется неоднородностью дисперсий случайных ошибок:
D(εi)≠ D(εj)≠G2≠const, где i≠j,
и наличием автокорреляции случайных ошибок:
Cov(εi,εj)≠E(εi,εj)≠0 (i≠j).
Матричный вид обобщённой линейной модели регрессии:
Y=X* β+ε,
где X – неслучайная матрица факторных переменных;
ε – случайная ошибка модели регрессии с нулевым математическим ожиданием E(ε)=0 и дисперсией G2(ε):
ε~N(0;G2Ω),
Ω – ковариационная матрица случайных ошибок обобщённой модели регрессии.
Для нормальной линейной модели регрессии дисперсия случайной ошибки определялась на основе условия гомоскедастичности:
где G2=const – дисперсия случайной ошибки модели регрессии ε;
In – единичная матрица размерности n*n.
Для обобщённой модели регрессии ковариационная матрица случайных ошибок строится на основе условия непостоянства дисперсий остатков модели регрессии (гетероскедастичности) D(εi)≠ D(εj)≠G2≠const:
Отличие между нормальной линейной моделью регрессии и обобщенной линейной моделью регрессии заключается в матрице ковариаций случайных ошибок модели.
Теорема Айткена. В классе линейных несмещённых оценок неизвестных коэффициентов обобщённой модели регрессии оценка
будет иметь наименьшую ковариационную матрицу.
Общая формула для расчёта матрицы ковариаций ОМНК-оценок коэффициентов обобщенной модели регрессии имеет вид:
Величина G2(ε) оценивается по формуле:
Однако значение G2(ε) не следует трактовать как дисперсию случайной ошибки модели регрессии.
Коэффициент детерминации не используется при оценке качества обобщённой линейной модели регрессии, потому что он не отвечает требованиям, предъявляемым к обычному множественному коэффициенту детерминации.
Проверка гипотез о значимости коэффициентов обобщенной линейной модели регрессии и модели регрессии в целом осуществляется с помощью тех же статистических критериев, что и в случае нормальной линейной модели регрессии.
66. Доступный обобщённый метод наименьших квадратов. Взвешенный метод наименьших квадратов
Если случайные ошибки модели регрессии подвержены процессу автокорреляции, то для оценивания неизвестных коэффициентов модели регрессии применяется доступный обобщённый метод наименьших квадратов.
Основное отличие доступного обобщённого метода наименьших квадратов от обобщённого метода заключается в оценке матрицы ковариаций β случайных ошибок обобщенной линейной модели регрессии.
Оценки неизвестных коэффициентов обобщённой модели регрессии рассчитываются с помощью доступного обобщённого метода наименьших квадратов по формуле:
где
– оценка матрицы ковариаций случайных ошибок обобщённой линейной модели регрессии.
Предположим, что на основе собранных данных была построена модель парной регрессии вида:
yt=β0+β1xt+εt.(1)
Рассмотрим процесс оценивания матрицы ковариаций случайных ошибок модели с автокоррелированными, но гомоскедастичными остатками на примере данной модели.
Если остатки данной модели регрессии подчиняются авторегрессионному процессу первого порядка, то исходную модель регрессии можно представить в виде:
yt=β0+β1xt+ρεt-1+νt,.
εt=ρεt-1+νt,
где ρ – коэффициент автокорреляции, |ρ|<1;
νt – независимые, одинаково распределённые случайные величины с нулевым математическим ожиданием и дисперсией G2(νt).
Математическое ожидание случайной ошибки модели регрессии равно нулю:
E(εt)=E(ρεt-1+νt)= ρE(εt-1)+E(νt)=0.
Предположим, что дисперсия случайной ошибки модели регрессии рассчитывается по формуле:
Рассчитаем ковариацию между двумя соседними случайными ошибками модели регрессии ε2 и ε1:
Рассчитаем ковариацию между следующими случайными ошибками модели регрессии ε3 и ε1:
Дальнейший процесс расчёта ковариаций для всех случайных ошибок обобщенной модели регрессии осуществляется по тому же принципу.
В результате проведённых вычислений матрицу корреляций остатков обобщённой линейной модели регрессии можно представить следующим образом:
где G2(νi) – это величина дисперсии случайной ошибки модели регрессии. Её выборочную оценку определяется по формуле:
где T – объём выборочной совокупности;
h – число оцениваемых по выборке параметров.
Если случайные ошибки модели регрессии подвержены гетероскедастичности (но являются неавтокоррелированными), то для оценивания неизвестных коэффициентов модели регрессии применяется взвешенный метод наименьших квадратов.
Суть взвешенного метода наименьших квадратов состоит в том, что остаткам обобщённой модели регрессии придаются определённые веса, которые равны обратным величинам соответствующих дисперсий G2(εi). Однако на практике значения дисперсий являются величинами неизвестными, поэтому для вычисления наиболее подходящих весов используется предположение о том, что они пропорциональны значениям факторных переменных xt.
Таким образом, матрица ковариаций случайных ошибок модели регрессии определяется исходя из предположения о пропорциональности величины G2(εi) значениям факторной переменной xt:
xt=γ G(εi),
где γ – ошибка высказанного предположения или некоторая поправка.
В этом случае матрица ковариаций случайных ошибок модели регрессии может быть представлена в виде:
От точности оценки матрицы ковариаций Ω случайных ошибок модели регрессии зависит удовлетворение оценок неизвестных коэффициентов, полученных доступным обобщённым или взвешенным методом наименьших квадратов, основным статистическим свойствам – несмещённости, состоятельности и эффективности.
67. Модели регрессии с переменной структурой. Фиктивные переменные
При построении модели регрессии может возникнуть ситуация, когда в неё необходимо включить не только количественные, но и качественные переменные (например, возраст, образование, пол, расовую принадлежность и др.).
Фиктивной переменной (dummy variable) называется атрибутивный или качественный фактор, представленный посредством определённого цифрового кода.
Наиболее наглядным примером применения фиктивных переменных является модель регрессии, отражающая проблему разрыва в заработной плате у мужчин и женщин.
Предположим, что на основе собранных данных была построена модель регрессии, отражающая зависимость заработной платы рабочих y от их возраста х:
yt=β0+β1xt.
Однако данная модель регрессии не может в полной мере охарактеризовать вариацию результативной переменной. Поэтому в модель необходимо ввести дополнительный фактор, например пол, на основании предположения о том, что у мужчин в среднем заработная плата выше, чем у женщин. В связи с тем, что переменная пола является качественной, её необходимо представить в виде фиктивной переменной следующим образом:
С учётом новой фиктивной переменной модель регрессии примет вид:
y=β0+β1x+β2D,
где β2 – это коэффициент, который характеризует в среднем разницу в заработной плате у мужчин и женщин.
Моделью регрессии с переменной структурой называется модель регрессии, которая включает в качестве факторной переменной фиктивную переменную.
Рассмотрим модель регрессии, характеризующую зависимость переменной размера заработной платы у от переменной стажа работников х с различным образованием. Качественная переменная «образование» может принимать три значения: среднее, среднее специальное и высшее. Для включения факторной переменной «образование» в модель регрессии, необходимо ввести две новых фиктивных переменных, потому что их количество должно быть на единицу меньше, чем значений качественной переменной.
Следовательно, качественная переменная «образование» может быть представлена в виде:
Модель регрессии, характеризующая зависимость переменной размера заработной платы у от переменной стажа работников х с различным образованием, примет вид:
y=β0+β1x+β2D1+ β3D2.
Моделью регрессии без ограничений (unrestricted regression) называется модель регрессии, в которую включены все фиктивные переменные.
Базисной моделью или регрессией с ограничениями (restricted regression) называется модель регрессии, в которой все значения фиктивных переменных равны нулю.
Для нашего примера модель регрессии вида y=β0+β1x+β2D1+β3D2будет являться моделью регрессии без ограничений, а модель регрессии вида y=β0+β1x при D1= D2=0 будет являться моделью регрессии с ограничениями. Базисная модель регрессии соответствует регрессионной зависимости заработной платы рабочих со средним образованием от стажа работы.
Для модели регрессии без ограничений можно также построить частные регрессии. Например, частная модель регрессии переменной заработной платы работников со средним специальным образованием от переменной стажа:
y=β0+β1x+β2D1,
где β2 — это коэффициент, который характеризует, насколько большую заработную плату получают рабочие со средним специальным образованием по сравнению с работниками со средним образованием при одинаковом стаже работы.
Частная модель регрессии переменной заработной платы работников с высшим образованием от переменной стажа:
y=β0+β1x+β3D2,
где β3 – это коэффициент, который характеризует, насколько большую заработную плату получают рабочие с высшим образованием по сравнению с рабочими со средним образованием при одинаковом стаже работы.
Оценки неизвестных коэффициентов моделей регрессии с переменной структурой рассчитываются с помощью классического метода наименьших квадратов.
68. Тест Чоу
Предположим, что на основе собранных данных была построена модель регрессии. Перед исследователем стоит задача о том, стоит ли вводить в полученную модель дополнительные фиктивные переменные или базисная модель является оптимальной. Данная задача решается с помощью метода или теста Чоу. Он применяется в тех ситуациях, когда основную выборочную совокупность можно разделить на части или подвыборки. В этом случае можно проверить предположение о большей эффективности подвыборок по сравнению с общей моделью регрессии.
Будем считать, что общая модель регрессии представляет собой модель регрессии модель без ограничений. Обозначим данную модель через UN. Отдельными подвыборками будем считать частные случаи модели регрессии без ограничений. Обозначим эти частные подвыборки как PR.
Введём следующие обозначения:
PR1 – первая подвыборка;
PR2 – вторая подвыборка;
ESS(PR1 ) – сумма квадратов остатков для первой подвыборки;
ESS(PR2 ) – сумма квадратов остатков для второй подвыборки;
ESS(UN) – сумма квадратов остатков для общей модели регрессии.
– сумма квадратов остатков для наблюдений первой подвыборки в общей модели регрессии;
– сумма квадратов остатков для наблюдений второй подвыборки в общей модели регрессии.
Для частных моделей регрессии справедливы следующие неравенства:
Условие (ESS(PR1)+ESS(PR2))= ESS(UN) выполняется только в том случае, если коэффициенты частных моделей регрессии и коэффициенты общей модели регрессии без ограничений будут одинаковы, но на практике такое совпадение встречается очень редко.
Основная гипотеза формулируется как утверждение о том, что качество общей модели регрессии без ограничений лучше качества частных моделей регрессии или подвыборок.
Альтернативная или обратная гипотеза утверждает, что качество общей модели регрессии без ограничений хуже качества частных моделей регрессии или подвыборок
Данные гипотезы проверяются с помощью F-критерия Фишера-Снедекора.
Наблюдаемое значение F-критерия сравнивают с критическим значением F-критерия, которое определяется по таблице распределения Фишера-Снедекора.
Критическое значение F-критерия Фишера определяется по таблице распределения Фишера-Снедекора в зависимости от уровня значимости а и двух степеней свободы свободы k1=m+1 и k2=n-2m-2.
Наблюдаемое значение F-критерия рассчитывается по формуле:где ESS(UN)– ESS(PR1)– ESS(PR2) – величина, характеризующая улучшение качества модели регрессии после разделения её на подвыборки;
m – количество факторных переменных (в том числе фиктивных);
n – объём общей выборочной совокупности.
При проверке выдвинутых гипотез возможны следующие ситуации.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл>Fкрит, то основная гипотеза отклоняется, и качество частных моделей регрессии превосходит качество общей модели регрессии.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т.е. Fнабл≤Fкрит, то основная гипотеза принимается, и разбивать общую регрессию на подвыборки не имеет смысла.
Если осуществляется проверка значимости базисной регрессии или регрессии с ограничениями (restricted regression), то выдвигается основная гипотеза вида:
Справедливость данной гипотезы проверяется с помощью F-критерия Фишера-Снедекора.
Критическое значение F-критерия Фишера определяется по таблице распределения Фишера-Снедекора в зависимости от уровня значимости а и двух степеней свободы свободы k1=m+1 и k2=n–k–1.
Наблюдаемое значение F-критерия преобразуется к виду:
При проверке выдвинутых гипотез возможны следующие ситуации.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл›Fкрит, то основная гипотеза отклоняется, и в модель регрессии необходимо вводить дополнительные фиктивные переменные, потому что качество модели регрессии с ограничениями выше качества базисной или ограниченной модели регрессии.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл≤Fкрит, то основная гипотеза принимается, и базисная модель регрессии является удовлетворительной, вводить в модель дополнительные фиктивные переменные не имеет смысла.
69. Спецификация переменных
Спецификацией переменных называется процесс отбора наиболее важных факторных переменных при построении модели регрессии.
Если в процессе эконометрического моделирования была осуществлена неправильная спецификация переменных, то это может привести к негативным последствиям, среди которых особо можно выделить два пункта:
1) из модели регрессии могут быть исключены факторные переменные, оказывающие наибольшее влияние на результативную переменную;
2) в модель регрессии могут быть включены факторные переменные, практические не связанные с результативной переменной или оказывающие на неё незначительное воздействие.
Предположим, что на основе собранных данных была построена нормальная модель множественной регрессии вида:
Y=Xβ+ε(1)
Данную модель можно рассматривать как базисную или ограниченную модель регрессии между исследуемыми переменными.
Тогда неограниченная модель данной регрессионной зависимости будет иметь вид:
Y=Xβ+Zλ+ε(2)
где Y – вектор результативных переменных;
X – вектор количественных факторных переменных;
Z – некоторая фиктивная переменная;
Β, λ – вектор неизвестных коэффициентов модели регрессии без ограничений, подлежащих оцениванию.
Рассмотрим случай исключения факторных переменных, оказывающих наибольшее влияние на результативную переменную, из модели регрессии.
Предположим, что модель регрессии с ограничениями является значимой. Исходя из этого условия, рассчитаем оценку коэффициента β, полученную методом наименьших квадратов, в оцениваемой модели регрессии с ограничениями (1):
Подставим в данную формулу вместо Y выражение Xβ+Zλ+ε:
Охарактеризуем полученную оценку коэффициента β модели регрессии с ограничениями с точки зрения свойства несмещённости. Для этого рассчитаем математическое ожидание оценки
где BIAS – это смещение оценки коэффициента β.
Таким образом, оценка
является смещённой, и устранить эту смещённость невозможно, даже при условии увеличения объёма выборочной совокупности.
Оценка коэффициента β модели регрессии с ограничениями (1) будет обладать свойством несмещённости в двух случаях:
1) если коэффициент при фиктивной переменной Z будет равен нулю:
2) при условии, что пропущенные переменные будут ортогонально включены в модель:
XTZ = 0.
Рассчитаем ковариацию оценки коэффициента β модели регрессии с ограничениями (1):
Матрица ковариаций МНК-оценок принимает такой вид только в том случае, если модель (1) является значимой.
Рассмотрим случай, когда в модель регрессии могут быть включены факторные переменные, практические не связанные с результативной переменной или оказывающие на неё незначительное воздействие.
Предположим, что модель регрессии без ограничений (2) является значимой. Исходя из этого условия, оценим коэффициенты модели регрессии с ограничениями (1).
Представим регрессионную модель с ограничениями (1) в следующем виде:
Пусть W – это переменные (X,Z) модели регрессии. Тогда оценка коэффициента β модели регрессии без ограничений может быть записана следующим образом:
Охарактеризуем полученную оценку коэффициента β модели регрессии без ограничений с точки зрения свойства несмещённости. Для этого рассчитаем математическое ожидание оценки
Следовательно, оценка
является несмещённой оценкой коэффициента регрессии β модели (2). Если в данную модель включить один дополнительный фактор, то оценки уже включённых факторных переменных свойства несмещённости не утратят. Но если в модель регрессии будут включены много лишних параметров, то точность оценок будет падать.
Матрица ковариаций МНК-оценок модели регрессии без ограничений будет иметь вид:
Матрица ковариаций будет иметь такой вид только в случае значимости модели регрессии без ограничений.
70. Компоненты временного ряда
Временным рядом называется ряд наблюдаемых значений изучаемого показателя, расположенных в хронологическом порядке или в порядке возрастания времени.
Отдельно взятый временной ряд можно представить как выборочную совокупность из бесконечного ряда значений показателей во времени.
Уровнями временного ряда называются наблюдения
из которых состоит данный ряд.
Временной ряд называется моментным рядом, если уровень временного ряда фиксирует значение изучаемого показателя на определённый момент времени.
Временной ряд называется интервальным рядом, если уровень временного ряда характеризует значение показателя за определённый период времени.
Временной ряд называется производным рядом, если уровни ряда представлены в виде производных величин (средних или относительных показателей).
Исследование данных, представленных в виде временных рядов, преследует две основные цели:
1) характеристика структуры временного ряда;
2) прогнозирование будущих уровней временного ряда на основании прошлых и настоящих уровней.
Достижение поставленных целей возможно с помощью идентификации модели временного ряда.
Идентификацией модели временного ряда называется процесс выявления основных компонент, которые содержит изучаемый временной ряд.
Временные ряды могут содержать два вида компонент – систематическую и случайную составляющие.
Систематическая составляющая временного ряда является результатом воздействия постоянно действующих факторов.
Выделяют три основных систематических компоненты временного ряда:
1) тренд;
2) сезонность;
3) цикличность.
Трендом называется систематическая линейная или нелинейная компонента, изменяющаяся во времени.
Сезонностью называются периодические колебания уровней временного ряда внутри года.
Цикличностью называются периодические колебания, выходящие за рамки одного года. Промежуток времени между двумя соседними вершинами или впадинами в масштабах года определяют как длину цикла.
Систематические составляющие характеризуются тем, что они могут одновременно присутствовать во временном ряду.
Случайной составляющей называется случайный шум или ошибка, которая воздействует на временной ряд нерегулярно.
К основным причинам, по которым возникает случайный шум, относят факторы резкого и внезапного действия, а также действия текущих факторов.
Катастрофическими колебаниями называется случайный шум, в основе возникновения которого лежат факторы резкого и внезапного действия.
Шум, в основе возникновения которого лежит действие текущих факторов, может быть связан также с ошибками наблюдений.
Отдельный уровень временного ряда обозначается как yt. Его можно представить в виде функции от основных компонент временного ряда следующим образом:
yt=f(T,S,C,ε),
где T – это трендовая компонента,
S – это сезонная компонента,
C – это циклическая компонента,
ε – случайный шум.
Существует несколько основных моделей временных рядов, к которым относятся:
1) аддитивная модель временного ряда, в которой компоненты представляют собой слагаемые:
yt=Tt+St+Ct+εt;
2) мультипликативная модель временного ряда, в которой компоненты представляют собой сомножители:
yt=Tt*St*Ct*εt;
3) комбинированная модель временного ряда:
yt=Tt*St*Ct+εt.
71. Метод проверки гипотезы о существовании тренда во временном ряду, основанный на сравнении средних уровней ряда
Наличие во временном ряду трендовой компоненты не всегда можно определить с помощью графика. Поэтому для выявления этой компоненты используются специальные критерии проверки гипотезы о существовании тренда во временном ряду.
Рассмотрим следующие критерии проверки гипотезы о существовании тренда во временном ряду:
1) критерий, основанный на сравнении средних уровней временного ряда;
2) критерий «восходящих и нисходящих» серий;
3) критерий серий, основанный на медиане выборочной совокупности.
При проверке гипотезы о существовании тренда во временном ряду с помощью критерия, основанного на сравнении средних уровней, временной ряд из N наблюдений делится на две равные части. Объём первой части yi равен
и объём второй части yj равен
Обе части временного ряда рассматриваются как самостоятельные выборочные совокупности, подчиняющиеся нормальному закону распределения.
Для каждой из выборок yi и yj рассчитываются следующие выборочные характеристики:
1) средние арифметические значения:
2) выборочные дисперсии:
При проверке предположения о наличии во временном ряду трендовой компоненты выдвигается основная гипотеза о равенстве генеральных средних для двух образованных выборочных совокупностей:
H0:μi=μj.
Альтернативной или обратной является гипотеза о неравенстве генеральных средних для двух образованных выборочных совокупностей:
H0:μi≠μj.
Основная гипотеза вида H0:μi=μj проверяется при справедливости предположения о равенстве генеральных дисперсий:
Гипотеза о равенстве дисперсий проверяется с помощью F-критерия Фишера.
Наблюдаемое значение F-критерия сравнивают с критическим значением F-критерия, которое определяется по таблице распределения Фишера-Снедекора.
Критическое значение F-критерия Фишера определяется по таблице распределения Фишера-Снедекора в зависимости от уровня значимости а и двух степеней свободы
k1=n–1 и k2=N–n–2.
Наблюдаемое значение F-критерия при проверке основной гипотезы вида
определяется по формуле:
при условии, что
При проверке выдвинутых гипотез возможны следующие ситуации.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл>Fкрит, то основная гипотеза отклоняется.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т.е. Fнабл≤Fкрит, то основная гипотеза принимается.
Гипотеза о равенстве генеральных средних проверяется с помощью t-критерия Стьюдента.
Наблюдаемое значение t-критерия (вычисленное на основе выборочных данных) сравнивают с критическим значением t-критерия, которое определяется по таблице распределения Стьюдента.
Критическое значение t-критерия tкрит(а,N–2) определяется по таблице распределения Стьюдента, где а – уровень значимости, (N–2) – число степеней свободы.
Наблюдаемое значение t-критерия при проверке основной гипотезы вида H0:μi=μj определяется по формуле:
При проверке гипотез возможны следующие ситуации.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) больше критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. tнабл>tкрит, то основная гипотеза отвергается, и генеральные средние двух выборок не равны между собой. Следовательно, в исходном временном ряду присутствует трендовая компонента.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) меньше или равно критического значения t-критерия (определённого по таблице распределения Стьюдента), т.е. tнабл≤tкрит, то основная гипотеза принимается, и генеральные средние двух выборок равны между собой. Следовательно, в исходном временном ряду отсутствует трендовая компонента.
72. Критерий «восходящих и нисходящих» серий. Критерий серий, основанный на медиане выборочной совокупности
При использовании для проверки утверждения о присутствии во временном ряду трендовой компоненты критерия «восходящих и нисходящих» серий, против каждого из уровней временного ряда объёмом N ставится знак «+», если данный уровень больше предыдущего, или знак «-», если уровень меньше предыдущего. В результате данной процедуры получаем совокупность знаков объёмом (N-1).
Последовательность из знаков «+» или «-» называется серией. Обозначим общее количество серий данного временного ряда как γ. Самую длинную серию из плюсов или минусов обозначим как φ.
Основная гипотеза формулируется как утверждение об отсутствии трендовой компоненты во временном ряду.
Если хотя бы одно из следующих неравенств не выполняется, то основная гипотеза об отсутствии тренда отклоняется.
1)
2) φ набл≤φ0,
где φ0=5, если N<26;
φ0=6, если 26<N<153;
φ0=7, если 153<N<170.
Гипотеза об отсутствии тренда проверяется при уровне значимости а=0,05.
При использовании для проверки утверждения о присутствии во временном ряду трендовой компоненты критерия серий, основанного на медиане выборочной совокупности, временной ряд объёмом N ранжируется, т. е. все наблюдения упорядочиваются по возрастанию, и рассчитывается медиана ранжированного ряда.
Медианой называется наблюдение, которое делит ранжированный временной ряд на две равные части.
Если временной ряд содержит нечётное количество наблюдений, то в качестве медианы принимается значение, стоящее в середине данного ряда.
Если временной ряд содержит чётное количество наблюдений, то в качестве медианы берётся среднее арифметическое значение двух наблюдений, находящихся посередине временного ряда.
Уровни исходного временного ряда сравниваются с медианой по следующему принципу:
1) если уровень временного ряда больше медианы, то ему приписывается знак «+»;
2) если уровень временного ряда меньше медианы, то ему приписывается знак «-».
Обозначим общее количество серий данного временного ряда как γ. Самую длинную серию из плюсов или минусов обозначим как φ.
Основная гипотеза формулируется как утверждение об отсутствии трендовой компоненты во временном ряду.
Если хотя бы одно из следующих неравенств не выполняется, то основная гипотеза об отсутствии тренда в изучаемом временем ряду отклоняется:
Гипотеза об отсутствии тренда проверяется при уровне значимости а=0,05.
73. Метод Форстера-Стьюарта проверки гипотез о наличии или отсутствии тренда. Метод Чоу проверки стабильности тенденций
Одним из наиболее простых методов выявления трендовой компоненты во временном ряду является метод Форстера-Стьюарта.
На первом шаге реализации данного метода каждый уровень временного ряда yt
сравнивается со всеми предыдущими уровнями. На основании результатов сравнений рассчитываются вспомогательные величины:
Величина dt может принимать значения +1, 0, -1.
Общее количество вспомогательных величин будет равно (N-1).
На следующем шаге все значения величины dt суммируются, и рассчитывается величина D по формуле:
Основная гипотеза формулируется как утверждение об отсутствии трендовой компоненты во временном ряду.
Основная гипотеза проверяется с помощью t-критерия Стьюдента.
Наблюдаемое значение t-критерия (вычисленное на основе выборочных данных) сравнивают с критическим значением t-критерия, которое определяется по таблице распределения Стьюдента.
Критическое значение t-критерия tкрит(а,N–1) определяется по таблице распределения Стьюдента, где а – уровень значимости, (N-1) – число степеней свободы.
Наблюдаемое значение t-критерия при проверке основной гипотезы определяется по формуле:
где SD – стандартное отклонение величины D. Значения SD для временных рядов, длиной от 10 до 100 наблюдений, занесены в специальную таблицу.
При проверке гипотез возможны следующие ситуации.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю больше критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. |tнабл|>tкрит, то основная гипотеза отвергается. Следовательно, в исходном временном ряду присутствует трендовая компонента.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) по модулю меньше или равно критического значения t-критерия (определённого по таблице распределения Стьюдента), т.е. |tнабл|≤tкрит, то основная гипотеза принимается. Следовательно, в исходном временном ряду отсутствует трендовая компонента.
С помощью метода или теста Чоу проверяется основная гипотеза о стабильности временного ряда. Если ряд характеризуется нестабильной тенденцией, то с определённого момента времени t* происходит изменение характера динамики анализируемого показателя под влиянием ряда внешних факторов, что в результате приводит к изменению параметров уравнения тренда, описывающего данную динамику.
Следовательно, весь временной ряд можно разделить на две подвыборки: первая подвыборка содержит значения временного ряда до переломного момента t* и вторая подвыборка содержит значения временного ряда после переломного момента.
Будем считать, что весь временной ряд представляет собой модель регрессии модель без ограничений. Обозначим данную модель через UN. Отдельными подвыборками будем считать частные случаи модели регрессии без ограничений. Обозначим эти частные подвыборки как PR.
Введём следующие обозначения:
PR1 – первая подвыборка;
PR2 – вторая подвыборка;
ESS(PR1) – сумма квадратов остатков для первой подвыборки;
ESS(PR2) – сумма квадратов остатков для второй подвыборки;
ESS(UN) – сумма квадратов остатков для общей модели регрессии.
– сумма квадратов остатков для наблюдений первой подвыборки в общей модели регрессии;
– сумма квадратов остатков для наблюдений второй подвыборки в общей модели регрессии.
Для частных моделей регрессии справедливы следующие неравенства:
Условие (ESS(PR1)+ESS(PR2))= ESS(UN) выполняется только в том случае, если коэффициенты частных моделей регрессии и коэффициенты общей модели регрессии без ограничений будут одинаковы, но на практике такое совпадение встречается очень редко.
Основная гипотеза формулируется как утверждение о структурной стабильности тенденции общего временного ряда.
Альтернативная или обратная гипотеза формулируется как утверждение о структурной нестабильности тенденции общего временного ряда
Данные гипотезы проверяются с помощью F-критерия Фишера-Снедекора.
Наблюдаемое значение F-критерия сравнивают с критическим значением F-критерия, которое определяется по таблице распределения Фишера-Снедекора.
Критическое значение F-критерия Фишера определяется по таблице распределения Фишера-Снедекора в зависимости от уровня значимости а и двух степеней свободы k1=m+1 и k2=n-2m-2.
Наблюдаемое значение F-критерия рассчитывается по формуле:
где ESS(UN) – ESS(PR1) – ESS(PR2) – величина, характеризующая улучшение качества модели регрессии после разделения её на подвыборки;
m – количество факторных переменных (в том числе фиктивных);
n – объём общей выборочной совокупности.
При проверке выдвинутых гипотез возможны следующие ситуации.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл≥Fкрит, то основная гипотеза отклоняется. Следовательно, исходный временной ряд не имеет общей стабильной тенденции.
Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл‹Fкрит, то основная гипотеза принимается. Следовательно, исходный временной ряд может быть описан одним трендовым уравнением.
74. Аналитический вид тренда
Метод аналитического выравнивания с помощью функций времени или кривых роста является основным методом представления тренда в аналитическом виде, используемым в эконометрике. Суть данного метода заключается в аппроксимации временного ряда определённой формой регрессионной кривой. При этом наиболее проблематичным является вопрос о выборе функции тренда.
Выбор выравнивающей кривой может осуществляться на основании заранее заданных критериев, к которым относятся:
1) множественный коэффициент детерминации;
2) сумма квадратов отклонений наблюдаемых значений временного ряда от теоретических значений (рассчитанных с помощью функции тренда).
Методом конечных разностей называется метод, позволяющий подобрать подходящую форму кривой. Его применение возможно в том случае, если временной ряд содержит равностоящие друг от друга уровни.
Конечной разностью первого порядка (разностным оператором первого порядка) называется разность между соседними уровнями временного ряда:
Разностным оператором второго порядка (конечной разностью второго порядка) называется разность между соседними разностными операторами первого порядка:
В общем случае разностным оператором i-го порядка называется разность между соседними разностными операторами (i-1)-го порядка:
Если разностные операторы первого порядка постоянны и равны между собой
а разностные операторы второго порядка равны нулю
то тренд изучаемого временного ряда можно аппроксимировать линейной функцией вида y=a+β*t+ε.
Если разностные операторы второго порядка постоянны и равны между собой
а разностные операторы третьего порядка равны нулю
то тренд изучаемого временного ряда можно аппроксимировать параболической функцией второго порядка вида y=a+β1*t+β2*t2..
Следовательно, порядок разностных операторов, являющихся постоянными для данного временного ряда, определяет степень уравнения тренда:
y=∑βj*tj.
Оценки неизвестных коэффициентов уравнения тренда рассчитываются с помощью классического метода наименьших квадратов.
Если тренд временного ряда можно аппроксимировать линейной функцией, то её коэффициенты можно рассчитать с помощью метода моментов. При этом в модель вводится новая переменная времени T, началом координат которой является середина временного ряда. Таким образом, её сумма по всем элементам равняется нулю.
Для временного ряда, количество уровней которого является нечётным, переменная T=0 соответствует середине данного ряда. Выше нулевого уровня проставляются числа -1, -2, -3,…., а ниже данного уровня – числа +1, +2, +3,…
Для временного ряда, количество уровней которого является чётным, числа -1, -2, -3 и т. д. проставляются до середины ряда, а числа +1, +2, +3 – ставятся после середины ряда.
Линейная модель регрессии с учётом новой переменной принимает вид:
yt=a+β*Tt+εt.
Оценки неизвестных коэффициентов данной модели рассчитываются из системы нормальных уравнений:
Решением данной системы будут оценки коэффициентов уравнения тренда:
75. Адекватность трендовой модели
Трендовая модель считается адекватной описываемому процессу, если значения случайной остаточной компоненты εt являются случайными центрированными некоррелированными нормально распределёнными величинами. Проверка адекватности модели состоит в проверке указанных свойств ряда остатков модели.
Проверка случайности остатков модели осуществляется с помощью критериев исследования временного ряда на предмет наличия в нём трендовой компоненты:
1) критерий, основанный на сравнении средних уровней временного ряда;
2) критерий «восходящих и нисходящих» серий;
3) критерий серий, основанный на медиане выборочной совокупности.
В этом случае вместо исходных уровней временного ряда y1,y2,…,yt используются элементы остаточного ряда e1,e2,…,et.
Также проверка случайности остатков модели может осуществляться с помощью критерия поворотных точек.
При использовании критерия поворотных точек остаток модели et сравнивается с двумя соседними элементами ряда. Если он окажется меньше или больше их, то данная точка является поворотной. В конце сравнений подсчитывается количество m всех поворотных точек. Ряд остатков модели считается случайным, если выполняется условие:
где N – объём выборочной совокупности.
Проверка центрированности остатков временного ряда осуществляется с помощью t-критерия Стьюдента.
Основная гипотеза формулируется как утверждение о центрированности ряда остатков.
Критическое значение t-критерия tкрит(α/2, N-1) определяется для уровня значимости α/2 и числа степеней свободы (N-1) по таблице распределения Стьюдента.
Наблюдаемое значение t-критерия рассчитывается по формуле:
где
– среднее арифметическое значение ряда остатков:
G(e) – среднеквадратическое отклонение ряда остатков:
При проверке основной гипотезы возможны следующие ситуации.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) больше критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. tнабл›tкрит, то основная гипотеза отвергается. Следовательно, ряд остатков является не центрированным.
Если наблюдаемое значение t-критерия (вычисленное по выборочным данным) меньше или равно критического значения t-критерия (определённого по таблице распределения Стьюдента), т. е. tнабл≤tкрит, то основная гипотеза принимается. Следовательно, ряд остатков является центрированным.
Проверка независимости ряда остатков модели осуществляется с целью определения возможной систематической составляющей в составе ряда остатков. Если модель подобрана неудачно, то остатки будут подвержены автокорреляционной зависимости.
Независимость остатков проверяется с помощью критерия Дарбина-Уотсона, связанного с гипотезой о наличии в ряде остатков автокорреляции первого порядка, т. е. о корреляционной зависимости соседних остатков.
Нормальность ряда остатков проверяется с помощью показателей асимметрии и эксцесса (если объём выборочной совокупности не превышает 50 значений). При нормальном распределении показатели асимметрии и эксцесса равны нулю.
На основании выборочных данных вычисляются эмпирические коэффициенты асимметрии и эксцесса по формулам:
Если вычисленные коэффициенты близки к нулю, то можно сделать вывод, что ряд остатков подчиняется нормальному закону распределения.
В дополнение к выборочным коэффициентам асимметрии и эксцесса рассчитывают показатели среднеквадратических отклонений данных коэффициентов по формулам:
Если одновременно выполняются следующие неравенства:
1) |КА|≤1,5G(A);
2) |КЭ|≤1,5G(Э),
то гипотеза о нормальном характере распределения случайной компоненты принимается. Если хотя бы одно из указанных неравенств нарушается, то гипотеза о нормальном распределении остатков отвергается.
Помимо адекватности выбранной модели, необходимо охарактеризовать её точность. Наиболее простым критерием точности модели является относительная ошибка, рассчитываемая по формуле:
Если относительная ошибка равна менее, чем 13 %, то точность подобранной модели признаётся удовлетворительной.
76. Сезонные и циклические компоненты временного ряда
Для построения адекватной модели временного ряда необходимо охарактеризовать сезонные и циклические компоненты временного ряда. К основным методам моделирования сезонных и циклических колебаний относятся:
1) метод вычисления сезонной компоненты и построение аддитивной или мультипликативной модели временного ряда;
2) метод применения сезонных фиктивных переменных;
3) метод анализа сезонных колебаний с помощью автокорреляционной функции;
4) метод, основанный на использовании одномерных рядов Фурье.
В связи с тем, что моделирование сезонных и циклических колебаний происходит аналогично, применение данных методов мы будем рассматривать на примере моделирования сезонных колебаний.
Аддитивная модель временного ряда стоится в том случае, если амплитуда сезонных колебаний не меняется во времени:
yt=Tt+St+εt,
где T – это трендовая компонента;
S – это сезонная компонента;
ε – случайный шум.
Мультипликативная модель временного ряда стоится в том случае, если амплитуда сезонных колебаний изменяется во времени:
yt=Tt*St+εt.
Предположим, что задача состоит в исследовании временного ряда Xij, где i – это номер сезона (периода времени внутри года, например, месяца или квартала),
L – число сезонов в году, j – номер года,
m – общее количество лет. Количество уровней исходного временного ряда равно n=L*m.
Прежде чем рассчитывать сезонную компоненту, исходный временной ряд необходимо выровнять. Для этого применяются методы механического выравнивания, к которым относятся:
1) метод скользящих средних;
2) метод экспоненциального сглаживания;
3) метод медианного сглаживания и др.
Результатом процедуры сглаживания будет временной ряд выровненных значений
не содержащих сезонной компоненты.
Если временной ряд представлен аддитивной моделью, то в качестве сезонной компоненты используется показатель абсолютного отклонения – Sai. Сумма всех сезонных компонент, т.е. показателей абсолютных отклонений Sai. должна быть равна нулю.
Если временной ряд представлен мультипликативной моделью, то в качестве сезонной компоненты используется индекс сезонности – Isi. Произведение всех сезонных компонент, т. е. индексов сезонности Isi, должно быть равно единице.
Показатель абсолютного отклонения в i-том сезоне рассчитывается как среднее арифметическое из отклонений фактического и выровненного уровней временного ряда:
Индекс сезонности в i-том сезоне рассчитывается как среднее арифметическое из отношений фактического уровня временного ряда к выровненному:
Если при построении аддитивной модели временного ряда сумма всех абсолютных отклонений не равна нулю, то рассчитываются скорректированные значения сезонных компонент по формуле:
где L – общее количество сезонных компонент.
На следующем этапе построения модели временного ряда осуществляется расчёт трендовой компоненты с помощью метода аналитического выравнивания функциями времени или кривыми роста. Данный метод выравнивания применяют не к исходному временному ряду, а к временному ряду с исключённой сезонной компонентой. При этом уровни исходного временного ряда корректируются на величину сезонной компоненты следующим образом:
1) для аддитивной модели из исходных уровней вычитаются показатели абсолютных отклонений Sai;
2) для мультипликативной модели уровни исходного временного ряда делятся на индексы сезонности Isi.
77. Сезонные фиктивные переменные
Метод сезонных фиктивных переменных относится к методам моделирования сезонных компонент временного ряда. Суть данного метода заключается в построении модели регрессии, которая наряду с фактором времени включает сезонные фиктивные переменные.
Фиктивной переменной (dummy variable) называется атрибутивный или качественный фактор, представленный с помощью определённого цифрового кода.
Моделью регрессии с переменной структурой называется модель регрессии, включающая в качестве факторной (факторных) переменных фиктивную переменную.
Предположим, что задача состоит в исследовании временного ряда Xij, где i – это номер сезона (периода времени внутри года, например, месяца или квартала),
L – число сезонов в году, j – номер года,
m – общее количество лет. Количество уровней исходного временного ряда равно n=L*m.
При построении модели регрессии с переменной структурой необходимо учитывать, что число сезонных фиктивных переменных всегда должно быть на единицу меньше сезонов внутри года, т. е. должно быть равно величине L-1. Например, при моделировании годовых данных модель регрессии помимо фактора времени должна содержать одиннадцать фиктивных компонент (12-1). При моделировании поквартальных данных модель регрессии должна содержать три фиктивные компоненты (4-1) и т. д.
Каждому из сезонов соответствует определённое сочетание фиктивных переменных. Сезон, для которого значения всех фиктивных переменных равны нулю, является базой сравнения. Для остальных сезонов одна из фиктивных переменных принимает значение, равное единице. Например, если имеются поквартальные данные, то значения фиктивных переменных D2,D3,D4 будут принимать следующие значения для каждого из кварталов:
Тогда общий вид модели регрессии с переменной структурой будет иметь вид:
yt=β0+ β1*t+δ2*D2+δ3*D3+δ4*D4+εt.
Данная модель регрессии представляет собой одну из разновидностей аддитивной модели временного ряда.
На основе общей модели регрессии с переменной структурой можно составить базисную модель или модель тренда для первого квартала:
yt=β0+ β1*t+εt.
Также на основе общей модели регрессии с переменной структурой можно составить частные модели регрессии:
1) частная модель регрессии для второго квартала:
yt=β0+ β1*t+δ2+εt;
2) частная модель регрессии для третьего квартала:
yt=β0+ β1*t+δ3+εt;
3) частная модель регрессии для четвёртого квартала:
yt=β0+ β1*t+δ4+εt.
Данные частные модели регрессии отличаются друг от друга только на величину свободного члена δi.
Коэффициент β1 характеризует среднее абсолютное изменение уровней временного ряда под влиянием основной тенденции.
Сезонная компонента для каждого сезона рассчитывается как разность между средним значением свободных членов всех частных моделей регрессий и значением постоянного члена одной из моделей.
Среднее значение свободных членов всех частных моделей регрессий рассчитывается по формуле:
Для поквартальных данных оценка сезонных отклонений осуществляется по формулам:
1) оценка сезонного отклонения для первого квартала:
2) оценка сезонного отклонения для второго квартала:
3) оценка сезонного отклонения для третьего квартала:
4) оценка сезонного отклонения для четвёртого квартала:
Сумма сезонных отклонений должна равняться нулю.
78. Одномерный анализ Фурье
Одним из основных методов моделирования сезонных и циклических колебаний является метод, основанный на применении одномерных рядов Фурье. В свою очередь, ряды Фурье являются одной из разновидностей спектрального анализа.
С помощью спектрального анализа в структуре временного ряда определяется пик отклонений от тренда, что позволяет рассчитать длительность периодической компоненты ряда.
Для того, чтобы к временному ряду можно было применять методы спектрального анализа, его необходимо привести к стационарному виду.
Суть спектрального анализа заключается в том, что случайный стационарный процесс представляется как сумма гармонических колебаний различных частот, называемых гармониками.
Спектром называется функция, которая описывает распределение амплитуд случайного стационарного процесса по различным частотам.
Сезонная компонента временного ряда может быть разложена в ряд Фурье.
Сезонные колебания, разложенные рядом Фурье, представляют собой сумму нескольких синусоидальных и косинусоидальных гармоник с различными периодами:
где uk, υk – некоррелированные случайные величины с нулевым математическим ожиданием и одинаковыми дисперсиями:
D(uk)=D(υk)=Dk;
ωk– длина волны функции синуса или косинуса, называемая частотой.
Частота выражается числом циклов (периодов) в единицу времени.
Цель спектрального анализа временных рядов заключается в оценивании спектра ряда. Спектр временного ряда можно определить как разложение дисперсии ряда по частотам для определения значимых гармоник.
Значение спектра временного ряда рассчитывается по формуле:
где ωj – частоты, для которых оцениваются спектры:
ck – автокорреляционная функция, значения которой рассчитываются по формуле:
λk – специально подобранные веса значений ковариационной функции, зависящие от частоты m, которые называются корреляционным окном.
Корреляционным окном называется преобразованная форма взвешенного скользящего среднего шириной m.
Дисперсия ряда Фурье рассчитывается по формуле:
Дисперсия ряда Фурье равна сумме всех гармоник её спектрального разложения.
Следовательно, дисперсия D(yt) распределена по различным частотам. Графически распределение дисперсии ряда Фурье изображается с помощью периодограммы. Суть анализа периодограммы заключается в определении частоты или периода с наибольшими спектральными плотностями, которые вносят наибольший вклад в периодические колебания временного ряда, что позволит определить его основной период колебания.
Ряд Фурье вида
можно рассматривать как линейную модель множественной регрессии.
Результативной переменной в данной модели будут являться значения временного ряда, а независимыми переменными – функции синусов всех возможных частот. Коэффициенты uk при косинусах и υk при синусах будут представлять собой коэффициенты модели регрессии, которые показывают степень, с которой коррелированности соответствующих функций с исходными данными. Если рассчитанное значение коэффициента при определённом синусе или косинусе достаточно велико, то на соответствующей частоте в исходных данных существует строгая периодичность.
79. Методы фильтрации временного ряда
Методы фильтрации временных рядов предназначены на решение проблем, возникающих при исследовании взаимосвязи между двумя и более временными рядами, с помощью исключения из них трендовой и сезонной компонент.
К проблемам, которые позволяют устранить методы фильтрации временных рядов, относятся:
1) проблема ошибочности показателей тесноты и силы связи:
а) если временные ряды, между которыми изучается взаимосвязь, содержат циклическую или сезонную компоненту одинаковой периодичности, то в результате значение показателей тесноты связи будет завышено;
б) если один из временных рядов содержит циклическую или трендовую компоненту или периодичность совместных колебаний различна, то в результате значение показателей тесноты связи будет занижено;
2) проблема «ложной корреляции»:
а) если временные ряды, между которыми изучается взаимосвязь, содержат тренды одинаковой направленности, то уровни этих рядов будут положительно коррелированны;
б) если временные ряды, между которыми изучается взаимосвязь, содержат тренды противоположной направленности, то уровни этих рядов будут отрицательно коррелированны.
Первая проблема решается путём исключения из временного ряда сезонной компоненты.
Если временной ряд представлен в виде аддитивной модели, то сезонная компонента устраняется путём вычитания из исходных уровней ряда показателей абсолютных отклонений Sai.
Если временной ряд представлен в виде мультипликативной модели, то сезонная компонента устраняется путём деления исходных уровней ряда на индексы сезонности Isi.
Проблема “ложной корреляции” решается путём исключения из временного ряда трендовой компоненты.
Предположим, что исследуется зависимость между двумя временными рядами – Х и Y. При этом была построена модель регрессии вида:
Yt=β0+β1*Хt+εt.
Для выявления «ложной корреляции» необходимо провести анализ остатков данной модели регрессии, потому что если в модели присутствует обычная автокорреляция остатков, следовательно, существует и «ложная автокорреляция».
Исключение трендовой компоненты осуществляется с помощью метода отклонений от тренда.
Алгоритм реализации метода отклонений от тренда:
1) вычисляются отклонения уровней временных рядов Yt и Xt от их значений, рассчитанных на основе уравнений тренда:
2) определяется степень тесноты связи между полученными отклонениями с помощью коэффициента корреляции:
3) для линейной модели регрессии строится модель зависимости отклонения e(yt) от e(xt):
e(yt)=a0+a1* e(xt).
Неизвестные коэффициенты данной модели рассчитываются с помощью классического метода наименьших квадратов по формулам:
В результате получим модель вида:
e(yt)=a1* e(xt).
Исключение трендовой компоненты можно также осуществить с помощью метода последовательных разностей. При этом рассчитываются разности между текущим и предыдущим уровнями для каждого временного ряда:
Далее рассчитывается показатель линейной корреляции абсолютных цепных приростов по формуле:
На основании показателей абсолютных цепных приростов можно построить линейную модель регрессии вида:
где а1 – это коэффициент, который уравнении характеризует в среднем прирост Y при изменении прироста Х на единицу своего измерения;
а0 – это коэффициент, который характеризует прирост Y при нулевом приросте Х.
С помощью разностных операторов первого порядка можно исключить автокорреляцию только в тех временных рядах, в которых основная тенденция выражена прямой линией.
С помощью разностных операторов второго порядка можно исключить автокорреляцию в тех временных рядах, в которых основная тенденция выражена параболой второго порядка.
80. Автокорреляция уровней временного ряда. Анализ структуры временного ряда на основании коэффициентов автокорреляции
Временной ряд является нестационарным, если он содержит такие систематические составляющие как тренд и цикличность.
Нестационарные временные ряды характеризуются тем, что значения каждого последующего уровня временного ряда корреляционно зависят от предыдущих значений.
Автокорреляцией уровней временного ряда называется корреляционная зависимость между настоящими и прошлыми значениями уровней данного ряда.
Лагомl называется величина сдвига между рядами наблюдений.
Лаг временного ряда определяет порядок коэффициента автокорреляции. Например, если уровни временного ряда xt и xt–1 корреляционно зависимы, то величина временного лага равна единице. Следовательно, данная корреляционная зависимость определяется коэффициентом автокорреляции первого порядка между рядами наблюдений x1…xn-1 и x2…xn. . Если лаг между рядами наблюдений равен двум, то данная корреляционная зависимость определяется коэффициентом автокорреляции второго порядка и т. д.
При увеличении величины лага на единицу число пар значений, по которым рассчитывается коэффициент автокорреляции, уменьшается на единицу. Поэтому максимальный порядок коэффициента автокорреляции рекомендуется брать равным n/4, где n – количество уровней временного ряда.
Автокорреляция между уровнями временного ряда оценивается с помощью выборочного коэффициента автокорреляции, который рассчитывается по формуле:
где
– среднее арифметическое произведения двух рядов наблюдений, взятых с лагом l:
– значение среднего уровня ряда x1+l,x2+l,…,xn:
– значение среднего уровня ряда x1,x2,…,xn–l:
G(xt), G(xt–l) – средние квадратические отклонения, рассчитанные для рядов наблюдений x1+l,x2+l,…,xn и x1,x2,…,xn–l соответственно.
Структуру временного ряда можно определить, рассчитав несколько последовательных коэффициентов автокорреляции. В результате данных вычислений можно выявить лаг l, для которого значение выборочного коэффициента автокорреляции rl является наибольшим.
Анализ структуры временного ряда с помощью коэффициентов автокорреляции стоится на следующих правилах:
1) исследуемый временной ряд содержит только трендовую компоненту, если наибольшим является значение коэффициента автокорреляции первого порядка rl–1;
2) исследуемый временной ряд содержит трендовую компоненту и колебания периодом l, если наибольшим является коэффициент автокорреляции порядка l. Эти колебания могут быть как циклическими, так и сезонными;
3) если ни один из коэффициентов автокорреляции
не окажется значимым, то делается один из двух возможных выводов:
а) данный временной ряд не содержит трендовой и циклической компонент, а его колебания вызваны воздействием случайной компоненты, т. е. ряд представляет собой модель случайного тренда;
б) данный временной ряд содержит сильную нелинейную тенденцию, для выявления которой необходимо провести его дополнительный анализ.
Графическим способом анализа структуры временного ряда является построение графиков автокорреляционной и частной автокорреляционной функций.
Автокорреляционной функцией называется функция оценки коэффициента автокорреляции в зависимости от величины временного лага между исследуемыми рядами.
Графиком автокорреляционной функции является коррелограмма.
Частная автокорреляционная функция отличается от автокорреляционной функции тем, что при её построении устраняется корреляционная зависимость между наблюдениями внутри лагов.
81. Стационарный процесс. Стационарный временной ряд. Белый шум
Временной ряд называется детерминированным, если значения уровней временного ряда точно определены какой-либо математической функцией, являющейся реализацией исследуемого процесса.
Временной ряд называется случайным, если уровни временного ряда могут быть описаны с помощью функции распределения вероятностей.
Таким образом, уровни временного ряда могут быть детерминированными или случайными величинами.
Уровни случайного временного ряда могут быть непрерывными и дискретными случайными величинами.
Случайная величинаХ называется дискретной, если множество её возможных значений является конечным или счётным. В качестве примера случайного временного ряда с дискретными уровнями может служить временной ряд, отражающий значения ежемесячной выдачи зарплаты рабочим.
Случайная величина Х называется непрерывной, если она может принимать любое значение из конечного или бесконечного интервала. В качестве примера случайного временного ряда с непрерывными уровнями может служить временной ряд, отражающий значения температуры воздуха, зарегистрированные с определённой периодичностью.
Стохастическим процессом называется процесс, который развивается во времени в соответствии с законами теории вероятностей.
К стохастическим процессам относится класс стационарных процессов.
Стохастический процесс называется стационарным, если его основные свойства остаются неизменными во времени.
Предположим, что исследуется временной ряд Х. Обозначим через xt уровень данного временного ряда. Тогда стационарный процесс будет характеризоваться следующими четырьмя свойствами:
1) математическое ожидание стационарного ряда E(yt) является постоянным, т. е. среднее значение временного ряда, вокруг которого изменяются уровни, является величиной постоянной:
2) дисперсия стационарного ряда является постоянной. Она характеризует вариацию уровней временного ряда относительно его среднего значения
3) автоковариация стационарного ряда с лагом l является постоянной, т. е. ковариация между значениями xt и xt+l, отделёнными интервалом в l единиц времени, определяется по формуле:
для стационарных рядов автоковариация зависит только от величины лага l, поэтому справедливо равенство вида:
4) коэффициенты автокорреляция стационарного ряда с лагом l являются постоянными. Следовательно, автокорреляция является нормированной автоковариацией, т. к. для стационарного процесса G2(y)=const:
Таким образом, коэффициент автокорреляции порядка l определяется по формуле:
Нестационарным временным рядом называется ряд, который не удовлетворяет вышеперечисленным свойствам.
Случайный процесс, называемый белым шумом, является частным случаем стационарных временных рядов.
Белым шумом называется случайная последовательность значений y1, y2,…,yN, если её математическое ожидание равно нулю, т.е. E(Yt)=0, где
её элементы являются некоррелированными (независимыми друг от друга) одинаково распределёнными величинами, и дисперсия является постоянной величиной D(Yt)=G2=const.
Белый шум – это теоретический процесс, который реально не существует, однако он представляет собой очень важную математическую модель, которая используется при решении множества практических задач.
82. Линейные модели стационарного временного ряда
Стохастический временной ряд называется стационарным, если его математическое ожидание, дисперсия, автоковариация и автокорреляция являются неизменными во времени.
К основным линейным моделям стационарных временных рядов относятся:
1) модели авторегрессии;
2) модели скользящего среднего;
3) модели авторегрессии скользящего среднего.
Уровень временного ряда, представленного моделью авторегрессии порядка р, можно представить следующим образом:
yt=δ1yt-1+δ2yt-2+…+δpyt–p+νt,
где p – порядок модели авторегрессии;
δt – коэффициенты модели авторегрессии, подлежащие оцениванию;
νt – белый шум (случайная величина с нулевым математическим ожиданием).
Модель авторегрессии порядка р обозначается как АР(р) или AR(p).
На практике чаще всего используются модели авторегрессии первого, второго, максимум третьего порядков.
Модель авторегрессии первого порядка АР(1) называется “Марковским процессом”, потому что значения переменной y в текущий момент времени t зависят только от значений переменной y в предыдущий момент времени (t–1). Данная модель имеет вид:
yt=δyt–1+νt.
Для модели АР(1) действует ограничение |δ|<1.
Модель авторегрессии второго порядка АР(2) называется “процессом Юла”. Данная модель имеет вид:
yt=δ1yt-1+δ2yt-2+νt.
На коэффициенты модели авторегрессии второго порядка накладываются ограничения вида:
1) (δ1+δ2)<1;
2) (δ1–δ2)<1;
3) |δ2|<1.
Модели скользящего среднего относятся к простому классу моделей временных рядов с конечным числом параметров, которые можно получить, представив уровень временного ряда как алгебраическую сумму членов ряда белого шума с числом слагаемых q.
Общая модель скользящего среднего порядка q имеет вид:
yt=νt–φ1νt–1–φ2νt–2–…–φqνt–q,
где q – порядок модели скользящего среднего;
φt – неизвестные коэффициенты модели, подлежащие оцениванию;
νt – белый шум.
Модель скользящего среднего порядка q обозначается как CC(q) или MA(q).
На практике чаще всего используются модели скользящего среднего первого CC(1) и второго порядков CC(2).
Коэффициенты модели скользящего среднего порядка q не обязательно должны в сумме давать единицу и не обязательно должны быть положительными.
Для достижения большей гибкости модели временных рядов при эконометрическом моделировании в неё включают как члены авторегрессии, так и члены скользящего среднего. Подобные модели получили название смешанных моделей авторегрессии скользящего среднего и также относятся к линейным моделям стационарных временных рядов.
Смешанная модель авторегрессии скользящего среднего обозначается как АРСС(p,q) или ARMA(p,q).
Чаще всего на практике используется смешанная модель АРСС(1) с одним параметром авторегрессии p=1 и одним параметром скользящего среднего q=1. Данная модель имеет вид:
yt=δyt–1+νt–φνt–1,
где δ – параметр процесса авторегрессии;
φ – параметр процесса скользящего среднего;
νt – белый шум.
На коэффициенты данной модели накладываются следующие ограничения:
1) |δ|<1 – условие, обеспечивающее стационарность смешанной модели;
2) |φ|‹1 – условие, обеспечивающее обратимость смешанной модели.
Свойство обратимости смешанной модели АРСС(p,q) означает, что модель скользящего среднего можно обратить или переписать в виде модели авторегрессии неограниченного порядка, и наоборот.
83. Модель авторегрессии и проинтегрированного скользящего среднего
Модель авторегрессии и проинтегрированного скользящего среднего (АРПСС) была предложена американскими учёными Боксом и Дженкинсом в 1976 г. как один из методов оценки неизвестных параметров и прогнозирования временных рядов.
Моделью авторегрессиии проинтегрированного скользящего среднего называется модель, которая применяется при моделировании нестационарных временных рядов.
Нестационарный временной ряд характеризуется непостоянными математическим ожиданием, дисперсией, автоковариацией и автокорреляцией.
В основе модели авторегрессии и проинтегрированного скользящего среднего лежат два процесса:
1) процесс авторегрессии;
2) процесс скользящего среднего.
Процесс авторегрессии может быть представлен в виде:
xt=a+δ1xt-1+δ2xt-2+…+εt,
где a – свободный член модели, являющийся константой;
δ1 δ2…— параметры модели авторегрессии;
ε – случайное воздействие (ошибка модели).
Каждое наблюдение в модели авторегрессии представляет собой сумму случайной компоненты и линейной комбинации предыдущих наблюдений.
Процесс скользящего среднего может быть представлен в виде:
xt=μ+εt–θ1εt–1–θ2εt–2–…
где μ – свободный член модели, являющийся константой;
θ1 θ2… – параметры модели скользящего среднего;
ε – случайное воздействие (ошибка модели).
Текущее наблюдение в модели скользящего среднего представляет собой сумму случайной компоненты в данный момент времени и линейной комбинации случайных воздействий в предыдущие моменты времени.
Следовательно, в общем виде модель авторегрессии и проинтегрированного скользящего среднего описывается формулой:
где С – свободный член модели, являющийся константой;
εt – некомпенсированный моделью случайный остаток.
В обозначениях Бокса и Дженкинса модель авторегрессии и проинтегрированного скользящего среднего записывается как АРПСС(p,d,q) или ARIMA (p,d,q), где
p – параметры процесса авторегрессии;
d – порядок разностного оператора;
q – параметры процесса скользящего среднего.
Для рядов с периодической сезонной компонентой применяется модель авторегрессии и проинтегрированного скользящего среднего с сезонностью, которая в обозначениях Бокса и Дженкинса записывается как АРПСС (p,d,q) (ps,ds,qs), где
ps – сезонная авторегрессия;
ds – сезонный разностный оператор;
qs – сезонное скользящее среднее.
Моделирование нестационарных временных рядов с помощью модели авторегрессии и проинтегрированного скользящего среднего осуществляется в три этапа:
1) проверка временного ряда на стационарность;
2) идентификация порядка модели и оценивание неизвестных параметров;
3) прогноз.
Применение модели АРПСС предполагает обязательную стационарность исследуемого ряда, поэтому на первом этапе данное предположение проверяется с помощью автокорреляционной и частной автокорреляционной функций ряда остатков. Остатки представляют собой разности наблюдаемого временного ряда и значений, вычисленных с помощью модели.
Устранить нестационарность временного ряда можно с помощью метода разностных операторов.
Разностным оператором первого порядка называется замена исходного уровня временного ряда разностями первого порядка:
Разностные операторы первого порядка позволяет исключить линейные тренды.
Разностные операторы второго порядка позволяют исключить параболические тренды.
Сезонные разностные операторы предназначены для исключения 12-ти или 4-х периодичной сезонности:
Если модель содержит и трендовую, и сезонную компоненты, то необходимо применять оба оператора.
На втором этапе необходимо решить, сколько параметров авторегрессии и скользящего среднего должно войти в модель.
В процессе оценивания порядка модели авторегрессии и проинтегрированного скользящего среднего применяется квазиньютоновский алгоритм максимизации правдоподобия наблюдения значений ряда по значениям параметров. При этом минимизируется (условная) сумма квадратов остатков модели. Для оценки значимости параметров используется t-статистика Стьюдента. Если значения вычисляемой t-статистики не значимы, соответствующие параметры в большинстве случаев удаляются из модели без ущерба подгонки.
Полученные оценки параметров используются на последнем этапе для того, чтобы вычислить новые значения ряда и построить доверительный интервал для прогноза.
Оценкой точности прогноза, сделанного на основе модели авторегрессии и проинтегрированного скользящего среднего является среднеквадратическая ошибка (mean square), вычисляемая по формуле:
Чем меньше данный показатель, тем точнее прогноз.
Модель авторегрессии и проинтегрированного скользящего среднего считается адекватной исходным данным, если остатки модели являются некоррелированными нормально распределёнными случайными величинами.
84. Показатели качества модели авторегрессии и проинтегрированного скользящего среднего
Основными показателями качества модели авторегрессии и проинтегрированного скользящего среднего являются критерий Акайка и байесовский критерий Шварца. Данные критерии аналогичны критерию максимума скорректированного множественного коэффициента детерминации R2или минимума дисперсии случайной ошибки модели G2.
Информационный критерий Акайка (Akaike information criterion – AIC) используется для выбора наилучшей модели для временного ряда yt из некоторого множества моделей.
Предположим, что с помощью метода максимального правдоподобия была получена оценка
вектора неизвестных параметров модели φ. Обозначим через
максимальное значение логарифмической функции правдоподобия эконометрической модели.
Тогда критерий Акайка можно будет представить в виде:
где h – размерность вектора неизвестных параметров модели φ.
Для линейной или нелинейной модели регрессии, включающей только одно уравнение, критерий Акайка может быть преобразован к виду:
где n – объём выборочной совокупности;
– оценка максимального правдоподобия дисперсии остатков etмодели регрессии.
Оба варианта критерия Акайка дают одинаковый результат, но в первом случае выбирается модель с наибольшим значением критерия, а во втором случае – с наименьшим значением критерия.
Байесовский критерий Шварца (Schwarz Bayesian criterion – SBC) также используется для выбора наилучшей модели временного ряда из некоторого множества моделей.
Байесовский критерий Шварца для временных рядов можно представить в виде:
Байесовский критерий Шварца для моделей регрессии можно представить в виде:
По первому варианту расчёта критерия Байесовского критерий Шварца SBC выбирается та модель, для которой значение SBCt является наибольшим. При втором варианте выбирается та модель, для которой значение SBCG является наименьшим.
При проверке качества моделей результаты критериев Акайка и Шварца могут быть различны.
Общий критерий множителей Лагранжа (LM-test) применяется для проверки качества модели авторегрессии и проинтегрированного скользящего среднего с помощью автокорреляции остатков. С помощью данного критерия можно обнаружить в остатках регрессии автокорреляцию более высоких порядков, чем первый, но при этом необходимо, чтобы выборочная совокупность была достаточно велика.
Предположим, что на основании собранных данных была построена модель регрессии вида:
где εt – случайная ошибка модели:
εt=ρ1εt–1+ρ2εt–2+…+ρpεt-p+ut;
ρ – коэффициент автокорреляции порядка (1…ρ);
ut – нормально распределённая случайная величина с нулевым математическим ожиданием и дисперсией G2: ut ~N(0,G2).
Данная модель регрессии может в качестве факторных переменных включать лаговые значения зависимой переменной. Поэтому необходимо проверить основную гипотезу H0 о незначимости коэффициентов автокорреляции:
H0:ρ1=ρ2=…=ρp=0.
Альтернативная гипотеза формулируется как утверждение о значимости коэффициентов автокорреляции:
H1:ρ1≠ρ2≠…≠ρp≠0.
Проверка выдвинутых гипотез осуществляется с помощью общего критерия множителей Лагранжа в несколько этапов:
1) оценки неизвестных коэффициентов модели регрессии вида
рассчитываются с помощью метода наименьших квадратов;
2) рассчитываются остатки модели регрессии et:
3) определяются оценки модели регрессия вида:
Для данной модели осуществляется проверка значимости коэффициентов ρi при лаговых значениях остатков. Для этого вычисляется F-статистика, которая распределена по χ2 закону распределения с p степенями свободы. Если наблюдаемое значение χ2-критерия больше критического значения χ2-критерия, т. е.
то основная гипотеза об отсутствии автокорреляции в остатках отвергается. Если наблюдаемое значение χ2-критерия меньше критического значения χ2-критерия, т. е.
то гипотеза об отсутствии автокорреляции принимается.
85. Критерий Дикки-Фуллера проверки наличия единичных корней
Проверкой наличия единичных корней называется задача проверки основной гипотезы вида
H0:ρ=0 в модели авторегрессии первого порядка:
yt=a+ρyt–1+εt.
Для данного ряда справедливы следующие предположения:
1) временной ряд yt является стационарным, если выполняется условие – 1‹ρ‹1;
2) временной ряд yt является нестационарным и представляет собой модель со случайным трендом, если выполняется условие ρ=1;
3) временной ряд yt также является нестационарным, если выполняется условие ρ›0.
Таким образом, гипотеза о стационарности временного ряда yt состоит в проверке основной гипотезы вида H0:ρ=1.
Критерий Дикки-Фуллера используется при проверке гипотезы о наличия единичных корней.
При этом выдвигается основная гипотеза вида H0:ρ=1 для модели авторегрессии первого порядка:
yt=a+ρyt–1+εt.
Однако на следующем этапе оценивается не эта модель авторегрессии, а модель, которая получается после перехода к первым разностям:
Δyt=δyt-1+εt,
где δ=ρ–1.
Проверка основной гипотезы вида H0:ρ=1 для исходной модели авторегрессии первого порядка аналогична проверке гипотезы H0:δ=0 для полученной модели. Проверка данной гипотезы может осуществляться для трёх типов регрессионных уравнений:
Δyt=δyt-1+εt;(1)
Δyt=а+δyt-1+εt; (2)
Δyt=а+δyt-1+βt+εt. (3)
Данные модели регрессии отличаются только наличием членов модели a и βt.
Первая модель является моделью случайного тренда, во вторую модель включается свободный член a, являющийся коэффициентом случайного тренда. В третью модель включены и коэффициент случайного тренда, и коэффициент линейного временного тренда βt.
Проверка основной гипотезы H0:δ=0 состоит в оценивании методом наименьших квадратов одной или нескольких из моделей регрессии 1, 2, 3 для получения оценки и её стандартной ошибки.
Наблюдаемое значение t-критерия для проверки основной гипотезы вида H0:δ=0 состоит в оценивании методом наименьших квадратов одной или нескольких из моделей регрессии 1, 2, 3 для получения оценки
и её стандартной ошибки.
Наблюдаемое значение t-критерия для проверки основной гипотезы вида H0:β=0 рассчитывают по формуле:
где
– стандартная ошибка оценки
Однако критическое значение t-критерия в данном случае нельзя определить по таблице распределения Стьюдента. Дикки и Фуллер провели исследования, в результате которых определили критические значения t-критерия для проверки гипотезы H0:δ=0 в зависимости от вида модели регрессии и объёма выборочной совокупности. Данные статистики обозначаются как τ – для первой модели регрессии, τμ – для второй модели регрессии, τх – для третьей модели регрессии. Они приведены в таблице критических значений статистик Дикки-Фуллера для различных уровней значимости.
При проверке гипотезы о наличии во временном ряду авторегрессии более чем первого порядка используется расширенный критерий Дикки-Фуллера (Augmented Dickey-Fuller Test – ADF).
Процесс авторегрессии порядка р можно записать следующим образом:
Основная гипотеза формулируется как H0:δ=0. Если данная гипотеза верна, то данная модель авторегрессии имеет единичный корень, т. е. подчиняется процессу авторегрессии первого порядка.
Проверка основной гипотезы H0:δ=0 осуществляется для различных типов регрессионных уравнений:
Справедливость основной гипотезы проверяется с помощью статистики τ для первой модели регрессии (при отсутствии свободного члена и временного тренда).
Справедливость основной гипотезы проверяется с помощью статистики τμ для второй модели регрессии, включающей свободный член.
Справедливость основной гипотезы проверяется с помощью статистики τх для третьей модели регрессии, включающей свободный член и временной линейный тренд.
Если сумма коэффициентов модели регрессии вида
равна единице, т. е.
т. е. в данной модели имеется единичный корень.
86. Цензурированные результативные переменные
Объясняющая переменная называется цензурированной, если она представляет собой момент наступления интересующего нас события при условии ограниченности по времени продолжительности исследования.
Метод цензурирования переменных или наблюдений впервые возник в биологических и медицинских исследованиях. На современном этапе развития науки метод цензурирования используется в таких областях, как социология, демография и т. д. В частности в экономических исследованиях с помощью метода цензурирования анализируется время «выживания» новых предприятий или новой продукции, поступившей на рынок.
В зависимости от направления процесса цензурирования результативной переменной, выделяют правое и левое цензурирование.
Правым цензурированием результативной переменной называется процесс цензурирования, который характеризуется двумя отличительными чертами:
1) известна точка начала момента цензурирования;
2) известна точка окончания момента цензурирования.
Например, осуществляется проверка 100 предприятий, производящих однотипную продукцию, по определённым параметрам. При этом известны начало и конец проведения проверки.
Левое цензурирование не удовлетворяет вышеуказанным чертам, и применяется в биомедицинских исследованиях.
Однократным цензурирование называется цензурирование, которое наступает в один определённый момент времени.
Например, осуществляется проверка 100 предприятий, производящих однотипную продукцию. Если процесс проверки завершится спустя фиксированный отрезок времени, то использовалось однократное цензурирование, а исследуемые данные были цензурированы один раз.
Многократным цензурированием называется цензурирование, которое наступает в различные моменты времени.
Многократное цензурирование используется в биомедицинских исследованиях.
Цензурированием I типа называется цензурирование, которое применяется в тех ситуациях, когда процесс тестирования завершается в заранее известный момент времени.
Например, при проверке 100 предприятий, производящих однотипную продукцию, процесс заканчивается через фиксированный отрезок времени. В этом случае количество предприятий, не прошедших проверку по установленным критериям, является случайной величиной, а время эксперимента – величиной заранее известной.
Цензурированием II типа называется цензурирование, которое применяется в тех ситуациях, когда процесс тестирования завершается при достижении заданных критериев.
Например, при проверке 100 предприятий процесс тестирования будет закончен тогда, когда 25 предприятий не будут удовлетворять заданным критериям. В данном случае число забракованных элементов известно, а время эксперимента является случайной величиной.
Общий вид линейной модели регрессии с цензурированной результативной переменной:
При цензурировании результативной переменной пользуются методом усечения:
Оценки неизвестных коэффициентов модели регрессии с цензурированными переменными определяются с помощью метода максимума правдоподобия. В данной ситуации минимизируется логарифм функционала максимального правдоподобия вида:
Если дифференцировать данный функционал по вектору неизвестных коэффициентов, то результатом будут оценки максимального правдоподобия
Однако существует вероятность того, что данные оценки не будут удовлетворять свойству несмещённости.
Смещение оценок максимального правдоподобия устраняется путём изменения функционала максимального правдоподобия и приведения его к виду:
87. Системы эконометрических уравнений
Если экономический процесс не поддаётся описанию посредством одной модели регрессии, то в подобных ситуациях прибегают к построению нескольких эконометрических уравнений, которые в совокупности образуют систему.
В состав системы эконометрических уравнений входят множество зависимых или эндогенных переменных и множество предопределённых переменных (лаговые и текущие независимые переменные, а также лаговые эндогенные переменные).
Системы эконометрических уравнений используются для объяснения текущих значений эндогенных переменных в зависимости от значений предопределённых переменных.
Системы эконометрических уравнений, которые используются в эконометрическом моделировании, подразделяются на три типа.
1. Система независимых эконометрических уравнений вида:
Данная система характеризуется тем, что каждая эндогенная переменная y является функцией от одних и тех же переменных x;
2. Система рекурсивных эконометрических уравнений вида:
Данная система характеризуется тем, что в каждом последующем уравнении эндогенная переменная выступает в качестве экзогенной переменной;
3. Система взаимозависимых эконометрических уравнений вида:
Данная система характеризуется тем, что эндогенные переменные в одних уравнениях входят в левую часть (т. е. являются результативными переменными), а в других уравнениях – в правую часть (т. е. являются факторными переменными).
В системе взаимозависимых уравнений значения результативных и факторных переменных формируются одновременно под влиянием внешних факторов. Поэтому данная система также называется системой одновременных или совместных уравнений.
В системах независимых и рекурсивных уравнений каждое уравнение может рассматриваться самостоятельно, поэтому оценки неизвестных коэффициентов этих уравнений можно рассчитать с помощью классического метода наименьших квадратов.
В системе одновременных уравнений каждое уравнение не может рассматриваться как самостоятельная часть системы, поэтому оценки неизвестных коэффициентов данных уравнений нельзя определить с помощью классического метода наименьших квадратов, т. к. нарушаются три основных условия применения этого метода:
а) между переменными системы уравнений существует одновременная зависимость, т. е. в первом уравнении системы y1 является функцией от y2, а во втором уравнении уже y2 является функцией от y1;
б) наличие проблема мультиколлинеарности, т. е. во втором уравнении системы y2 зависит от x1, а в других уравнениях обе переменные являются факторными;
в) случайные ошибки уравнения коррелируют с результативными переменными.
Следовательно, если неизвестные коэффициенты системы одновременных уравнений оценивать с помощью классического метода наименьших квадратов, то в результате мы получим смещённые и несостоятельные оценки.
Основной моделью системы одновременных уравнений является модель одновременного формирования спроса Qd и предложения QS товара в зависимости от его цены P в момент времени t. Данная модель включает в себя три уравнения:
1) уравнение предложения:
2) уравнение спроса:
3) тождество спроса, справедливое при условии, что рынок находится в состоянии равновесия:
QSt = Qdt
где
QSt – предложение товара в момент времени t;
Qdt– спрос на товар в момент времени t;
Pt – цена товара в момент времени t;
Pt–1 – цена товара в предшествующий момент времени (t–1);
It – доход потребителей в момент времени t.
88. Структурная и приведённая формы системы одновременных уравнений. Идентификация модели
Структурными уравнениями называются уравнения, из которых состоит исходная система одновременных уравнений. В данном случае система имеет структурную форму.
Структурная форма системы одновременных уравнений непосредственно характеризует реальный экономический процесс.
Структурными коэффициентами или параметрами называются коэффициенты уравнений структурной формы системы одновременных уравнений.
Структурные уравнения могут быть представлены либо поведенческими уравнениями, либо уравнениями-тождествами.
Поведенческие уравнения характеризуют все типы взаимодействия между эндогенными и экзогенными переменными в структурной форме системы одновременных уравнений.
В поведенческих уравнениях значения параметров являются неизвестными и подлежат оцениванию.
Примером поведенческого уравнения являются уравнение спроса или уравнение предложения в модели спроса-предложения:
Тождествами называют равенства, которые выполняются во всех случаях.
Отличительной чертой тождеств является то, что их вид и значения параметров известны, и они не содержат случайной компоненты.
Примером уравнения-тождества является тождество равновесия в модели спроса-предложения:
QSt = Qdt
Для того чтобы определить неизвестные структурные коэффициенты системы одновременных уравнений необходимо перейти к приведённой форме системы.
Приведённой формой системы одновременных уравнений называется система независимых уравнений, в которой все эндогенные переменные выражены только через экзогенные или предопределённые переменные и случайные компоненты, например:
Приведёнными коэффициентами или параметрам называются коэффициенты приведённой формы системы одновременных уравнений.
Оценки неизвестных приведённых коэффициентов можно рассчитать с помощью классического метода наименьших квадратов, а уже на их основе определить оценки структурных коэффициентов.
При переходе от структурной формы системы одновременных уравнений к приведённой форме может возникнуть проблема идентификации модели.
Проблема идентификации состоит в возможности численной оценки неизвестных коэффициентов структурных уравнений по МНК-оценкам коэффициентов приведённых уравнений.
Исходная система одновременных уравнений называется идентифицированной, если все её уравнения точно идентифицированы.
Уравнение называется точно идентифицированным, если по оценкам коэффициентов приведённой формы системы одновременных уравнений можно однозначно найти оценки коэффициентов структурной формы системы одновременных уравнений.
Признаком идентифицированности системы одновременных уравнений является равенство между количеством уравнений, определяющих структурные коэффициенты, и количеством этих коэффициентов, т. е. квадратная форма структурной системы уравнений.
Исходная система одновременных уравнений называется сверхидентифицированной, если среди уравнений модели есть хотя бы одно сверхидентифицированное.
Уравнение называется сверхидентифицированным, если по оценкам коэффициентов приведённой формы системы одновременных уравнений можно получить более одного значения для коэффициентов структурной формы системы одновременных уравнений.
Исходная система одновременных уравнений называется неидентифицированной, если среди уравнений системы есть хотя бы одно неидентифицированное.
Уравнение называется неидентифицированным, если по оценкам коэффициентов приведённой формы системы одновременных уравнений невозможно рассчитать оценки коэффициентов структурной формы системы одновременных уравнений.
89. Условия идентификации структурной формы системы одновременных уравнений
Введём следующие обозначения:
N – количество предопределённых переменных структурной формы системы одновременных уравнений;
n – количество предопределённых переменных в уравнении, проверяемом на идентифицируемость;
M – количество эндогенных переменных структурной формы системы одновременных уравнений;
m – количество эндогенных переменных в уравнении, проверяемом на идентифицируемость;
K – матрица коэффициентов при переменных, не входящих в уравнение, проверяемое на идентифицируемость.
Необходимые и достаточные условия идентификации применяются только к структурной форме системы одновременных уравнений.
Первое необходимое условие идентифицируемости уравнения структурной формы системы одновременных уравнений.
Уравнение структурной формы системы одновременных уравнений идентифицируемо в том случае, если оно исключает хотя бы N-1 предопределённую переменную:
(N–n)+(M–m)≥N–1.
Второе необходимое условие идентифицируемости уравнения структурной формы системы одновременных уравнений.
Уравнение структурной формы системы одновременных уравнений идентифицируемо в том случае, если количество предопределённых переменных, не входящих в данное уравнение, будет не меньше числа эндогенных переменных этого уравнения минус единица:
N–n≥m–1.
Достаточное условие идентифицируемости уравнения структурной формы системы одновременных уравнений.
Уравнение структурной формы системы одновременных уравнений идентифицируемо в том случае, если ранг матрицы K равен (N-1).
Рангом матрицы называется размер наибольшей её квадратной подматрицы, определитель которой не равен нулю.
На основе перечисленных условий идентификации, можно сформулировать необходимые и достаточные условия идентифицируемости уравнения структурной формы системы одновременных уравнений:
1) уравнение структурной формы системы одновременных уравнений считается сверхидентифицированным, если M–m>n–1 и ранг матрицы K равен (N-1);
2) уравнение структурной формы системы одновременных уравнений считается точно идентифицированным, если M–m=n–1 и ранг матрицы K равен (N-1);
3) уравнение структурной формы системы одновременных уравнений считается неидентифицированным, если M–m≥n–1 и ранг матрицы K меньше (N-1);
4) уравнение структурной формы системы одновременных уравнений считается неидентифицированным, если M–m<n–1.
В качестве примера можно рассмотрим процесс идентификации структурной формы модели спроса и предложения. Данная модель включает в себя три уравнения:
1) уравнение предложения:
2) уравнение спроса:
3) тождество равновесия:
QSt = Qdt
С учётом тождества равновесия, модель спроса-предложения может быть записана в виде:
Количество эндогенных переменных данной модели M равно двум (Pt и Qt), т.е. M=2. Количество предопределённых переменных данной модели N равно двум (Pt–1 и It), т.е. N=2.
Проверим выполнение первого необходимого условия идентифицируемости.
Для функции спроса выполняются равенства m=2 и n=1. Отсюда
(N–n)+(M–m)=(2–1)+(2–2)+(2–2)=1=(N–1)=1,
следовательно, уравнение спроса является точно идентифицированным.
Для функции предложения выполняются равенства m=2 и n=1. Отсюда
(N–n)+(M–m)=(2–1)+(2–2)+(2–2)=1=(N–1)=1,
следовательно, уравнение предложения является точно идентифицированным.
Проверим выполнение второго необходимого условия идентифицируемости.
Для функции спроса выполняются равенства m=2 и n=1. Отсюда
N–n=2–1=1=m–1=2–1=1,
следовательно, уравнение спроса является точно идентифицированным.
Для функции предложения выполняются равенства m=2 и n=1. Отсюда
N–n=2–1=1=m–1=2–1=1,
следовательно, уравнение предложения является точно идентифицированным.
Проверим выполнение достаточного условия идентифицируемости, заключающееся в том, чтобы хотя бы один из коэффициентов матрицы K не был равен нулю, т.к. M–1=1.
В первом уравнении модели исключена переменная It и матрица K=[b2]. Т.к. определитель данной матрицы не равен нулю, следовательно, rank=1=M–1 и уравнение является идентифицированным.
Во втором уравнении исключена переменная Pt–1 и матрица К=[a2]. Т.к. определитель данной матрицы не равен нулю, следовательно, rank=1=M–1 и уравнение является идентифицированным.
Т.к. уравнения спроса и предложения являются точно идентифицированными, то и система уравнений в целом точно идентифицирована.
Приведённая форма системы уравнений модели спроса-предложения:
90. Косвенный метод наименьших квадратов (КМНК)
В системе одновременных уравнений каждое уравнение не может рассматриваться как самостоятельная часть системы, поэтому оценки неизвестных коэффициентов данных уравнений нельзя определить с помощью классического метода наименьших квадратов, т. к. нарушаются три основных условия применения этого метода:
а) между переменными системы уравнений существует одновременная зависимость, т. е. в первом уравнении системы y1 является функцией от y2, а во втором уравнении уже y2 является функцией от y1;
б) наличие проблема мультиколлинеарности, т.е. во втором уравнении системы y2 зависит от x1, а в других уравнениях обе переменные являются факторными;
в) случайные ошибки уравнения коррелируют с результативными переменными.
Следовательно, если неизвестные коэффициенты системы одновременных уравнений оценивать с помощью классического метода наименьших квадратов, то в результате мы получим смещённые и несостоятельные оценки.
Косвенный метод наименьших квадратов используется для получения оценок неизвестных коэффициентов системы одновременных уравнений, удовлетворяющих свойствам эффективности, несмещённости и состоятельности.
Косвенный метод наименьших квадратов применяется только в том случае, если структурная форма системы одновременных уравнений является точно идентифицированной.
Алгоритм метода наименьших квадратов реализуется в три этапа:
1) на основе структурной формы системы одновременных уравнений составляется её приведённая форма, все параметры которой выражены через структурные коэффициенты;
2) приведённые коэффициенты каждого уравнения оцениваются обычным методом наименьших квадратов;
3) на основе оценок приведённых коэффициентов системы одновременных уравнений определяются оценки структурных коэффициентов через приведённые уравнения.
Рассмотрим применение косвенного метода наименьших квадратов на примере структурной формы модели спроса и предложения:
Было доказано, что структурная форма модели спроса и предложения является точно идентифицированной, поэтому для определения оценок неизвестных параметров данной модели можно применить косвенный метод наименьших квадратов.
1) запишем приведённую форму модели спроса и предложения:
2) определим оценки коэффициентов приведённой формы модели спроса и предложения с помощью обычного метода наименьших квадратов. Тогда система нормальных уравнений для определения коэффициентов первого уравнения приведённой формы модели будет иметь вид:
Система нормальных уравнений для определения коэффициентов второго уравнения приведённой формы модели записывается аналогично. Решением данных систем нормальных уравнений будут численные оценки приведённых коэффициентов A1,A2,A3 и B1,B2,B3;
Для определения по оценкам приведённых коэффициентов получить оценки структурных коэффициентов первого уравнения, необходимо из второго приведённого уравнения выразить переменную It и подставить полученное выражение в первое уравнение приведённой формы модели. Для определения оценок структурных коэффициентов второго уравнения, необходимо из второго приведённого уравнения выразить переменную Pt–1 и подставить полученное выражение в первое уравнение приведённой формы модели.
91. Метод инструментальных переменных
Метод инструментальных переменных основан на критике М. Фридменом оценивания кейнсианской функции потребления.
Общий вид функции потребления:
Cit=a+βyit+εit, (1)
где Сit– объём потребления i-го домашнего хозяйства в t-ом году;
yit – объём доходов i-го домашнего хозяйства в t-ом году;
β – коэффициент предельной склонности к потреблению (0< β<1);
a – коэффициент автономного потребления;
εit – независимая случайная составляющая модели.
В соответствии с кейнсианской трактовкой модели потребления, коэффициент автономного потребления а равен нулю.
К основным недостаткам модели потребления можно отнести:
1) оценки неизвестных коэффициентов модели регрессии, рассчитанные традиционным методом наименьших квадратов, изменяются год от года;
2) в ходе экспериментов было доказано, что оценка коэффициента β для фермерских хозяйств ниже, чем для городского населения.
М. Фридмен показал невозможность применения традиционного метода наименьших квадратов для оценивания неизвестных коэффициентов модели регрессии (1) с помощью теории постоянных доходов.
Предположим, что справедливы следующие равенства:
Т – это индекс, означающий непостоянство (transitory) переменных.
Пусть переменные дохода yit и потребления Сit– этослучайные величины с нулевым математическим ожиданием и дисперсиями
соответственно, т. е.
По Фридмену переменные дохода и потребления связаны отношением вида:
Задача состоит в определении значимости функции потребления (2) при значимости функции потребления (1).
Представим функцию потребления (2) в виде равенства:
Тогда потребление можно представить следующим образом:
Обозначим выражение
как uit. Тогда функция потребления (2) примет вид:
Cit=a+βyit+uit.
В модели потребления (1) величина εit, является независимой случайной составляющей, а в модели потребления (2) величина uit коррелируют с βyit, следовательно, нарушается первая предпосылка нормальной модели регрессии.
Рассчитаем показатель ковариации между переменной yit и uit:
Оценка коэффициента β в модели потребления (1), полученная традиционным методом наименьших квадратов, равна выражению:
Следовательно, традиционный метод наименьших квадратов будет всегда давать заниженные оценки параметров, поэтому им пользоваться нельзя.
М. Фридмен предложил новый метод для оценки неизвестных коэффициентов подобных функций, названный им методом инструментальных переменных (Instrumental Variables – IV).
Суть метода инструментальных переменных заключается в следующем. Переменная yit из правой части уравнения, для которой нарушается первая предпосылка нормальной модели регрессии, заменяется на новую переменную, называемую инструментом:
В результате получим, что случайная ошибка uit и переменная yit между собой не коррелируют, но коррелируют с новой переменной
которая называется инструментом. Индекс y' означает, что переменная дохода относится к следующему году.
Оценка неизвестного коэффициента β, полученная методом инструментальных переменных, выглядит следующим образом:
В общем случае инструментальная переменная z должна удовлетворять двум свойствам:
1) она должна тесно коррелировать с зависимой переменной у: cov(y,z)≠0;
2) она не должна коррелировать со случайной ошибкой εt: cov(z,ε)=0.
Для модели множественной регрессии оценки неизвестных параметров модели рассчитываются по формуле:
92. Двухшаговый метод наименьших квадратов (ДМНК)
Уравнение называется сверхидентифицированным, если по оценкам коэффициентов приведённой формы системы одновременных уравнений можно получить более одного значения для коэффициентов структурной формы системы одновременных уравнений.
Оценки неизвестных параметров сверхидентифицированного уравнения нельзя рассчитать традиционным и косвенным методом наименьших квадратов. В данном случае для определения неизвестных оценок используется двухшаговый метод наименьших квадратов.
Алгоритм двухшагового метода наименьших квадратов реализуетсяв четыре этапа:
1) на основе структурной формы системы одновременных уравнений составляется её приведённая форма;
2) оценки неизвестных коэффициентов приведённой формы системы одновременных уравнений рассчитываются с помощью традиционного метода наименьших квадратов;
3) рассчитываются значения эндогенных переменных, выступающих в качестве факторных в сверхидентифицированном уравнении;
4) все структурные коэффициенты уравнений системы рассчитываются традиционным методом наименьших квадратов через предопределённые переменные, входящие в это уравнение в качестве факторов, и значения эндогенных переменных, полученных на предыдущем шаге.
Как видно из описания данного алгоритма, традиционный метод наименьших квадратов применяется два раза (для определения оценок эндогенных переменных приведённой формы и для определения оценок структурных параметров уравнений системы), поэтому и получил название двухшагового.
Различают две разновидности моделей, чьи структурные формы содержат сверхидентифицированные уравнения:
1) в модель помимо сверхидентифицированного уравнения также входят точно идентифицированные уравнения;
2) все уравнения модели являются сверхидентифицированными.
Для моделей первого типа оценки структурных коэффициентов точно идентифицированного уравнения определяются на основании системы приведённых уравнений.
Для моделей второго типа оценки структурных коэффициентов системы определяются с помощью двухшагового метода наименьших квадратов.
Если все уравнения системы точно идентифицированы, то оценки структурных коэффициентов, полученные косвенным методом наименьших квадратов и оценки, полученные двухшаговым методом наименьших квадратов будут одинаковыми.
93. Спецификация и приведенная форма эконометрических моделей в виде системы одновременных уравнений. Эконометрическая модель Самуэльсона-Хикса делового цикла экономики
Определение явного вида эконометрической модели называется спецификацией эконометрической модели.
При спецификации эконометрических моделей принято учитывать четыре принципа:
1) эконометрические утверждения и закономерности должны быть переведены на математический язык;
2) количество уравнений в модели должно быть равно числу эндогенных переменных;
3) переменные должны быть датированы;
4) в модель должен быть включён параметр случайной ошибки, чтобы охарактеризовать влияние случайных факторов.
Существуют следующие формы спецификации моделей:
1) структурная форма модели, когда эндогенные переменные не выражены явно через предопределенные переменные;
2) приведенная форма модели, когда эндогенные переменные представляют собой явно выраженные функции от предопределенных переменных.
Экономическим объектом в эконометрической модели Самуэльсона-Хикса является закрытая экономика.
Состояние закрытой экономики в текущем периоде t характеризуется переменными (Yt, Ct, It, Gt),
где Yt – валовой внутренний продукт (ВВП);
Ct – уровень потребления;
It – величина инвестиций;
Gt – государственные расходы.
При составлении спецификации модели Самуэльса-Хикса необходимо учесть следующие экономические утверждения:
1) текущее потребление объясняется уровнем валового внутреннего продукта в предыдущем периоде, увеличиваясь одновременно с ним, но с меньшей скоростью;
2) величина инвестиций прямо пропорциональна приросту валового внутреннего продукта за предшествующий период (прирост ВВП за предшествующий период определяется как разность Yt-lи Yt-2);
3) государственные расходы возрастают с постоянным темпом роста;
4) текущее значение валового внутреннего продукта представляет собой сумму текущих уровней потребления, инвестиций и государственных расходов (тождество системы национальных счетов).
Если вышеперечисленные экономические утверждения перевести на математический язык, то мы придём к спецификации модели вида (1):
Ct=a0+a1Yt–1,
It=b*(Yt–1–Yt-2),
Gt=g*Gt–1,
Yt=Ct+It+Gt,
при ограничениях:
0<a1<1,
b>0,
g>0.
Спецификация (1) модели близка к приведённой форме: текущие переменные Ct, It и Gt являются явными функциями предопределен–ных переменных, а переменную Yt можно сделать явной функцией путём подстановки правых частей первых трёх уравнений в правую часть четвёртого уравнения.
В итоге получим приведённую форму (2) модели Самуэльсона-Хикса:
Ct=a0+a1Yt–1,
It=b*(Yt–1–Yt-2),
Gt=g*Gt–1,
Yt=a0+a1Yt–1– b*(Yt–1–Yt-2)+g*Gt–1,
при ограничениях:
0<a1<1,
b>0,
g>0.
Основное отличие эконометрических моделей от других видов моделей заключается в обязательном включении в модель случайной ошибки.
Случайная ошибка характеризуется следующими свойствами:
1) математическое ожидание случайной ошибки при всех значениях эндогенной переменной равно нулю;
2) дисперсии случайной ошибки удовлетворяют свойству гомоскедастичности, т. е. постоянства дисперсий.
Запишем спецификацию модели вида (1) с учётом случайной ошибки:
Ct=a0+a1Yt–1, (3)
It=b*(Yt–1–Yt-2),
Gt=g*Gt–1,
Yt=Ct+It+Gt,
при ограничениях:
0<a1<1,
b>0,
g>0,
E(ut|Yt–1)=0,
σ(ut|Yt–1)=σu,
σ(νt|Yt–1,Yt-2)=σν,
E(wt|Gt–1)=0.
С учётом первой и третьей спецификаций модели Самэльсона-Хикса, получим приведённую форму данной модели (4):
Ct=a0+a1Yt–1,
It=b*(Yt–1–Yt-),
Gt=g*Gt–1,
Yt=a0+(a1+b)Yt–1– b*Yt–2+g*Gt–1+(ut+νt+wt)
при ограничениях:
0<a1<1,
b>0,
g>0.
94. Динамические эконометрические модели
Динамической эконометрической моделью называется модель, которая в настоящий момент времени учитывает значения входящих в неё переменных, относящихся не только к текущему, но и к предыдущему моментам времени.
В качестве примера динамических эконометрических моделей можно привести модели вида:
yt=f(xt,xt–l),
yt=f(xt,yt–l).
Модель регрессии вида:
yt=f(x1…xn)=f(xi)не относится к динамическим эконометрическим моделям.
1) Динамические эконометрические модели делятся на два основных типа:
2) динамические модели, в которых значения переменных, относящихся к прошлым моментам времени (лаговые значения), включены в модель с текущими значениями этих переменных. К таким моделям относятся:
а) модель авторегрессии;
б) модель с распределённым лагом.
Моделью авторегрессии называется динамическая эконометрическая модель, в которой в качестве факторных переменных содержатся лаговые значения результативной переменной.
Пример модели авторегрессии:
yt=β0+β1xt+δ1yt–1+εt.
Моделью с распределённым лагом называется динамическая эконометрическая модель, в которую включены не только текущие, но и лаговые значения факторных переменных.
Пример модели с распределённым лагом:
yt=β0+β1xt+β2xt–1+…+βLxt–L+εt.
где L – это величина временного лага (запаздывания) между рядами;
3) динамические модели, в которые входят переменные, отражающие предполагаемый или желаемый уровень результативной переменной или одной из факторных переменных в определённый момент времени (t+1). Величина желаемого уровня является неизвестной и рассчитывается на основании той информации, которая имеется в наличии на предшествующий момент времени (t). В зависимости от способа расчёта желаемых переменных различают следующие виды моделей:
а) модель адаптивных ожиданий (МАО);
б) модель частичной (неполной) корректировки (МЧК)
Моделью адаптивных ожиданий называется динамическая эконометрическая модель, которая учитывает предполагаемое или желаемое значение факторной переменной
Общий вид модели адаптивных ожиданий:
Примером модели адаптивных ожиданий является модель зависимости предполагаемой в будущем периоде (t+1) индексации заработных плат и пенсий на текущие цены.
Моделью частичной (неполной) корректировки называется динамическая эконометрическая модель, которая учитывает предполагаемое (или желаемое) значение результативной переменной
Общий вид модели частичной корректировки:
Примером модели частичной корректировки является модель Литнера, которая отражает зависимость желаемого объёма дивидендов
от фактического текущего объёма прибыли xt.
Неизвестные коэффициенты динамических эконометрических моделей нельзя рассчитать с помощью традиционного метода наименьших квадратов, потому что они не будут удовлетворять свойствам несмещённости, состоятельности и эффективности.
Неизвестные коэффициенты моделей авторегрессии оцениваются с помощью метода инструментальных переменных.
Для моделей с распределённым лагом в зависимости от структуры лага для оценивания неизвестных коэффициентов применяются метод Алмон и метод Койка. Суть данных методов состоит преобразовании исходной модели с распределённым лагом к модели авторегрессии, оценки неизвестных параметров которой можно рассчитать с помощью метода инструментальных переменных.
Для определения оценок неизвестных коэффициентов модели адаптивных ожиданий и модели частичной корректировки их также преобразуют в модели авторегрессии.
95. Модели авторегрессии
Моделью авторегрессии называется динамическая эконометрическая модель, в которой в качестве факторных переменных содержатся лаговые значения результативной переменной.
Пример модели авторегрессии:
yt=β0+β1xt+δ1yt–1+εt,
где β1 – это коэффициент, который характеризует краткосрочное изменение переменной у под влиянием изменения переменной х на единицу своего измерения;
δ1 – это коэффициент, который характеризует изменение переменной у в текущий момент времени t под влиянием своего изменения в предыдущий момент времени (t–1).
Промежуточным мультипликатором называется произведение коэффициентов модели авторегрессии (β1*δ1).
Промежуточный мультипликатор отражает общее абсолютное изменение результативной переменной у в момент времени (t+1).
Определение. Долгосрочным мультипликатором называется показатель, рассчитываемый как
Долгосрочный мультипликатор отражает общее абсолютное изменение результативной переменной у в долгосрочном периоде.
Если для модели авторегрессии выполняется условие |δ|<1, то при наличии бесконечного лага будет справедливым равенство:
В нормальной линейной модели регрессии все факторные переменные не зависят от случайной ошибки модели. Данное условие для моделей авторегрессии нарушается, потому что переменная yt-1 частично зависит от случайной ошибки модели εt. Следовательно, при оценке неизвестных коэффициентов традиционным методом наименьших квадратов ы получим смещённую оценку коэффициента при переменной yt–1.
При определении оценок неизвестных коэффициентов модели авторегрессии используется метод инструментальных переменных (IV – Instrumental variables).
Суть метода инструментальных переменных заключается в том, что переменная yt–1, для которой нарушается предпосылка применения метода наименьших квадратов, заменяется на новую переменную z, удовлетворяющую двум требованиям:
1) данная переменная должна тесно коррелировать с переменной yt–1: cov(yt–1,z)≠0;
2) данная переменная не должна коррелировать со случайной ошибкой модели εt: cov(z,ε)=0.
Предположим, что на основании собранных данных была построена модель авторегрессии вида:
yt=β0+β1xt+δ1yt–1+εt.
Рассчитаем оценки неизвестных коэффициентов данной модели с помощью метода инструментальных переменных.
В данной модели авторегрессии переменная yt коррелирует с переменной xt, следовательно, переменная yt–1 зависит от переменной xt–1. Охарактеризуем данную корреляционную зависимость с помощью парной модели регрессии вида:
yt–1=k0+k1xt–1+ut,
где k0 ,k1 – неизвестные коэффициенты модели регрессии;
ut – случайная ошибка модели регрессии.
Обозначим выражение k0+k1xt–1 через переменную zt–1. Тогда модель регрессии для переменной yt–1 примет вид:
yt–1= zt–1+ut.
Новая переменная zt–1 удовлетворяет свойствам, предъявляемым к инструментальным переменным:
1) она тесно коррелирует с переменной yt–1: cov(zt–1,yt–1)≠0;
2) она коррелирует со случайной ошибкой исходной модели авторегрессии εt: cov(εt, zt–1).
Таким образом, исходная модель авторегрессии может быть представлена следующим образом:
yt=β0+β1xt+δ1(k0+k1xt–1+ut)+εt= β0+β1xt+δ1 zt–1+νt,
где νt= δ1 ut+ εt.
На следующем этапе оценки неизвестных коэффициентов преобразованной модели рассчитываются с помощью традиционного метода наименьших квадратов. Эти оценки будут являться оценками неизвестных коэффициентов исходной модели авторегрессии.
96. Модели с распределённым лагом
Моделью с распределённым лагом называется динамическая эконометрическая модель, в которую включены не только текущие, но и лаговые значения факторных переменных.
С помощью модели с распределённым лагом можно охарактеризовать влияние изменения факторной переменной х на дальнейшее изменение результативной переменной у, т. е. изменение х в момент времени t будет оказывать влияние на значение переменной у в течение L следующих моментов времени.
Пример модели с распределённым лагом:
yt=β0+β1xt+β2xt–1+…+βLxt–L+εt.
Краткосрочным мультипликатором называется коэффициент β1 модели с распределённым лагом
Краткосрочный мультипликатор характеризует среднее абсолютное изменение переменной yt при изменении переменной xt на единицу своего измерения в конкретный момент времени t при элиминировании влияния лаговых значений переменной х.
Коэффициент β2 модели с распределённым лагом характеризует среднее абсолютное изменение переменной yt в результате изменения переменной х на единицу своего измерения в момент времени t–1.
Промежуточным мультипликатором называется сумма коэффициентов β1и β2 модели с распределённым лагом.
Промежуточный мультипликатор характеризует совокупное влияние факторной переменной х на переменную у в момент времени (t+1). Таким образом, изменение переменной х на единицу в момент времени t вызывает изменение переменной у на β1 единиц в момент времени t и изменение переменной у на β2 в момент времени (t+1).
Средним лагом называется средний период времени, в течение которого будет происходить изменение результативной переменной у под влиянием изменения факторной переменной х в момент t:
Если величина среднего лага небольшая, то переменная у достаточно быстро реагирует на изменение факторной переменной х.
Если величина среднего лага большая, то факторная переменная х медленно воздействует на результативную переменную у.
Медианным лагом называется период времени, в течение которого с момента начала изменения факторной переменной х будет реализована половина её общего воздействия на результативную переменную у.
Оценки неизвестных коэффициентов модели с распределённым лагом традиционным методом наименьших квадратов рассчитать нельзя по трём причинами:
1) нарушение первого условия нормальной линейной модели регрессии, т. е. наличие корреляции между текущими и лаговыми значениями факторной переменной;
2) при большой величине лага L уменьшается количество наблюдений, по которым строится модель регрессии и увеличивается число факторных переменных (xt,xt–1,xt–2,…), что в конечном результате ведёт к потере числа степеней свободы в модели;
3) наличие проблема автокорреляции остатков.
Данные причины в итоге ведут к нестабильности оценок коэффициентов регрессии, вычисленных с помощью метода наименьших квадратов.
Оценки неизвестных коэффициентов моделей с распределённым лагом рассчитывают с помощью специальных методов, чаще всего с использованием метода Алмон и метода Койка.
97. Метод Алмон
Для оценки неизвестных коэффициентов модели с распределённым лагом применяется метод Алмон или лаги Алмон.
Данный метод можно применять к моделям, которые характеризуются полиномиальной структурой лага и конечной величиной лага L:
yt=β0+β1xt+β2xt–1+…+βLxt–L+εt. (1)
Структура лага определяется графическим методом при отражении зависимости параметров при факторных переменных от величины лага.
Алгоритм метода Алмон реализуется в несколько этапов:
Суть метода Алмон состоит в следующем:
1) зависимость коэффициентов при факторных переменных βi от величины лага i аппроксимируется полиномиальной функцией:
а) первого порядка βi=c0+c1*i
б) второго порядка
в) третьего порядка
г) в общем случае полиномиальной функцией порядка P:
Алмон доказал, рассчитать оценки коэффициентов
намного проще, чем найти оценки непосредственно коэффициентов βi. Подобный метод оценивания коэффициентов βi называется полиномиальной аппроксимацией.
2) каждый коэффициент модели (1) можно выразить следующим образом:
β1=c0;
β2=c0+c1+…+cP;
β3=c0+2c1+4c2+…+2PcP;
β4=c0+3c1+9c2+…+3PcP;
…
βL=c0+Lc1+L2c2+…+LPcP.
Подставим полученные выражения для коэффициентов βi в модель (1):
yt=β0+c0xt+( c0+c1+…+cP)xt–1+…+( βL=c0+Lc1+L2c2+…+LPcP)xt–L+εt.
3) в полученном выражении перегруппируем слагаемые:
Обозначим слагаемые в скобках при коэффициентах
как новые переменные:
С учётом новых переменных модель примет вид:
yt=β0+c0z0+c1z1+…+cPzP+εt. (2)
4) оценки неизвестных коэффициентов модели (2) можно рассчитать с помощью традиционного метода наименьших квадратов. Далее на основе полученных оценок коэффициентов
5) найдём оценки коэффициентов
модели (1), используя соотношения, полученные на первом шаге.
К основным недостаткам метода Алмон относятся:
1) необходимо заранее знать величину максимального временного лага L, однако на практике это невозможно. Определить величину лага L можно с помощью вычисления показателей тесноты связи, например, линейных парных коэффициентов корреляции, между результативной переменной у и лаговым значением факторной переменной х. Если показатель тесноты связи является значимым, то данную переменную необходимо включить в модель с распределённым лагом. Порядок максимального значимого показателя тесноты связи принимается в качестве максимальной величины лага L;
2) порядок полиномиальной функции Р также заранее неизвестен. При выборе порядка полинома обычно исходят из того, что на практике не используются полиномы более второго порядка, а выбранная степень полинома должна быть на единицу меньше числа экстремумов в структуре лага;
3) если между факторные переменные коррелируют друг с другом, то новые переменные
которые являются линейной комбинацией факторных переменных x, будут также коррелировать между собой. Поэтому проблема мультиколлинеарности в преобразованной модели (2) устранена не полностью. Однако мультиколлинеарность новых переменных zi в меньшей степени отражается на оценках неизвестных коэффициентов βi исходной модели (1), чем при использовании традиционного метода наименьших квадратов к данной модели.
Основным преимуществом метода Алмон является то, что данный метод является универсальным и может быть использован при моделировании процессов, которые характеризуются различными структурами лагов.
98. Нелинейный метод наименьших квадратов. Метод Койка
Если модель с распределенным лагом характеризуется бесконечной величиной максимального лага L, то для оценивания неизвестных параметров данной модели применяются нелинейный метод наименьших квадратов и метод Койка. При этом исходят из предположения о геометрической структуре лага, т. е. влияние лаговых значений факторной переменной на результативную переменную уменьшается с увеличением величины лага в геометрической прогрессии.
Если в модель включена только одна объясняющая переменная, то её можно представить в виде:
В модели с распределённым лагом (1) неизвестными являются три параметра: β0, β1 и λ. Найти оценки данных параметров с помощью традиционного метода наименьших квадратов невозможно по нескольким причинам, поэтому в данном случае используются нелинейный метод наименьших квадратов и метод Койка
Суть нелинейного метода наименьших квадратов заключается в том, что для параметра
λ определяются значения в интервале [-1;+1] с определённым шагом, например, 0,05 (чем меньше шаг, тем точнее будет результат).
Для каждого значения λ рассчитывается переменная z:
zt=xt+λxt–1+λ2xt–2+λ3xt–3+…+λLxt–L,
с таким значением лага L, при котором дальнейшие лаговые значения переменной x не оказывают существенного влияния на z.
На следующем этапе с помощью традиционного метода наименьших квадратов оценивается модель регрессии вида:
yt=β0+β1zt+εt (2)
и рассчитывается коэффициент детерминации R2. Данный процесс осуществляется для всех значений λ из интервала [-1;+1]. Оценками коэффициентов β0, β1 и λ будут те, которые обеспечивают наибольшее значение R2 для модели регрессии (2).
В основе метода или преобразования Койка лежит предположение о том, что если модель регрессия (1) справедлива для момента времени t, то она справедлива и для момента времени (t–1):
yt–1=β0+β1xt–1+β1λxt–2+β1λ2xt–3+β1λ3xt–4+…+εt,
Умножим обе части данного уравнения на λ и вычтем их из модели регрессии (1). В результате получим выражение вида:
yt– λ yt–1= β0(1– λ)+β1xt+εt–λ εt–1,
или
yt= β0(1– λ)+β1xt+λyt–1+νt, (2)
где νt= εt–λ εt–1.
Полученная модель (2) является моделью авторегрессии, что позволяет проанализировать её краткосрочные и долгосрочные динамические свойства.
Значение переменной yt–1 в краткосрочном периоде (в текущем периоде) рассматривается как фиксированное, а воздействие переменной х на переменную у характеризует коэффициент β1.
Если xtв долгосрочном периоде (без учёта случайной компоненты модели) стремится к некоторому равновесному значению
то yt и yt–1 также будут стремиться к своему равновесному значению, которое вычисляется по формуле:
из чего следует:
Долгосрочное влияние переменной х на переменную у характеризуется коэффициентом
Несмотря на то, что метод Койка очень удобен в вычислительном отношении (оценки параметров β0, β1 и λ можно рассчитать с помощью традиционного метода наименьших квадратов), оценки, полученные с его помощью, будут смещёнными и несостоятельными, т. к. нарушается первое условие нормальной линейной модели регрессии.
99. Модель адаптивных ожиданий (МАО)
Моделью адаптивных ожиданий называется динамическая эконометрическая модель, которая учитывает предполагаемое (или желаемое) значение факторной переменной
в момент времени (t+1).
Общий вид модели адаптивных ожиданий:
Предполагаемое (ожидаемое) значение переменной
в момент времени (t+1) рассчитывается на основании значений фактических (реальных) переменных в предшествующий момент времени t.
Примером модели адаптивных ожиданий является модель зависимости размера предполагаемой в будущем периоде (t+1) индексации заработных плат и пенсий на текущие цены, или модель зависимости объёма текущих инвестиций в момент времени t от ожидаемого курса валюты в момент времени (t+1).
Механизм формирования ожиданий в модели адаптивных ожиданий можно представить следующим образом:
Следовательно, ожидаемое значение переменной xt в следующий момент времени (t+1) можно определить как среднее арифметическое взвешенное значение её фактического xt и ожидаемого
значений в текущем периоде t.
Величина λ называется параметром адаптации. Чем больше величина параметра адаптации, тем быстрее ожидаемое значение адаптируется предыдущим фактическим событиям xt. Чем меньше величина данного параметра, тем ближе ожидаемое в будущем значение
к ожидаемому значению предшествующего периода
что характеризует сохранение тенденций в ожиданиях.
Модель адаптивных ожиданий содержит предполагаемые значения факторной переменной, которые нельзя получить эмпирическим путём, поэтому применение традиционного метода наименьших квадратов для оценки неизвестных коэффициентов данной модели невозможно.
Для определения оценок неизвестных коэффициентов исходной модели адаптивных ожиданий (1) её необходимо преобразовать.
Подставим выражение (2) в исходную модель (1):
Исходя из предположения о том, что если модель адаптивных ожиданий (1) верна для момента времени t, то она будет верна и для момента времени (t-1), запишем модель адаптивных ожиданий для периода (t-1):
Умножив данное выражение на (1-λ), получим:
Далее вычтем почленно полученное выражение из модели (3):
Преобразованная модель (4) является обычной моделью авторегрессии. Оценки неизвестных коэффициентов данной модели можно рассчитать с помощью метода инструментальных переменных. После определения модели авторегрессии можно перейти к оценке параметров исходной модели адаптивных ожиданий (1).
Долгосрочной функцией модели адаптивных ожиданий называется модель (1), которая характеризует зависимость результативной переменной от предполагаемых значений факторной переменной.
Определение. Краткосрочной функцией модели адаптивных ожиданий называется модель вида [4], полученная в результате преобразований, которая характеризует зависимость результативной переменной от фактических значений факторной переменной.
100. Модель частичной (неполной) корректировки (МЧК)
Моделью частичной (неполной) корректировки называется динамическая эконометрическая модель, которая учитывает предполагаемое или желаемое значение результативной переменной
Общий вид модели частичной корректировки:
Предполагаемое значение переменной
в момент времени t рассчитывается на основании значений фактических (реальных) переменных в предшествующий момент времени (t-1).
Примером модели частичной корректировки является модель Литнера, которая характеризует зависимость желаемого объёма дивидендов
от фактического текущего объёма прибыли xt.
В основе модели частичной корректировки лежит предположение о том, что величина фактического приращения результативной переменной в текущем периоде по сравнению с предшествующим периодом (yt–yt–1) пропорциональна разности между её ожидаемым уровнем и фактическим значением в предшествующий момент времени
Следовательно, фактическое значение результативной переменной в момент времени t (yt) определяется как среднее арифметическое взвешенное значение предполагаемого уровня результативной переменной в тот же самый момент времени
и фактического значений этой переменной в предшествующий момент времени t–1 (yt–1).
Величина λ называется параметром корректировки.
Чем больше значение параметра корректировки, тем быстрее осуществляется процесс корректировки результативной переменной yt.
Если параметр корректировки равен единице, то фактическое значение результативной переменной равно её ожидаемому значению
и процесс полной корректировки происходит за один период.
Если параметр корректировки равен нулю, то корректировка результативной переменной yt не происходит вовсе.
Модель частичной корректировки содержит предполагаемые значения результативной переменной, которые нельзя получить эмпирическим путём, поэтому оценивание неизвестных коэффициентов модели с помощью традиционного метода наименьших квадратов невозможно.
Для определения оценок неизвестных коэффициентов исходной модели частичной корректировки (1) её необходимо преобразовать.
Подставим исходную модель (1) в выражение (2):
Оценки неизвестных параметров β0, β1 и λ преобразованной модели можно рассчитать с помощью традиционного метода наименьших квадратов.
Преобразованная модель (3) включает стохастическую объясняющую переменную yt–1. Но данная переменная не коррелирует с текущим значением совокупной случайной ошибки модели wt, потому что ошибки εt и νt определяются только после расчёта значения результативной переменной yt–1. Поэтому оценки неизвестных коэффициентов, полученные с помощью традиционного метода наименьших квадратов, будут асимптотически несмещёнными и эффективными оценками.
Долгосрочной функцией модели частичной корректировки называется исходная модель (1), которая содержит предполагаемые значения результативной переменной.
Краткосрочной функцией модели частичной корректировки называется преобразованная модель (3), которая содержит только фактические значения переменных.
Комментарии к книге «Ответы на экзаменационные билеты по эконометрике», Ангелина Витальевна Яковлева
Всего 0 комментариев