Эконометрика. Применение пакета STATA

Программа Stata - это универсальный пакет для решения статистических задач в самых разных прикладных областях: экономике, медицине, биологии, социологии. Впервые пакет вышел на рынок под этим названием в начале 80-х гг. В январе 1999 г. была выпущена шестая версия, в декабре 2000 г. - седьмая. Основными достоинствами Stata являются:

большой спектр реализованных статистических методов; возможности гибкой пакетной обработки данных (т. е. программирования всей последовательности команд, начиная от загрузки данных в память до всех деталей анализа);
возможности интерактивного режима работы полностью идентичны возможностям пакетной обработки;
относительная простота написания собственных программных модулей, и, вместе с тем, весьма серьезный спектр средств программирования;
мощная поддержка как со стороны производителя, так и со стороны других пользователей Stata (через интернетовский список рассылки); огромный архив пользовательских программ в открытом доступе;
возможность максимизации функций правдоподобия, задаваемых пользователем;
наличие совместимых по функциональным возможностям и форматам данных реализаций для большинства популярных платформ (Windows, Macintosh, UNIX).

По поводу графических средств мнения пользователей разнятся: с одной стороны, они вполне достаточны для текущего графического анализа данных и подготовки научных публикаций, с другой, несравнимы с графическими возможностями специализированных пакетов типа Harvard Graphics или презентационных программ типа PowerPoint.

Возможности пакета

Ниже приводится сводка основных возможностей пакета со ссылками на вебсайт производителя.

Базовые статистические методы
описательные статистики, таблицы сопряженности, корреляции, t-тесты, тесты на равенство дисперсий, тесты на пропорции, ...
Линейные модели
дисперсионный анализ, линейная регрессия, оценка ковариационной матрицы в форме Хьюбера-Уайта, метод инструментальных переменных, трехшаговый МНК, внешне не связанные регрессии, регрессии с ограничениями, квантильные регрессии, обобщенный МНК, ...
Обобщенные линейные модели
Гауссовская, биномиальная, Пуассоновская, отрицательная биномиальная, гамма, логит, пробит, степенная модели, модель дополнительных логарифмов, ...
Модели с бинарными и ограниченными зависимыми переменными
логит, пробит, тобит-модели, регрессия с цензурированием, условно-логистическая регрессия, полиномиальная, вложенная логит-модели, пуассон-регрессия, отрицательно-биномиальная модель, модели с увеличенной пропорцией нулей, модель Хекмана, модель обработки, предельные эффекты, ...
Панельные/повторные данные
обобщенные уравнения оценивания, регрессии со случайными и фиксированными эффектами, модели пробит и тобит со случайными эффектами, модели Пуассона и отрицательная биномиальная со случайными и фиксированными эффектами, оценка Ареллано-Бонда, регрессия с инструментальными переменными, регрессия с автокоррелированными ошибками, ...
Непараметрические методы
статистика Уилкоксона-Манна-Уитни, знаково-ранговый тест Уилкоксона, статистика Крускала-Уоллиса, коэффициенты корреляции Спирмена и Кендалла, тест Колмогорова-Смирнова, точные биномиальные доверительные интервалы, ...
Многомерные методы
факторный анализ, метод главных компонент, канонические корреляции, многомерная регрессия, ...
Кластерный анализ
иерархические методы: одиночная, полная, средняя связи; методы k-средних и k-медиан, дендрограммы, два десятка метрик, расширение пользователями, ...
Методы повторных выборок и статистического эксперимента
бутстреп, метод складного ножа, метод Монте-Карло
Проверка гипотез и работа с оцененными моделями
тесты Вальда, отношения правдоподобия, тесты на линейные ограничения, тесты на нелинейные ограничения, предельные эффекты, скорректированные средние, построение прогнозов, извлечение остатков, диагностика выделяющихся наблюдений, тест Хаусмана, тест множителей Лагранжа на пропущенные переменные, ...
Максимизация функций правдоподобия, заданных пользователем
Анализ обследований со сложной структурой выборки
выборочные веса, стратификация, многоступенчатая кластерная структура выборки, линеаризованная оценка дисперсии, эффект дизайна, средние, пропорции, отношения, суммы, таблицы сопряженности, линейная регрессия, регрессия с инструментальными переменными, логит, пробит, полиномиальная логит-модели, ...
Модели выбытия
модели Каплана-Мейера, Нельсона-Аалена, регрессия Кокса, параметрические модели, тесты на пропорциональность рисков, регрессоры, меняющиеся со временем, цензурирование слева и справа, модели Вейбулаа, экспоненциальная, Гомперца, логнормальная, ...
Средства для эпидемиологов
стандартизация темпов распространения, случай-контрольная группа, когорты, совмещенный анализ случаев и контрольных групп, модель Мантеля-Хеншеля, фармакокинетика, анализ кривых ROC, использование кодов ICD-9, ...
Временные ряды
модели ARIMA, ARCH/GARCH, процедуры Кохрейна-Оркутта, Прейса-Винстена, оценка Ньюи-Веста, коррелограммы, периодограммы, тесты на белый шум, на единичные корни, операторы сдвига, разности, сезонных эффектов, ...
Преобразования и тесты на нормальность
преобразование Бокса-Кокса, степенные преобразования, тесты Шапиро-Уилка, Шапиро-Франсии, на асимметрию и эксцесс, ...
Прочие статистические процедуры и методы
размер выборки и мощность тестов, нелинейная регрессия, добавление пропущенных данных, пошаговая регрессия, статистические и математические функции, ...
Операции над данными
преобразование данных, совмещение данных, обработка по группам наблюдений, присоединение файлов, сортировка, транспонирование данных, меткиЮ работа со строками, ...
Графика
диаграммы рассеяния, столбцовые и круговые диаграммы, диагностика регрессий, анализ выбытия, непараметрическое сглаживание, квантильные графики, ...
Матричные команды
матричная арифметика, обращение матриц, задача на собственные значения, сингулярное разложение, произведение Кронекера, преобразование данные-матрица, ...
Язык программирования
добавление команд, условные выражения, синтаксический разбор, отладка, программирование меню и диалоговых окон, язык разметки и управления, ...
Internet-возможности
установка новых программ, пополнение пакета, корпоративные новости, передача файлов, ...

Производитель пакета

Производитель и основной распространитель программы -- компания Stata Corporation , расположенная в г. Колледж Стейшн (College Station), Техас, США. Дистрибьюторов пакета в России нет, поэтому необходимо заказывать пакет непосредственно 2.3.7. Преобразование к нормальности и линейности
2.4. Прочие отклонения от модели
2.4.1. Спецификация модели: выбор нужных переменных
2.4.2. Нелинейность
2.4.3. Идентификация резко выделяющихся наблюдений
2.4.4. Визуальный анализ
2.4.5. Множественная проверка гипотез
2.4.6. Данные с пропусками
2.5. Диагностика с регрессией
2.5.1. Сводка методов диагностики
2.5.2. Пример анализа регрессии
2.6. Альтернативные спецификации статистических зависимостей
2.6.1. Данные особой структуры и обобщенный МНК
2.6.2. Системы одновременных уравнений
2.6.3. Модели с дискретными и другими ограниченными зависимыми переменными
2.6.4. Квантильные регрессии
2.6.5. Непараметрические регрессии

3. Краткое описание пакета Stata
3.1. Обозначения
3.2. Установка и запуск пакета Stata
3.3. Интерфейс Stata
3.4. Общий вид команд Stata
3.5. Помощь
3.6. Условные модификаторы
3.7. Работа с файлами
3.8. Работа с данными
3.9. Основные статистические средства
3.10. Функции
3.11. Повторяемые фрагменты
3.12. Результаты работы
3.13. Программы
3.14. Графика
3.15. Информационные команды
3.16. Internet-возможности Stata
3.17. Расширение возможностей Stata
3.18. Сообщения об ошибках
3.19. Прочее
3.20. с чего начать?

4. Мониторинг экономического положения и здоровья населения России

5. Заключение

6. Домашние задания

Упоминание о использовании системы SAS занимает одно из ведущих мест в публикациях, посвященных исследованию качества жизни. Алгоритмы шкалирования опросников зачастую распространяются в виде командного скрипта на встроенном языке системы.
Система SAS известна с 1976 г. и способна работать под управлением практически любой операционной системы (ОС). Установка SAS на компьютер приводит к инсталляции своей собственной операционной системы, которая, однако, способна обмениваться данными из приложений, работающих под управлением других ОС.

SAS включает свыше 20 различных программных продуктов, объединенных друг с другом "средствами доставки информации" (Information Delivery System или IDS, так что весь пакет иногда обозначается как SAS/IDS). Под понятием IDS подразумевается, что пользователю SAS достаточно поставить на свой компьютер кроме ОС систему SAS и этим ограничиться для 100% информатизации деятельности (все остальные функции типа задач, решаемых на основе Excel, Word, любой из СУБД и др. полностью возьмет на себя SAS/IDS). Традиционно сложилось, что основными отечественными пользователями системы являются предприятия ВПК, крупные бизнесмены (некоторые банки, включая Центробанк, биржи, торговые фирмы), некоторые атомные станции, крупнейшие медицинские и геофизические центры, крупные государственные структуры.

Основным достоинством SAS является непревзойденная мощность по набору статистических алгоритмов среди универсальных пакетов. Кроме того, SAS предоставляет пользователю возможность подключения собственных оригинальных алгоритмов.
Использованием SAS возможно решить практически любые задачи как систематизации данных, так и практически любого вида статистического анализа. Однако, высокая стоимость системы и малая распространенность ее в России делает ее малоизвестной среди отечественных специалистов, занимающихся исследованием качества жизни.

Пакет SPSS для Windows

Пакет SPSS предназначен в первую очередь для статистиков-профессионалов. Он включает развитый аппарат статистического анализа, соизмеримый по мощности с SAS. Программу SPSS для Windows считают в настоящее время одним из лидеров среди универсальных статистических пакетов. Алгоритмы шкалирования опросников качества жизни распространяются также в виде скриптов на языке SPSS, причем научиться самостоятельно писать подобные алгоритмы способен даже специалист без начального программистского образования.
SPSS имеет удобные графические средства (более 50 типов диаграмм), а также развитые средства подготовки отчетов. Аналитические параметры отображаются на экране в виде простых и понятных меню и диалоговых окон. Новая контекстно-ориентированная справочная система содержит пошаговые инструкции для наиболее важных операций. В литературных источниках, посвященных исследованию качества жизни, упоминания об использовании SPSS встречаются практически наравне с упоминаниями о SAS.

Универсальная статистическая система SYSTAT

Универсальная статистическая система SYSTAT разработана одноименной фирмой, которая с сентября 1994 г. поглощена корпорацией SPSS. Главное достоинство пакета - исключительно широкий диапазон и глубина проработки функционального наполнения. Здесь есть широкие возможности и для слабо подготовленного в статистике пользователя и для достаточно искушенного статистика. Для исследователя качества жизни этот программный продукт представляет интерес благодаря наличию алгоритмов анализа шкал опросников, таких как анализ внутреннего постоянства, многомерное шкалирование, классический и логит-анализ пунктов шкалы.

Пакет MINITAB

Пакет MINITAB развивается более 20 лет и широко известен в США, где он является одним из основных учебных пакетов. Пакет также работает на компьютерах Macintosh.
MINITAB хорошо продуман по разделу описательной (дескриптивной) статистики, хорошо сконструирован и управляется с помощью удобного меню, или, по желанию пользователя, через команды, составлять которые помогают диалоговые окна пакета. Часто используемые команды можно запускать по их первой букве. Общее число команд превышает 200. Можно составлять специальные макросы для выполнения последовательностей команд.

Импорт/экспорт данных из других Windows-приложений делается через стандартный буфер обмена. В пакете имеются разнообразные возможности по управлению данными.

Пользователь Minitab при исследовании качества жизни может легко и быстро решать практически все типовые задачи, в основном из области получения описательных статистик и сравнения групповых средних, анализа временных рядов. Если на этапе создания и валидации опросника исследования качества жизни требуется применение методов многомерной статистики, то Minitab позволяет находить главные компоненты или же проводить стандартный линейный или даже квадратичный дискриминантный анализ, использовать алгоритмы факторного и кластерного анализа.
Кроме того, Minitab позволяет получать множество хороших и сложных полноцветных графиков. В плане характеристики мощность Minitab достаточно силен и разнообразен, поэтому говорят, что первые четыре буквы пакета скорее надо поменять на Maxi.

Пакет Statistica 6.0

Пакет Statistica 6.0 не стоит использовать пользователю-новичку в статистике, так как он предполагает владение статистической терминологией. Тем не менее на отечественном рынке этот пакет пользуется популярностью благодаря высокой активности фирмы-разработчика Statsoft и дилера в России - Softline, способствующих популяризации пакета (см.сайт www.statsoft.ru).

Ряд авторов считает, что пакет Statistica является хорошо сбалансированным по соотношению "мощность/удобство". Наличие достаточно широкого спектра функциональных алгоритмов делает его достаточно привлекательным для статистиков-профессионалов. В частности, он включает в себя ряд непараметрических методов анализа, методы многомерного анализа: дискриминантного, факторного кластерного, логлинейного и др. В области исследования качества жизни Statistica 6.0 предоставляет возможности анализа шкал и пунктов, а также обладает развитым блоком анализа мощности и необходимого количества наблюдений.

Средства манипулирования исходными данными в пакете Statistica хорошо развиты. Данные относительно легко отредактировать, можно создавать новые переменные ("признаки"), выбирать отдельные наблюдения или "вырезать" подмножество данных по строкам и/или по столбцам таблицы "объект-признак". Благодаря обширной панели инструментов, для выполнения большинства манипуляций достаточно несколько щелчков мышки, так как почти для всех функций пакета здесь имеются пиктограммы.

Сильной стороной пакета является графика и средства редактирования графических материалов. В пакете представлены сотни типов графиков 2D или 3D, матрицы и пиктограммы. Предоставляется возможность разработки собственного дизайна графика.

Средства управления графиками позволяют работать одновременно с несколькими графиками, изменять размеры сложных объектов, добавлять художественную перспективу и ряд специальных эффектов, разбивку страниц и быструю перерисовку. Например, 3D-графики можно вращать, накладывать друг на друга, сжимать или увеличивать. Передовая анимационная техника позволяет увидеть на графиках, какие точки изменились под влиянием изменений в одной из переменных.

Российский статистический пакет STADIA

Пакет STADIA разработан ведущими специалистами Московского государственного университета им. М. В. Ломоносова (главный разработчик - А. П. Кулаичев) совместно с НПО "Информатика и компьютеры". Первая версия пакета была создана в конце 70-х гг. для БЭСМ-6. С тех пор пакет постоянно модифицировался, пополняя свои функциональные и сервисные возможности.

Пакет STADIA является единственным российским статистическим пакетом, представленном на рынке, который можно отнести к классу универсальных пакетов, то есть в нем представлены все самые распространенные методы статистического анализа данных от описательной статистики и проверки различных гипотез до анализа временных рядов и контроля качества, а также многомерных (факторный, кластерный, дискриминантный анализ, шкалирование) и непараметрических методов анализа. Таким образом, пакет подходит для решения практически всех задач, встречающихся в исследовании качества жизни.

Пакет STADIA , в отличие от SAS и SPSS, не поддерживает обработку миллионов наблюдений, но прекрасно справляется с данными выборочных обследований нескольких сотен или тысяч респондентов. Пакет ориентирован на конкретные статистические расчеты и построение сопутствующих графиков во всех областях прикладной статистики, снабжая пользователя попутно всей необходимой информацией о работе статистических процедур.

В настоящее время пакет используется в учебном процессе и научно-практической работе более чем в 150 университетах России, включая 17 университетов медицинского профиля. Среди пользователей пакета не только ведущие медицинские центры страны (НИИ им. Сербского, НИИ педиатрии РАМН, НИИ дефектологии, институт медико-биологических проблем, НИИ медицинского приборостроения и др.), но и поликлиники, больницы, медсанчасти городов: Москвы, Самары, Перми, Тулы, Уфы, Липецка, Архангельска, Кисловодска, Оренбурга, Бердянска и др.
Пакет STADIA простой в освоении, недорогой (профессиональная версия стоит 500 у.е.) и очень мощный инструмент статистического анализа данных ограниченных объемов. Он учитывает уровень статистической подготовки российского пользователя, позволяет быстро найти необходимый метод обработки данных, представить результаты анализа в табличной и графической формах и продолжить их оформление в других средствах среды Windows (текстовых и графических редакторах).

STATGRAPHICS 5.1 for Windows

STATGRAPHICS включает более 250 статистических процедур, применяющихся в бизнесе, экономике, маркетинге, медицине, биологии, социологии, психологии, на производстве и в других областях. Каждой группе процедур соответствует собственное меню. Результаты представляются в табличной форме или на удобных для восприятия графиках.

Версия 5.1 обогащена диалоговой системой ввода данных из других приложений и выбора методов анализа. Уникальной особенностью STATGRAPHICS является процедура регрессионного анализа, где представлено сравнение полученной регрессионной зависимости с альтернативными моделями. При исследовании статистических связей между показателями качества жизни и клинико-лабораторными данными этот модуль может оказаться неоценимым.

Модуль Statistical Advisor кратко поясняющий суть любого проведенного анализа оказывает помощь в интерпретации результатов. Таким образом, STATGRAPHICS является достаточно полезным программным продуктов для исследования , доступным как для начинающего исследователя, так и для совершенствующегося эксперта.

дой regress. Для уточнения оценок параметров и вторых моментов регрессионных моделей можно использовать веса (см. help weights), связанные с вероятностью включения в выборку отдельных наблюдений (т.е. веса, учитывающие стратификационное происхождение выборки) pw eight (сокр. от probability weights) если такие веса входят в базы данных обследований.

2.6.2 Системы одновременных уравнений

Подобные модели описывают явления, в которых несколько переменных определяется одновременно, как некоторое равновесие экономической системы. Типичным примером СОУ является равновесие рыночных спроса и предложения.

Проблема одновременности тесно связана с уже упоминавшейся проблемой стохастичности регрессоров. Дело в том, что эндогенные переменные (т. е. переменные, определяемые в равновесии; сопутствующее понятие экзогенные, или заданные извне, переменные) коррелированы с ошибками, и поэтому оценивание по методу наименьших квадратов приводит к смещенным и несостоятельным оценкам. В зависимости от структуры уравнений, коэффициенты при эндогенных переменных могут быть, а могут и не быть идентифицируемы.

Для разрешения проблемы эндогенности используются двух- и трехшаговый метод наименьших квадратов (3SLS).

Stata И соответствующая команда называется reg3.

2.6.3 Модели с дискретными и другими ограниченными зависимыми переменными

Часто возникает потребность в анализе моделей, в которых в качестве зависимой переменной фигурирует качественная величина, например, наличие-отсутствие или отказ- участие. Естественным образом такие величины кодируются как 0/1 и называются на статистическом жаргоне успех-неуспех. Они имеют (условное) биномиальное распределение. Метод наименьших квадратов, применяемый напрямую, будет как минимум страдать от гетероскедастичности: ошибки должны быть устроены так, чтобы в результате получилось значение 0 или 1. Возможно, что для каких-то наблюдений и в случае

успеха, и в случае неуспеха ошибка должна быть отрицательной (или положительной), и тогда будет нарушаться и предположение об (условной) центральности ошибок.

Для разрешения подобных трудностей моделируется непосредственно вероятность успеха (т. е. регистрации 1 в принятой кодировке исходов). При дополнительном предположении наличия индексной функции, являющейся линейной комбинацией известных переменных,

Соответствующие модели носят название пробит- и логит-моделей; для второй еще используется название логистическая регрессия. Существенных оснований предпочитать одну модель другой, видимо, нет. Обе функции распределения симметричны, а разли-

чия между ними не так велики: sup x2(1;+1) jF logit (x) F N(0;1) (x)j < 0:02 , но у логисти- ческого распределения более тяжелые хвосты. Пробит-модель привлекательна тем, что в ней используется самое типичное распределение в мире нормальное, и поэтому она удобна для анализа моделей с многомерным нормальным распределением ошибок, если зависимых переменных несколько. В качестве примера можно привести модель Хекмана регрессии с внешним выбором наблюдений (Heckman sample selection model)17 . С другой стороны, логит-модель допускает достаточно широкий спектр средств анализакачества приближения (goodness of fit).

17 В этой модели вероятность попадания объекта в выборку зависит от известных факторов. В связи с непредставительностью выборки относительно исследуемой совокупности многие выборочные статистики, в т.ч. оценки МНК, оказываются смещенными (Greene 1997); модель Хекмана предлагает способ устранения этого смещения. Именно за эту работу профессор Чикагского университета Джеймс Хекман был удостоен Нобелевской премии по экономике 2000 г.

Иногда встречается также асимметричная функция дополнительных логарифмов, называемая также функцией Гомперца (Gomperz, соответственно, гомпит/gompit-модель):

F (z) = 1 exp[ exp(z)]

Stata Соответствующие регрессии в пакете Stata вызываются командами probit, logit и cloglog.

Оценивание коэффициентов в данных моделях производится по методу максималь-
ного правдоподобия. Если наблюдения независимы, то функция правдоподобия для
отдельных наблюдений имеет вид:
L(yi ; xi ; ; F) =		F (xi T );		yi = 1
L(yi ; xi ; ; F) =			F (xi T );	yi = 0
			F (xi T );	yi = 0

что может быть очень удачно переписано как
L(yi ; xi ; ; F) = F (xi T )y i (1 F (xi T ))1 y i
Тогда общая функция правдоподобия имеет вид:

	yi ln F (xi T ) + (1 yi ) ln(1 F (xi T ))
ln L(y; X; ; F) =	yi ln F (xi T ) + (1 yi ) ln(1 F (xi T ))

Задача максимизации этой функции по решается численными методами.

Stata Одним из очень существенных достоинств пакета Stata является доступ программистов к алгоритму численного решения задач максимизации функции правдоподобия пользователя (Gould, Sribney 1999). Оценивание по методу максимального правдоподобия осуществляется командами набора ml.

К оценкам коэффициентов пробит- и логит-регрессий относятся все комментарии о методе максимального правдоподобия (Кендалл, Стьюарт 1973). В определенном классе оценок оценки максимального правдоподобия являются асимптотически эффективными, однако они очень чувствительны к нарушениям формы распределения. Тесты на значения коэффицентов или их линейных комбинаций (в т.ч. на значимость регрессии в целом) осуществляются с помощью статистики отношения правдоподобия или ее асимптотических аналогов теста Вальда (Wald test) и множителей Лагранжа (LM test,

Lagrange multiplier test, score test). Все эти тесты имеют асимптотическое распределе- íèå 2 с числом степеней свободы, равном числу накладываемых ограничений (Айвазян,

Мхитарян 1998, Greene 1997).

Определенное неудобство логит- и пробит-моделей (как, впрочем, и всех нелинейных моделей) заключается в том, что оценки коэффициентов, в отличие от линейной регрессии, не могут быть интепретированы как предельные эффекты (т.е. изменения зависимой переменной при измененении независимой, в том числе бинарной, на единицу), поскольку предельные эффекты в нелинейных моделях зависят от точки, в которой берется такое приращение. Для того, чтобы получить хоть какое-то представление о предельных эффектах, можно рассчитать предельные эффекты для выборочного среднего по всем независимым переменным, или рассчитать предельные эффекты во всех точках и усреднить.

Stata В шестой версии функцию расчета предельных эффектов для пробит-модели выполняет команда dprobit, которая оценивает пробит-модель точно так же, как probit, но вместо коэффициентов выводит предельные эффекты для выборочных средних всех регрессоров. В седьмой версии пакета Stata появилась очень удобная команда mfx, которая рассчитывает эти самые предельные эффекты для произвольной оцененной модели.

2.6.4 Квантильные регрессии

Иногда предметом интереса исследователя могут быть не средние значения зависимой переменной при фиксированных объясняющих, а определенные квантили распределения:

P = p

В исследованиях финансового риска интерес могут представлять, к примеру, 5% или

10% точки (p = 0:05 èëè0:1 ). Кроме того, знание набора (условных) квантилей позволит

понять, меняется ли форма распределения в зависимости от объясняющих переменных. Примером квантильной регрессии является упоминавшаяся ранее в контексте проблем

робастности условная медиана при p = 0:5 .

Stata Квантильные регрессии реализованы в пакете Stata командой qreg. Опция qreg : : : ,

quantile() этой команды позволяет явно указать, квантиль какого уровня p следует исследовать.

Можно показать, что медианная регрессия является решением задачи минимизации суммы абсолютных отклонений (ср. (2.11)):



jyi xi j ! min

Данная задача решается симплекс-методом или другими методами линейного программирования.

2.6.5 Непараметрические регрессии

Методы непараметрической регрессии являются формализацией интуитивного понятия сглаживания на глаз. Если мы будем проводить на глаз кривую на двумерном графи-

ке рассеяния, чтобы описать примерный вид зависимости E , мы будем учитывать,

где лежат наблюденные значения y вблизи интересующей нас точкиx , повторяя харак-

терные пики и впадины кривой регрессии (см., например, рис. 2.3). Непараметрическая оценка кривой регрессии имеет вид:



m^ (x) = n 1 Wni (x)yi ;

ãäå W ni веса сглаживания, которые могут зависеть от всего вектораx . В такой постановке задачу сглаживания можно интерпретировать как задачу нахождения оценки локально взвешенных наименьших квадратов:



n 1 W
	i ^ (	M(x)

Stata Один из методов, явно использующий многократно прогоняемые регрессии для локального сглаживания lowess (locally weighted smoothing) (Fox 1997, Хардле 1993).

Его реализация в пакете Stata осуществлена командой ksm с опцией ksm: : : , lowess.

В эконометрической литературе варианты непараметрической регрессии известны под названиями локальной регрессии (local regression) и скользящей регрессии (rolling regression). В них используется та же самая идея локального взвешивания.

Формализация близости заключается во введении ядра сглаживания с определенной шириной окна. Точки, не попадающие в ядро, будут иметь нулевой вес; таким образом, внимание процедуры сглаживания будет сосредоточено вблизи требуемой точки. Понятие ядра и его применение в непараметрической регрессии формализуется следующим образом (Хардле 1993):

Wni (x) = Kh n (x xi )=f^ h n (x)

f^ h n (x) = n1 Kh n (x xi )

Kh n (u) = hn 1 K(u=hn )

Здесь (2.70) непараметрическая (ядерная) оценка плотности в данной точке (называе-

мая также оценкой Розенблата-Парзена), (2.71) ядро масштабаh n (ширина которого может зависить от числа наблюдений). Нормализация (2.70) гарантирует, что сумма весов равна единице. Полученная таким образом ядерная оценка функции регрессии носит название оценки Надарая-Ватсона.

Есть ряд наиболее популярных ядерных функций:

ядро Епанечникова:

квартическое ядро:

равномерное ядро:

треугольное ядро:

нормальное (гауссово) квазиядро:

K(u) = 0:75(1 u2 )I(juj 1) K(u) =15 16 (1 u2 )2 I(juj 1)

K(u) = 1 2 I(juj 1)

K(u) = (1 juj)I(juj 1)

K(u) = p1 exp[ u2 =2] 2

Здесь I(условие) индикаторная функция, принимающая значение 1, если условие

выполняется, и 0, в противном случае.

Если по отношению к параметрическим моделям всегда могут возникнуть вопросы:Почему именно такая спецификация модели? Почему именно такая форма ошибок? , то естественные вопросы к непараметрическим моделям Почему именно такая форма ядра? Почему именно такая ширина окна? . Есть результаты, показывающие, что ядерная оценка будет состоятельна независимо от выбора ядра, однако ядро Епанечникова

n 4=9

обладает определенными оптимальными свойствами в смысле среднеквадратической

ошибки. Что же касается выбора ширины окна h n , то выбор слишком малого значе- ния будет означать, что оценка кривой регрессии пройдет через все точки выборки, тогда как слишком большое значение сгладит истинную кривую слишком сильно18 . Со статистической точки зрения, задача заключается в том, чтобы соблюсти компромисс между дисперсией точечной оценки и ее смещением. Асимптотически максимальная скорость сходимости среднеквадратической ошибки прогноза составляет в одномерном

случае (т. е. медленнее, чем в параметрических задачах), а ширина окна при этом пропорциональнаn 1=9 .

Stata Непараметрическая регрессия выполняется командой kernreg, входящей в состав дополнения STB-30. Данная команда позволяет указать тип ядра (Епанечникова по умолчанию, равномерное, нормальное, квартическое, триквартическое, треугольное, косинусоидальное), ширину окна, а также точки, в которых будет произведена оценка. Непараметрическая оценка плотности осуществляется встроенной командой kdensity, которая изначально существовала как команда STB, а потом стала частью официального дистрибутива Stata.

Наиболее существенным недостатком непараметрической регрессии является ее одномерность. Обобщение на случай многомерного вектора объясняющих переменных, безусловно, возможно достаточно использовать многомерные плотности, или произведения одномерных ядер однако число соседей убывает с ростом размерности очень быстро (эффект, известный под названием проклятие высокой размерности, dimensionality curse), и окно приходится распространять чуть ли не на всю выборку. Кроме того, в многомерных задачах меняется и скорость сходимости, причем, конечно же, в сторону ухудшения.

Stata Во всяком случае, упомянутая выше реализация алгоритма непараметрической регрессии рассчитана на единственный регрессор.

Я бы порекомендовал дополнять параметрические оценки регрессии непараметри- ческими в целях проверки точности подгонки. Сведенные на одном графике диаграмма рассеяния, предсказанные значения и непараметрическая оценка позволят выявить основные дефекты регрессии: неуч тенную нелинейность, гетероскедастичность и т. п.,

18 Ïðè h ! 1, f(x) ! y.

как это сделано на рис. 2.3.

Краткое описание пакета Stata

Программа Stata (StataCorp. 1999, 2001) это универсальный пакет для решения статистических задач в самых разных прикладных областях: экономике, медицине, биологии, социологии. Впервые пакет вышел на рынок под этим названием в начале 80-õ гг. В январе 1999 г. была выпущена шестая версия, в декабре 2000 г. седьмая. Основными достоинствами Stata являются:

большой спектр реализованных статистических методов (хотя и есть методы, не реализованные практически никак, например, дискриминантный анализ, кластерный анализ, обобщенный метод моментов, ряд других);

возможности гибкой пакетной обработки данных (т. е. программирования всей последовательности команд, начиная от загрузки данных в память и вплоть до всех деталей анализа). Возможности интерактивного режима работы полностью идентичны возможностям пакетной обработки;

относительная простота написания собственных программных модулей, и, вместе с тем, весьма серьезный спектр средств программирования;

мощная поддержка как со стороны производителя, так и со стороны других пользователей Stata (через интернетовский список рассылки); огромный архив пользовательских программ в открытом доступе;

возможность максимизации функций правдоподобия, задаваемых пользователем;

наличие совместимых по функциональным возможностям и форматам данных реализаций для большинства популярных платформ (Windows, Macintosh, UNIX).

По поводу графических средств мнения пользователей разнятся: с одной стороны, они вполне достаточны для текущего графического анализа данных и подготовки научных

публикаций (все рисунки в этой книге выполнены в Stata и импортированы в L A T E X ), с другой, несравнимы с графическими возможностями специализированных пакетов типа Harvard Graphics или презентационных программ типа PowerPoint.

Ниже будет приведена сводка наиболее важных команд пакета. Эта сводка вряд ли сможет заменить изучение этих (и, естественно, других) команд по руководствам пользователя или хотя бы по встроенной подсказке Stata (например, не все детали синтаксиса и не все опции могут быть упомянуты в данном кратком введении). Скорее, она поможет найти, какими командами и для чего следует воспользоваться; более полное и точное описание этих команд можно найти во встроенной помощи Stata и в руководствах. Многие команды будут упомянуты лишь на уровне названия (что, впрочем, достаточно для поиска по встроенной подсказке Stata). Читателю настоятельно советуется овладеть и пользоваться встроенной помощью Stata по командам и деталям внутреннего устройства пакета.

3.1 Договориться: обозначения

Мы будем пользоваться следующими обозначениями, выдержанными в стиле руководств Stata. Так, command команда, которую можно набирать целиком, а можно сократить до первых трех букв (например,reg ress можно написать какreg , а можно какregress ).[ в квадратных скобках] будут указаны необязательные фрагменты команды необязательные опции, списки переменных и т. п. Курсивом мы будем обозначать то, что пользователь подставляет по своему разумению названия переменных, численные значения параметров программ и т. п. Через вертикальную черту будут

перечисляться возможные варианты: [ вариант 1j вариант 2] . Таким образом, запись

describe [ переменные| using имя файла] может разворачиваться в следующие варианты.

Данный учебник, являющийся переводом материалов американского профессора Кристофера Баума, представляет собой структурированное описание всех возможностей эконометрического программного пакета Stata. Учебник содержит как теоретические постулаты эконометрики, так и подробное описание их реализации в пакете Stata. В книге освещены ключевые разделы оценки линейных моделей регрессии, работы с панельными данными, построения моделей бинарного и множественного выбора, выявления и поправки на возможные проблемы в случайных остатках модели, учет эндогенности. Особый акцент делается на непосредственной работе с данными, ее организацией, чтобы минимизировать ошибки, которые могут возникнуть при повторных исследованиях или проверке результатов исследования.

Шаг 1. Выбирайте книги в каталоге и нажимаете кнопку «Купить»;

Шаг 2. Переходите в раздел «Корзина»;

Шаг 3. Укажите необходимое количество, заполните данные в блоках Получатель и Доставка;

Шаг 4. Нажимаете кнопку «Перейти к оплате».

На данный момент приобрести печатные книги, электронные доступы или книги в подарок библиотеке на сайте ЭБС возможно только по стопроцентной предварительной оплате. После оплаты Вам будет предоставлен доступ к полному тексту учебника в рамках Электронной библиотеки или мы начинаем готовить для Вас заказ в типографии.

Внимание! Просим не менять способ оплаты по заказам. Если Вы уже выбрали какой-либо способ оплаты и не удалось совершить платеж, необходимо переоформить заказ заново и оплатить его другим удобным способом.

Оплатить заказ можно одним из предложенных способов:

Безналичный способ:
- Банковская карта: необходимо заполнить все поля формы. Некоторые банки просят подтвердить оплату – для этого на Ваш номер телефона придет смс-код.
- Онлайн-банкинг: банки, сотрудничающие с платежным сервисом, предложат свою форму для заполнения. Просим корректно ввести данные во все поля.
  Например, для " class="text-primary">Сбербанк Онлайн требуются номер мобильного телефона и электронная почта. Для " class="text-primary">Альфа-банка потребуются логин в сервисе Альфа-Клик и электронная почта.
- Электронный кошелек: если у Вас есть Яндекс-кошелек или Qiwi Wallet, Вы можете оплатить заказ через них. Для этого выберите соответствующий способ оплаты и заполните предложенные поля, затем система перенаправит Вас на страницу для подтверждения выставленного счета.

Stata представляет собой интегрированный пакет для решения статистических задач в средах Windows, Macintosh или Unix, предназначенный для специалистов, занимающихся научными изысканиями. Решение можно использовать как в экономике, политологии и других общественных науках (благодаря поддержке широкого спектра моделей панельных данных), так и в биостатистике, эпидемиологии и других областях медицины, благодаря широкой поддержке различных моделей выбытия.Stata 10 добавляет много новых функций, таких как многоуровневая смешанная модель, точные логистические регрессии, множественный анализ, графический редактор Find out more about these features at.

Год выпуска: 2007
Размер: 569 MB
Версия: 10.0
Разработчик: StataCorp
Платформа: Microsoft Windows XP/Vista
Совместимость с Vista: да
Системные требования:
Pentium processor or compatible
256 MB RAM
Язык интерфейса: только английский
Таблэтка: Присутствует
Быстрая, точная и простая в использовании
Интерфейс с использованием координатного указателя, интуитивно понятный синтаксис команды, а также справка, Stata проста в использовании, быстрая и точная (см. результаты сертификации http://www.stata.com/support/cert/) . Все анализы могут быть воспроизведены и задокументированы для публикации и обзоров.
Широкий набор статистических возможностей
Stata предлагает сотни передовых статистических инструментов, таких, как динамические панели данных (DPD) регрессии, обобщенные оценки уравнений (GEE), многоуровневые смешанные модели, модели выборки, ARCH и оценки со сложным обследованием образцов; стандартные методы, такие, как линейные и обобщенные линейные модели (GLM), ANOVA / MANOVA, ARIMA, кластерного анализа, стандартизация курсов, анализ случай-контроль, и основные таблицы и сводные статистические данные.
Полный контроль над управлением объектами
Stata даёт вам полный контроль над всеми типами данных: вы можете комбинировать и изменять наборы данных, управлять переменными, а также собирать статистику по группам или дубликатам. Вы можете работать с данными типа байт, целое, с плавающей точкой, двойной точности и строковыми переменными. Stata также предлагает дополнительные инструменты для управления специализированными данными, такими, как выживание / продолжительность данных, временных рядов данных, панель / продольных данных, категорических данных и данных обследований.
Публикация качества графики
Stata позволяет легко генерировать различные стили графиков для публикации, в том числе регрессии, графиков распределения участков, временных рядов, графиков участков выживания. Благодаря интегрированному графическому редактору достаточно нажать кнопку для изменения чего-либо в вашем графике: добавления заголовка, выделения, линий, стрелок или текста.
Вы можете выбирать между действующим графиком стилей или создать свой собственный.
Чуткий и расширяемый
Stata программируемый на столько, что позволяет разработчикам и пользователям добавлять новые функции каждый день для удовлетворения растущих потребностей сегодняшних исследователей. Новые функции и официальные обновления могут быть установлены через Интернет при помощи одного нажатия кнопки мыши. Многие новые функции и информативные статьи публикуются ежеквартально в журнал. Также имеется один большой ресурс «Statalist» - независимый сервер, где более чем 2800 пользователе обмениваются более чем 1000 сообщениями и 50 программами в месяц.
Язык программирования Mata
Mata – это полнофункциональный матричный язык программирования. Исходный код, написанный на этом языке, компилируется в байт-код и оптимизируется для быстрого выполнения. Большинство новых возможностей Stata 10, таких как построение линейных смешанных моделей и полиномиальных пробит-моделей, появилось именно благодаря Mata.
Кросс-платформенная совместимость
Stata доступна для Windows, Macintosh, и Unix операционных систем (включая Linux). Любыми данными Stata можно легко обмениваться между различными платформами.
Широко используются
Stata распространяется в более чем 150 странах и используется специалистами во многих областях исследований.
Доп. информация: В папке CYGiSMO смотреть readme.txt В папке "учебник" работа Коленкова С. Прикладной эконометрический анализ в статистическом пакете Stata
Доп. информация: Программу устанавливал и проверял работу под Windows XP. В папке "unix" видимо модули для работы под другими операционными системами.