Статистическое моделирование (2)

Реферат
Содержание скрыть

Когда необходимо изучать не единичные, а случайные массовые явления, необходимо прибегать к статистическим методам исследования. Эти методы предназначены для выявления закономерностей, в которых на первый взгляд нет ничего, кроме набора отдельных фактов, наблюдений, измерений. Теория вероятностей и математическая статистика — это науки о методах количественного анализа случайных массовых явлений.

В теории вероятностей, учитывая вероятности некоторых событий и функции распределения случайных величин, определяются вероятности и функции распределения других событий и случайных величин.

Возникает вопрос: как узнать начальные вероятности и распределения, как их найти? Одного априорного рассуждения для этого, как правило, недостаточно, требуются опыт и специальные тесты. Математическая статистика и разрабатывает методы, позволяющие на основе результатов тестов делать определенные выводы о вероятностях и распределенных случайных величинах и событиях.

Цель любой науки — открыть некоторые общие схемы, которые позволят нам предсказывать ход природных явлений и выбирать рациональные модели поведения в исходных ситуациях. Во многих случаях для обнаружения общих закономерностей необходимо провести большое число наблюдений и измерений; как следствие нужны методы обработки совокупности таких наблюдений. Эти методы также разрабатывает математическая статистика.

Первые работы по математической статистике появились в 18 веке и касались статистики населения, изучения продолжительности жизни и вопросов страхования. Позднее, в конце 18 — начале 19 вв., В связи с проблемами астрономии начались серьезные исследования теории ошибок измерений. Биологические исследования послужили толчком к постановке множества вопросов, которые привели к выделению математической статистики в отдельную науку в начале 20 века. Сейчас, в связи с быстрым всеобщим развитием науки и проникновением количественных методов буквально во все отрасли знания, возрос интерес к математической статистике, возникли новые проблемы и методы. Математическая статистика продолжает развиваться и развиваться.

Известно, что каждое распределение определяется тем или иным числом параметров: закон Пуассона зависит только от одного параметра — математического ожидания; нормальный закон — от двух — математического ожидания и дисперсии исследуемой случайной величины.

5 стр., 2280 слов

Методы медицинской статистики

... развития сети, деятельности учреждений здравоохранения и медицинских кадров. В основе медицинской статистики лежит общая теория статистики и математическая статистика. Важная роль в развитии теории и практики медицинской статистики принадлежит математике, кибернетике, информатике, информационным ...

Если мы хотим использовать эти законы, например, распределения Пуассона, в инженерных задачах, мы должны оценить параметр, то есть найти его числовое значение, в данном случае числовое значение математического ожидания.

Традиционный естественный способ найти параметр — изучить определенный набор значений соответствующей случайной величины. Это множество обычно называется выборкой; элементы множества — выборочными значениями случайной величины; количество элементов — объёмом выборки. На основании выборочного исследования мы делаем некоторые выводы обо всей совокупности возможных значений случайной величины. Эта совокупность называется генеральной. Изучая образец и используя соответствующие статистические правила, можно получить численную оценку значения параметра. Оценка параметра является функцией выбранных значений случайной величины. В нашем случае среднее арифметическое значений выборки может использоваться в качестве оценки параметра: математического ожидания. Отметим, что оценка является случайной величиной. Следовательно, параметр — постоянное значение заменяется значением случайной величины, полученным по результатам выборки по заданному правилу.

Если мы рассмотрим другую выборку того же размера, численное значение оценки будет немного другим, поскольку состав нашей выборки является случайным. Это еще раз иллюстрирует тот факт, что при использовании оценки значение параметра определяется с некоторой ошибкой. Ключевым вопросом математической статистики является вопрос о том, насколько значения оценок, расчет по выборке, могут отклоняться от соответствующих истинных значений параметров.

В данном случае необходимо оценить математическое ожидание случайной величины, распределенной по закону Пуассона, на основе выборки. Как это сделать? Можно использовать: 1) среднее арифметическое 2) наиболее часто встречающееся выборочное значение случайной величины; 3) средний член вариационного ряда.

Какой из этих рейтингов лучше? А что значит лучшая оценка? Каким требованиям он должен соответствовать? Ответы на эти вопросы дает математическая статистика.

Вторая задача — проверка статистических гипотез. Это могут быть предположения о законе распределения, о равенстве двух математических ожиданий или о дисперсии различных распределений. Статистические допущения также проверяются на основе анализа ограниченного размера выборки.

Можно предположить, что случайная величина распределена по закону Пуассона. Эта гипотеза нуждается в проверке. Частоты (оценки вероятностей), полученные в результате обработки выборки, могут несколько отличаться от вероятностей, определённых на основании распределения Пуассона. Причина расхождения может заключаться в неверности гипотезы закона распределения. Однако не является исключением и другая причина: размер выборки очень мал, и при таком размере выборки различия, полученные между частотами и вероятностями, могут наблюдаться, даже если предположение о законе распределения верно. Принять лучшее решение в этом случае помогают методы математической статистики.

Есть и другие не менее важные задачи математической статистики, такие как планирование эксперимента, установление статистических отношений между случайными событиями.

3 стр., 1232 слов

Методы, инструменты определения величины риска

... рисков фирмы, необходимо исследовать совокупное влияние факторов, которые образуют данный набор случайных величин или многомерную случайную величину. Распределение многомерной случайной величины задается функцией распределения. Распределение ... системы управления рисками предприятия имеет первостепенное практическое значение. Одним из важнейших элементов системы управления рисками предприятия ...

1. Выборочный метод

Генеральная и выборочная совокупность

Одно из фундаментальных понятий математической статистики — неопределенное понятие генеральной совокупности. Под генеральной совокупностью понимают множество качественно однородных элементов (объектов, изделий) самой различной природы. Рассмотрим возможные типы этих совокупностей.

1. Конечная и реально существующая, например, общая совокупность всего украинского народа в данный момент.

2. Бесконечные и реально существующие, например, набор действительных чисел от нуля до единицы.

3. Воображаемая (гипотетическая) конечная или бесконечная: Например, повторные непрекращающиеся бросания игральной кости дают последовательность элементов из бесконечной несуществующей генеральной совокупности.

Вторым основным понятием математической статистики является понятие выборочной совокупности (выборки).

Требуется изучить элементы определенной генеральной совокупности относительно некоторой количественной характеристики, которая характеризует эти элементы. Это можно сделать, проводя непрерывный обзор всех элементов набора относительно интересующей нас характеристики. Однако на практике полное обследование используется сравнительно редко. Для генеральной совокупности, содержащей большое количество предметов, полное обследование будет экономически невыгодным или даже физически невозможным. Если обследование объекта связано с его уничтожением (например при проверке качества минных взрывателей) или потребует больших материальных затрат (например запуск современной ракеты), то проводить сплошное обследование практически не имеет смысла. В такой ситуации случайно отбирают из генеральной совокупности ограниченое число объектов и изучают их.

Следовательно, выборочная совокупность или просто выборка объема n будет называться совокупностью из n объектов, выбранных из общей совокупности, представляющей интерес.

2. Статистическая оценка законов распределения

Если выборка объёма n из генеральной совокупности представительна, то элементы с одинаковыми значениями варианты будут приблизительно одинаково часто встречаться как в выборке, так и в генеральной совокупности. В этом случае естественно принять распределение X в выборке за приближенное распределение ее в генеральной совокупности, тоесть считать дискретное распределение выборки Fn (x) приближением к теоретической функции распределения F(x).

Пример приближения показан на рисунке

Основанием для такого приближения является так называемая основная теорема математической статистики, доказанная В.И. Гливенко

Из этой теоремы следует, что при n>? с вероятностью, равной единице, верхняя граница отклонения |F(x)?F(x)| на всей оси x стремится к нулю. Тем самым гарантируется равномерное приближение F n (x) к F(x) на всей оси x. Таким образом, исследуя функцию Fn (x), мы можем по ней приближено оценить теоретическую функцию распределения случайной величины.

в случае, когда математическое ожидание известно

Определение 24.1

доверительным

уровнем значимости

Стараясь иметь как можно более достоверные выводы, границы доверительного интервала выбирают таким образом, чтобы доверительная вероятность была как можно ближе к 1.

Схематично процесс построения доверительного интервала можно описать следующим образом.

Пусть — несмещенная оценка параметра .

Выберем доверительную вероятность . Значение выражения «как можно ближе к 1» является относительным, выходит за рамки математики и определяется человеком, проводящим статистическое исследование. Обычно выбирают равным 0,9; 0,95; 0,99.

Пусть, далее, можно найти такое число > 0, что

  • (24.1)

Записав (24.1) в виде

видим, что интервал () является доверительным интервалом для параметра с уровнем значимости .

На практике вопрос построения доверительного интервала связан с нахождением распределения оценки, а это, в свою очередь, зависит от распределения генеральной совокупности.

Пример 24.1. Построение доверительного интервала для математического ожидания нормальной генеральной совокупности с известной дисперсией.

Пусть генеральная совокупность распределена по нормальному закону с параметрами ( 2 ), где 2 (дисперсия) известно. Мы уже знаем, что наилучшей в смысле несмещенности, состоятельности и эффективности оценкой неизвестного математического ожидания нормального закона является выборочное среднее

устойчивости

Используя это утверждение в нашем случае, заключаем, чтораспределена нормально с параметрами (), а нормированное выборочное среднее подчинено нормальному закону с параметрами (0,1).

Это означает, что

, где .

Функция Ф(z) нам уже встречалась, её значения табулированы.

Выберем теперь доверительную вероятность и обозначим корень уравнения Ф() = / 2 .

После этого рассмотрим равенства

, которые свидетельствуют о том, что интервал

является доверительным для параметра с доверительной вероятностью ( и уровнем значимости ).

Приведем часть из таблицы значений (прил. 2) для некоторых наиболее употребительных значений .

Таблица 24.1 (Зависимость от доверительной вероятности)

0,9

0,925

0,95

0,99

1,65

1,78

1,96

2,89

Обозначим половину ширины доверительного интервала.

Замечаем, что:

  • при фиксированной доверительной вероятности ширина доверительного интервала уменьшается с ростом числа наблюдений n как величина порядка ( при увеличении, например, числа наблюдений в 100 раз ширина интервала уменьшится в 10 раз);
  • поскольку Ф(z) возрастает с ростом z, то увеличение доверительной вероятности, при всех прочих постоянных параметрах, приводит к расширению доверительного интервала.

Пример 24.2.

Поскольку = 0,95, из табл. 24.1 находим , и границы интервала доверия будут такими:

  • интервал доверия имеет вид (26.32;
  • 28.68).

Теперь поставим вопрос иначе: сколько детей надо обследовать с тем, чтобы среднее число часов в неделю, проводимых ребенком у телевизора, отклонилось от его оценки не более чем на 0,5 ч. с вероятностью 0,95?

В такой постановке речь идет о нахождении числа n таким, чтобы выполнялось равенство

откуда или n = (2Z 0.475 )2 .

В условиях примера n = (261,96) 2 553.

Конечно, при больших значениях n ширина доверительного интервала уменьшается.

Заметим, что по сравнению с первоначальной задачей ширина интервала уменьшилась в 1,18/0,5 = 2,36 раз, количество необходимых испытаний увеличилось в (2,36) 2 = 5,57 раз ( 553 отличается в третьем знаке от 100 5,57).

Пример 24.3.

Снова рассмотрим генеральную совокупность , распределенную нормально с параметрами ( 2 ), однако теперь считаем дисперсию 2 неизвестной.

Обозначим стандартное выборочное квадратичное отклонение

В курсах теории вероятностей доказывается, что случайная величина

подчиняется так называемому закону распределения Стьюдента с n — 1 степенью свободы и её плотность имеет вид

где К n некоторая нормирующая константа.

Созданы таблицы , дающие возможность вычислять вероятности вида

(см. прил. 4).

Ввиду вышесказанного, получаем равенства:

из которых видно, что выбрав Z как корень уравнения

( обозначим этот корень ), приходим к доверительному интервалу для вида

Пример 24.4.

По таблице распределения Стьюдента (см. приложение 4) находим , границы интервала будут

а сам интервал (25,92; 29,08).

Отметим, что диапазон стал шире, что объясняется уменьшением объема доступной информации из-за незнания другого параметра генеральной совокупности.

Методы правдоподобия

Требуется оценить неизвестный параметр, в общем, вектор, . При этом предполагается, что вид функции распределения известен с точностью до параметра ,

В таком случае все моменты случайной величины становятся функциями от : , Метод моментов требует выполнения следующих действий:

Вычисляем k «теоретических» моментов

По выборке строим k одноименных выборочных моментов. В излагаемом контексте это будут моменты

Приравнивая «теоретические» и одноименные им выборочные моменты, приходим к системе уравнений относительно компонент оцениваемого параметра

(25.1)

Решая полученную систему (точно или приближенно), находим исходные оценки . Они, конечно, являются функциями от выборочных значений .

Мы определили порядок действий, исходя из отправных точек — теоретических и выборочных. Он сохраняется при ином выборе моментов, начальных, центральных или абсолютных, который определяется удобством решения системы (25.1) или ей подобной.

Перейдем к рассмотрению примеров.

Пример 25.1. Пусть случайная величина распределена равномерно на отрезке [ ; ] , где — неизвестные параметры. По выборке () объема n из распределения случайной величины . Требуется оценить и .

Решение.

В данном случае распределение определяется плотностью

1) Вычислим первые два начальных «теоретических» момента:

2) Вычислим по выборке два первых начальных выборочных момента

3) Составим систему уравнений

4) Из первого уравнения выразим через

и подставим во второе уравнение, в результате чего придём к квадратному уравнению

решая которое, находим два корня

Соответствующие значения таковы

Поскольку по смыслу задачи должно выполнятся условие < , выбираем в качестве решения системы и оценок неизвестных параметров

Замечая, что есть не что иное, как выборочная дисперсия , получаем окончательно

Если бы мы выбрали в качестве «теоретических» моментов математическое ожидание и дисперсию, , то пришли бы к системе (с учетом неравенства < )

которая линейна и решается проще предыдущей. Ответ, конечно, совпадает с уже полученным.

Напоследок отметим, что у наших систем всегда есть одно решение, причем единственное. Полученные оценки, конечно, непротиворечивы, но не обладают свойствами беспристрастности.

7. Метод максимального правдоподобия

Мы, как и раньше, изучаем случайную величину, распределение которой задается либо вероятностями ее значений, если она дискретна, либо плотностью распределения, если она непрерывна, где это неизвестный векторный параметр. Пусть () — выборка значений . естественно принять за оценку значение параметра, при котором вероятность получения уже имеющейся выборки максимальна.

Выражение

называют функцией правдоподобия , она представляет собой совместное распределение или совместную плотность случайного вектора с n независимыми координатами, каждая из которых имеет то же распределение (плотность), что и .

В качестве оценки неизвестного параметра принимается его значение, которое дает максимум функции, рассматриваемой как функция фиксированного значения . Оценку называют оценкой максимального правдоподобия . Заметим, что зависит от объема выборки n и выборочных значений

и, следовательно, сама является случайной величиной.

Нахождение точки максимума функции — это отдельная задача, что проще, если функция дифференцируема, чем параметр .

В этом случае лучше рассматривать ее логарифм вместо функции, так как крайние точки функции и ее логарифма совпадают.

Методы дифференциального исчисления позволяют найти подозрительные точки экстремума и тем самым выяснить, в какой из них достигается максимум.

С этой целью рассматриваем вначале систему уравнений

(25.2)

решения которой — точки, подозрительные на экстремум. Затем по известной методике, вычисляя значения вторых производных

по знаку определителя, составленного из этих значений, находим точку максимума.

Оценки максимального правдоподобия согласованы, хотя могут быть необъективными.

Рассмотрим примеры.

Пример 25.2. Пусть производится некоторый случайный эксперимент, исходом которого может быть некоторое события А, вероятность Р(А) которого неизвестна и подлежит оцениванию.

Решение.

Введем случайную величину равенством

если событие А произошло,

если событие А не произошло (произошло событие ).

Распределение случайной величины задается равенством , Выборкой в данном случае будет конечная последовательность (), где каждое из может быть равно 0 либо 1.

Функция правдоподобия будет иметь вид

Находим точку его максимального соблюдения p, для которой вычисляем производную логарифма, Обозначим — это число равно количеству единиц «успехов» в выбранной последовательности.

Приравняем полученную производную к нулю

и решим полученное уравнение

Поскольку производная меняет знак с «+» на «-» при возрастании р от 0 до 1, точка есть точка максимума функции L, а — оценка максимального правдоподобия параметра р. Обратите внимание, что отношение — это частота возникновения события A в первых n испытаниях.

Поскольку m есть число «успехов» в последовательности n независимых испытаний ( в схеме Бернулли), то , и — несмещенная оценка. В силу закона больших чисел Бернулли стремится к вероятности p, и оценка непротиворечива.

Пример 25.3. Мы строим оценки неизвестного математического ожидания и дисперсии нормально распределенной параметризованной случайной величины .

Р е ш е н и е.

В условиях примера случайная величина определяется плотностью распределения , Сразу выпишем логарифм функции правдоподобия , Составим систему уравнений для нахождения экстремальных точек , Из первого уравнения находим , из второго, подставляя найденное значение , находим .

Вычислим вторые производные функции lnL в точке ():

А = ,В = ,С = .

Поскольку определитель

а А < 0, то найденная точка в самом деле точка максимума функции правдоподобия.

Заметим, что оценка есть выборочное среднее (несмещенная и состоятельная оценка математического ожидания), а — выборочная дисперсия (смещенная оценка дисперсии).