Анализ посещений сайта «Яндекс» 2008 – 2015 года

Курсовая работа

Один из наиболее важных показателей для оценки успеха сайта — это количество посещений. Многие сайты ведут статистику посещений, чтобы анализировать поведение пользователей и изменять свой контент в соответствии с их пожеланиями. Поэтому мне было интересно проанализировать статистические данные о посещениях поисковых страниц, так как это наиболее востребованная услуга в Интернете.

В данном рабочем курсе для анализа использовались данные сайта «Яндекс» о ежемесячной аудитории.

ЦЕЛЬ

Целью данного курса является изучение ежемесячной аудитории поисковой страницы сайта «Яндекс» в рамках науки теории вероятностей и математической статистики.

ЗАДАЧИ

Дана выборка, состоящая из 90 пар чисел (X,Y), необходимо:

 Вычислить выборочные параметры:

  •  выборочные средние;
  •  выборочные дисперсии;
  •  средние квадратические отклонения;
  •  корреляционный момент;
  •  коэффициент корреляции.

 Построить эмпирическую функцию распределения и по Y;

  •  Вычислить параметры и построить корреляционную таблицу;
  •  Построить график для уравнения линейной регрессии Y на X;
  •  Построить график для уравнения параболической регрессии Y на X;
  •  Сделать прогноз.

ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

Ниже приведены основные определения и концепции из курса теории вероятностей и математической статистики, использованные в данной работе.

Теория вероятностей — это раздел математики, изучающий закономерности случайных явлений: случайные события, случайные величины, их свойства и операции с ними.

Выборочная совокупность — часть объектов генеральной совокупности, выбранных для исследования, чтобы сделать выводы обо всей генеральной совокупности.

Генеральная совокупность — совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.

Объемом называют число объектов этой совокупности.

Наблюдаемые значения Xi называются вариантами, а последовательность вариант в возрастающем прядке — вариационным рядом

Случайной величиной — называется величина, которая может принимать различные (случайные) значения.

Математическое ожидание — это число, вокруг которого сосредоточены значения случайной величины. Математическое ожидание случайной величины X обозначается M(X).

Дисперсия случайной величины́ — мера разброса данной случайной величины, т. е. её отклонения от математического ожидания. Обозначается D(X)

7 стр., 3460 слов

Современные проблемы теории вероятностей и математической статистики: ...

... важных неравенств для функций концентрации сумм независимых случайных величин. Используя эти результаты, он решил одну старую ... распределение функционалов от диффузий, асимптотический анализ новых статистических критериев и вычисление их эффективности. А.И.Назаровым изучались ... связаны с проблемами малых уклонений гауссовских случайных процессов Грина без учета тренда высокого порядка. Для некоторых ...

Стандартное отклонение — это показатель разброса значений случайной величины относительно ее математического ожидания.

Модой случайной дискретной величины называется значение случайной величины, которое имеет максимальную вероятность:

Медианой называется такое значение варьирующего признака, которое приходится на середину упорядоченного ряда:

Гистограммой частот называется ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длинной h, а высоты равны частоте ni.

Корреляция в математической статистике — это вероятностная (статистическая) зависимость между величинами, не имеющая, вообще говоря, строго функционального характера.

Момент корреляции двух случайных величин — это математическое ожидание произведения отклонений этих величин.

Коэффициент корреляции — числовая характеристика совместного распределения двух случайных величин, выражающая их взаимосвязь. Коэффициент корреляции дает более точную информацию о характеристиках и прочности сцепления. Коэффициент корреляции двух случайных величин — это отношение момента корреляции к произведению стандартных отклонений этих величин.

Функцией распределения называют функцию F (X), определяющую вероятность того, что случайная величина Х в результате испытания примет значение, меньшее x .

F ( x )  P ( X  x ).

Функция распределения выборки — это эмпирическая функция распределения.

Эмпирической функцией распределения называют функцию F*(X), определяющую для каждого значения x относительную частоту события Х  x

nx

F * ( x)  ,

n

где n x — число вариантов, меньших x; n — объем выборки.

Нормальным называют распределение вероятностей случайной величины,

 ( X  m) 2

1 2 2 плотность которого описывается функцией f (X )  e , а функция

 2

( X  m ) 2

X

1 2 2 распределения F (X )  e dx .

 2 

ИСХОДНЫЕ ДАННЫЕ

Представлена выборка (объёмом n=90) зависимости числа Y от числа X (см. табл. 1).

X – Даты. Y – Средняя месячная аудитория страницы поиска сайта «Яндекс». X Y, *105 X Y, *105 X Y, *105 1 127,9094 31 241,9705 61 521,4348 2 125,0087 32 247,4046 62 515,6451 3 128,5475 33 250,4053 63 508,2334 4 126,4261 34 250,5689 64 489,1397 5 138,9584 35 247,3736 65 477,9481 6 144,5391 36 254,373 66 488,4449 7 146,7449 37 256,3451 67 507,3722 8 150,6279 38 258,4041 68 504,0765 9 154,5571 39 254,308 69 498,7852 10 157,3101 40 249,3241 70 508,9668 11 164,3391 41 245,5744 71 504,5355 12 162,296 42 251,6614 72 501,0904 13 156,1086 43 262,6276 73 497,2581 14 164,1365 44 264,7736 74 507,7316 15 167,7096 45 268,0006 75 504,3579 16 171,7746 46 272,5063 76 501,7373 17 181,666 47 282,8596 77 496,5063 18 193,0372 48 291,6616 78 491,1007 19 195,9025 49 292,2627 79 505,2455 20 201,6512 50 285,9447 80 510,7384 21 206,3331 51 430,9605 81 532,2335 22 215,2265 52 422,2419 82 509,3164 23 220,2904 53 422,0372 83 496,9178 24 221,4521 54 429,2705 84 502,349 25 224,0201 55 440,7198 85 498,4698 26 222,8756 56 464,012 86 491,5623 27 220,6118 57 472,2111 87 473,4554 28 227,1231 58 501,3661 88 465,5044 29 234,8498 59 493,8464 89 455,1961 30 241,9705 60 526,2573 90 446,6343

3 стр., 1232 слов

Методы, инструменты определения величины риска

... рисков фирмы, необходимо исследовать совокупное влияние факторов, которые образуют данный набор случайных величин или многомерную случайную величину. Распределение многомерной случайной величины задается функцией распределения. Распределение ... системы управления рисками предприятия имеет первостепенное практическое значение. Одним из важнейших элементов системы управления рисками предприятия ...

Таблица 1. Исходные данные. Далее все вычисления для Y необходимо считать, как Y*105. Данные взяты с сайта:

ДИАГРАММА РАССЕИВАНИЯ

Построим диаграмму рассеивания (см. рисунок 1).

Диограмма рассеивания

500

400 Значение

300

200

100

0 10 20 30 40 50 60 70 80 90

Время

Рисунок 1. Диаграмма рассеивания.

Найдем некоторые характеристика для X и Y:

  • Для X:  выборочное среднее: M * ( х)  45,50;
  •  выборочную дисперсию: D * ( x)  682,50;
  •  исправленную дисперсию: S (x)  690,17;
  •  среднеквадратичное отклонение:  * ( x)  26,12;
  •  оценку среднеквадратичного отклонения: s * ( x)  26,27;
  • Для Y:  выборочное среднее: M * ( y)  337,15;
  •  выборочную дисперсию: D * ( y )  20734,86;
  •  исправленную дисперсию: S ( y )  20733,86;

 среднеквадратичное отклонение:  * ( y)  144,00

 оценку среднеквадратичного отклонения: s * ( x)  143,99

*  Найдем выборочный коэффициент корреляции: rXY = 0,93

КОРРЕЛЯЦИОННАЯ ТАБЛИЦА

Построим корреляционную таблицу. Для этого разобьем Y на 10 интервалов (см. табл. 2)

1 2 3 4 5 6 7 8 9 10 Yi 125-165 165-206 206-247 247-288 288-329 329-370 370-411 411-452 452-493 493-533 Yi 145 185,5 226,5 267,5 308,5 349,5 390,5 431,5 472,5 513 ni 14 6 11 16 2 0 0 7 10 24

Таблица 2. Корреляционная таблица.

По корреляционной таблице найдем оценки для X.

1 8

 Выборочное среднее — M * ( x )   xi ni ;

n i 1

M * ( x)  45,50;

  •  выборочную дисперсию — D * ( x)  M * ( x 2 )  ( M * ( x)) 2 ;
  • D * ( x)  660,08;

n

 исправленную дисперсию — S ( x)  D * ( x) ;

n 1

S (x)  667,50;

  •  среднеквадратичное отклонение —  * ( x)  D * ( x) ;
  •  * ( x)  25,69;
  •  оценку среднеквадратичного отклонения — s * ( x)  S ( x) ;
  • s * ( x)  25,84.

Найдем те же оценки для Y.

1 8

 Выборочное среднее — M * ( y )   x i ni ;

n i 1

M * ( y )  337,15;

  •  выборочную дисперсию D * ( y)  M * ( y 2 )  ( M * ( y)) 2 ;
  • D * ( y)  20513,03;

n

 исправленную дисперсию — S ( y )  D * ( y) ;

n 1

S ( y )  20512,03;

  •  среднеквадратичное отклонение —  * ( y )  D * ( y ) ;
  •  * ( y)  143,22;
  •  оценку среднеквадратичного отклонения — s * ( y )  S ( y ) ;
  • s * ( y)  143,22.

 выборочный коэффициент корреляции — rXY

*

n xy xy  nM * ( X )  M * (Y )

;

n * ( X )   * (Y )

*

rXY = 0, 95

Видим, что вычисленные величины по корреляционной таблице мало отличаются от

12 стр., 5677 слов

Средние величины

... средних значений и их область применения на конкретных примерах. В третьей главе будут рассмотрены основные методологические требования к расчету средних значений. 1. Сущность средних величин, общие принципы применения Средние значения ... теории средних следует считать бельгийского статистика А. Кетле (1796 - 1874). Он сделал попытку определить природу средних значений и закономерностей, которые в них ...

величин, вычисленных по всей выборке.

ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ

Построим гистограммы для признаков X и Y.

Для нахождения параметров случайной величины, таких как частота, вероятность,

функция накопления, удобно использовать статистические таблицы, на основе которых

будут рисоваться графики частот.

1 2 3 4 5 6 7 8 9 10 Yi 125-165 165-206 206-247 247-288 288-329 329-370 370-411 411-452 452-493 493-533 Yi 145 185,5 226,5 267,5 308,5 349,5 390,5 431,5 472,5 513 ni 14 6 11 16 2 0 0 7 10 24 Pi*=ni/ 0,156 0,067 0,122 0,178 0,022 0,000 0,000 0,078 0,111 0,267 n ni/h 0,344 0,147 0,270 0,393 0,049 0,000 0,000 0,172 0,246 0,589 ni/(h*n) 0,004 0,002 0,003 0,004 0,001 0,000 0,000 0,002 0,003 0,007

Таблица 2. Корреляционная таблица. (2)

Полигоны и гистограммы для признака Y.

Полигон частот Y

24

14

4

  • 1

1 2 3 4 5 6 7 8 9 10

Рис. 2. Полигон частот Y.

Полигон относительных частот Y

0,29

0,24

0,19

0,14

0,09

0,04

  • 0,01

1 2 3 4 5 6 7 8 9 10

Рис. 3. Полигон относительных частот Y.

ni / h 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0

1 2 3 4 5 6 7 8 9 10

Рис. 4. Гистограмма частот Y.

Эмпирическая функция по Y 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0

1 2 3 4 5 6 7 8 9 10

Рис. 5. Эмпирическая функция по Y.

Нет необходимости представлять многоугольники и графики абсолютных и относительных частот, а также эмпирическую функцию для X, поскольку значения частот будут равны друг другу и мы не сможем наблюдать никаких зависимостей. Это следствие того, что мы берем значение месячной аудитории для Y и даты для X.

РЕГРЕССИЯ

Регрессия – это зависимость среднего значения какой-либо величины Y от другой величины X. Понятие регрессии в некотором смысле обобщает понятие функциональной зависимости y = f(x).

Только в случае регрессии одному и тому же значению x в различных случаях соответствуют различные значения у.

Регрессионный анализ заключается в определении аналитического выражения связи, в которой изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин.

По форме зависимости различают два вида регрессий:

Линейную регрессию, которая выражается уравнением прямой:

Y  aX  b

Параболическую (нелинейную):

???? = ???????? 2 + ???????? + ????

Метод наименьших квадратов является одним из основных методов регрессионного анализа для оценки неизвестных параметров регрессионных моделей по выборочным данным. Метод основан на минимизации суммы квадратов остатков регрессии.

Необходимо отметить, что собственно методом наименьших квадратов можно назвать метод решения задачи в любой области, если решение заключается или удовлетворяет некоторому критерию минимизации суммы квадратов некоторых функций от искомых переменных. Поэтому метод наименьших квадратов может применяться также для приближённого представления (аппроксимации) заданной функции другими (более простыми) функциями, при нахождении совокупности величин, удовлетворяющих уравнениям или ограничениям, количество которых превышает количество этих величин и т.д.

31 стр., 15482 слов

Средние величины в статистике

... следующие задачи: ü охарактеризовать средние величины в экономическом анализе ü раскрыть виды средних величин ü как применяются средние величины в туризме 1.1 Средние величины в экономическом анализе. Статистика, ... этого условия повлечет за собой ограничение возможностей статистического анализа социальных процессов. Поэтому средние значения часто рассчитываются по разнородным явлениям. Еще ...

В простейшем случае, когда нет систематических ошибок, но есть случайные оценки неизвестных величин, полученные с помощью OLS, то они являются линейными функциями наблюдаемых величин — статистическими оценками.

Если статистические оценки наблюдений независимы и подчиняются нормальному распределению, то OLS обеспечивает оценки неизвестных с минимальной среднеквадратической ошибкой. В этом смысле OLS — лучший среди других методов нахождения несмещенных линейных оценок.

Если мы рассмотрим слабо формализованные системы, которые сложно дать уникальное и точное описание, связь между значениями X и Y изначально коррелятивна. Это связано, в частности, с тем, что Y зависит не только от X, но и от других параметров, и эта связь часто бывает случайной.

В этом случае, имея экспериментальные точки, задача состоит в том, чтобы приблизительно уменьшить корреляцию до функциональной, выбрав функцию, максимально приближенную к экспериментальным точкам. Такая функция называется функцией регрессии.

Вид функции зависит от некоторых параметров. Задача статистического и корреляционного анализа — найти эти параметры. Для этого и используется метод наименьших квадратов.

Рассмотрим случайную двумерную величину (X, Y), где X и Y — зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением величины Y в виде линейной функции величины X:

Y  g x   aX  b,

где a и b — параметры, подлежащие определению

Функцию g(x) называют среднеквадратической регрессией Y на X.

F a, b    ( y i  (axi  b)) 2 ,

где F — суммарное квадратичное отклонение.

Подберем a и b так, чтобы сумма квадратов отклонений была минимальна. Для того, чтобы найти коэффициенты a и b, при которых F достигает минимального значения, необходимо приравнять частные производные к нулю:

 100

 2 ( y i  (axi  b)) x i  0;

 1

 100

 2 ( y  (ax  b))  0.

 1

i i

Находим a и b. Выполнив элементарные преобразования, получим систему двух линейных уравнений относительно a и b:

 100 2   100  100

  i

 X   a    i 

X   b  X i Yi ;

 i 1   i 1 i 1

 100 ,

 X   a  n  b  Y ;

  i

 i

 i 1 i 1

???? = ∑ ????????2

????=1

???? = ∑ ????????

????=1

Найдём a и b из этой системы линейных уравнений. Получим стационарную точку (a0, b0) для F (a, b), где a = 5,17; b= 102.

Следовательно, уравнение примет вид:

y=5,17x+102.

Построим график линейной регрессии.

Линейная регрессия

500 Y*10^5

200

0

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88

Y Y=5,17x+102

Рис. 6. Линейная регрессия y=f(x).

МЕТОД НАИМЕНЬШИХ КВАДРАТОВ ДЛЯ ОПРЕДЕЛЕНИЯ P, Q, R.

Найдем по данным наблюдений выборочное уравнение кривой линии среднеквадратичной (параболической в нашем случае) регрессии.

8 стр., 3792 слов

Договор доверительного управления имуществом

... целью данной курсовой работы является комплексное структурно-логическое исследование института управления капиталом. Для достижения указанной цели необходимо последовательно решить ряд промежуточных задач исследования: ·изучить понятие доверительного управления имуществом; ·дать развернутую ...

Ограничимся представлением величины Y в виде параболической функции величины X:

Y  pX 2  qX  r ,

где p, q, и r — параметры, подлежащие определению. Это можно сделать с помощью метода наименьших квадратов.

Выберем параметры p, q и r так, чтобы сумма квадратов отклонений была минимальной. Так как каждое отклонение зависит от отыскиваемых параметров, то и сумма квадратов отклонений есть функция F этих параметров:

F ( p, q, r )   (Yi  pX i2  qX i  r ) 2 .

i 1

Для отыскания минимума приравняем к нулю соответствующие частные производные:

 

 F 

p  2   X i2 Yi  pX i2  qX i  r  0;

 i 1

 

 Fq  2   X i Yi  pX i  qX i  r  0;

 i 1

 

 Fr  2   Yi  pX i  qX i  r  0.

 i 1

Находим p, q и r. Выполнив элементарные преобразования, получим систему трех линейных уравнений относительно p, q и r:

 100 4   100 3   100 2  100

  i

 X   p    X i   q    X i  r    X i2 Yi ;

 i 1   i 1   i 1  i 1

 100

3  100

2   100

 100

  i

 X   p    X i   q    X i   r   X i Yi ;

  i 1   i 1   i 1  i 1

 100   100  100

  X i2   p    X i   q  n  r   Yi .

 i 1   i 1  i 1

Решая эту систему методом Гаусса, получим: p = 512,68; q = -55672,38; r = 1259883,91. Следовательно, уравнение параболической регрессии примет вид:

y= 512,68×2-55672,38x +1259883,91. Построим график параболической регрессии.

График параболической регрессии

500 Y*10^5

200

0

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88

Y Y= 512,68x^2-55672,38x +1259883,91

Рис. 7. Параболическая регрессия y=f(x).

Теперь давайте нарисуем на графике линии параболической и линейной регрессии.

Линии регрессия

500 Y*10^5

200

0

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88

Y Y=5,17x+102 Y= 512,68x^2-55672,38x +1259883,91

Рис. 8. Линейная и параболическая регрессии.

МЕТОД ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ

Рассмотренные ранее M (x) , S ( x) ,  ( x) , D (x) , M ( y ) , S ( y ) ,  ( y ) , D ( y)

 * *   * * 

являются точечными оценками, но наряду с ними при изучении выборки используются интервальные оценки, так как полезно не только построить оценку, но и охарактеризовать величину возможной при её использовании ошибки.

Диапазон называется оценкой, которая определяется двумя числами: концами диапазона. Интервальные оценки помогают определить точность и надежность оценок.

Величина  характеризует точность оценки, если выполняется неравенство

   *   , где  * — оценка некоторого параметра  генеральной совокупности.

Надежностью (доверительной вероятностью) оценки  * по  называют вероятность  , c

которой осуществляется неравенство    *   . Наиболее часто задают надежность,

30 стр., 14884 слов

Рейтинговая оценка деятельности банков

... по его повышению. Можно выделить следующие задачи работы:  рассмотреть понятие рейтинговой оценки банков;  рассмотреть зарубежную и российскую практику рейтинговой оценки кредитоспособности банка;  провести анализ финансовых деятельности и результатов в ПАО Сбербанк;  провести ...

равную 0,95; 0,99; 0,999.

Доверительным называют интервал  *

  , *   ,  который покрывает

неизвестный параметр с заданной надежностью  .

Рассмотрим доверительный интервал математического ожидания населения в целом. Известен объем выборки

 1 n

n = 100; yM ( y)   y j n j ( y ) =337,15, исправленное выборочное

n j 1

среднеквадратичное отклонение, s * ( y)  S  ( y)  11,22 .

Найдем доверительный интервал для оценки неизвестного математического ожидания по X с надежностями β = 0,95; 0,99; 0,999.

Если наблюдаемая случайная величина имеет нормальное распределение, но ее среднеквадратичное отклонение нам неизвестно, то можно построить доверительный интервал по распределению Стьюдента с k  n  1 степенями свободы, то есть должно быть справедливо неравенство:

s* s*

x  t  m  x  t ;

n n

где t  определим по заданным  и n . Это соотношение выражает доверительный

интервал для m , определяемый с помощью распределения Стьюдента. Найдем доверительные интервалы для математического ожидания Y.

доверительный интервал(β=0,95)

307*105 < 367*105

доверительный интервал(β=0,99)

297*105 < 377*105

доверительный интервал(β=0,999)

286*105 < 389*105

Таблица 3. Доверительный интервал.

ПРОГНОЗ

Чтобы сделать прогноз, вам нужно использовать последнюю часть графика от 50 до 90 и расширить ее, построив линейную регрессию для этого диапазона. Кроме того, вы можете взять часть графика в определенном диапазоне и расширить его, создав линию тренда.

X Y, *105 X Y, *105

1 430,9605 21 504,5355

2 422,2419 22 501,0904

3 422,0372 23 497,2581

4 429,2705 24 507,7316

5 440,7198 25 504,3579

6 464,012 26 501,7373

7 472,2111 27 496,5063

8 501,3661 28 491,1007

9 493,8464 29 505,2455

10 526,2573 30 510,7384

11 521,4348 31 532,2335

12 515,6451 32 509,3164

13 508,2334 33 496,9178

14 489,1397 34 502,349

15 477,9481 35 498,4698

16 488,4449 36 491,5623

17 507,3722 37 473,4554

18 504,0765 38 465,5044

19 498,7852 39 455,1961

20 508,9668 40 448,6426

Таблица 4. Часть данных.

Построим диаграмму. 520 480 440 400

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49

Y Линейная (Y)

Рис. 9. Прогноз. Можно дать точечный прогноз на 2016 год. Количество посетителей сайта «Яндекс» на июль 2016 года (соответствует номеру 50 по оси X) примерно равно 514*105.

ЗАКЛЮЧЕНИЕ

После выполнения данной курсовой работы были решены следующие задачи:  Построена диаграмма разброса.  Вычислены выборочные параметры для выборки по X и Y:

 выборочные средние,

 выборочные дисперсии,

 средние квадратические отклонения,

 корреляционный момент

 коэффициент корреляции.  Построены:

 гистограммы частот,

 эмпирические функции распределения по Y.

 корреляционная таблица.  Вычислены параметры для уравнений линейной и параболической регрессии.  Сделали прогноз посещаемости сайта «Яндекс» на 2016 год.

4 стр., 1806 слов

Математическая статистика и её роль в медицине и здравоохранении (2)

... значение) в отличие от интервальной оценки, которая имеет интервал значений. Точечную оценку описывает выборочная статистика. Выборочная дисперсия, выборочное стандартное отклонение Если вы повторите извлечение выборок одного ... Предмет и метод математической статистики. Статистическое описание агрегата, с одной стороны, и описание агрегата по его общим свойствам, которое вовсе не требует его ...

СПИСОК ЛИТЕРАТУРЫ

[Электронный ресурс]//URL: https://management.econlib.ru/kursovaya/so-statistikoy-primer/