Ковариация выборки: Cov(X,Y) = ?(Xi - ?)(Yj - ?) (n-1)
Когда популяция слишком велика для вычисления ковариации, статистики и другие специалисты, полагающиеся на математику, могут взять для анализа меньшую выборку. Для вычисления ковариации эффективнее брать выборку из большей популяции, так как этот процесс позволяет быстрее применять вычисления. При определении ковариации выборочной совокупности необходимо использовать формулу, которая несколько отличается от расчета статистической ковариации. В этой статье мы обсудим, что такое ковариация и выборочная ковариация, чем ковариация отличается от корреляции и как рассчитать выборочную ковариацию на примере для более наглядного понимания.
Что такое ковариация?
Ковариация - это статистическая величина, которая измеряет связь между двумя случайными переменными и то, насколько сильно изменяются обе переменные одновременно. Вы также можете измерить ковариацию как дисперсию между двумя случайными величинами, если между ними нет зависимости.
Измерение ковариации также может дать вам информацию о характере связи между данными двух различных популяций, например, о корреляции или причинно-следственной связи. Кроме того, ковариация может быть как положительной, так и отрицательной. Положительная ковариация указывает на две переменные, которые движутся или изменяются в одном направлении, а отрицательная ковариация показывает переменные, которые движутся в обратных или противоположных направлениях.
Что такое выборочная ковариация?
Выборочная ковариация берет меньшую выборку из популяции и измеряет связь между двумя случайными величинами из выборки. Эта метрика становится полезной при работе с большими совокупностями, например, при работе с фондовыми инвестиционными инструментами или долгосрочными медицинскими исследованиями. В таких случаях расчет ковариации выборки может дать статистикам и аналитикам более глубокое понимание того, как их результаты проявляются в более крупной совокупности. Ковариация выборки может также более эффективно предоставлять данные для прогностического анализа, поскольку вы можете работать с выборками меньшего объема. Чтобы рассчитать ковариацию выборки, используйте формулу:
Cov(X,Y) = ?(Xi - ?)(Yj - ?) (n-1)
Где находятся части уравнения:
-
Cov(X,Y) представляет собой ковариацию выборки X и ковариацию выборки Y.
-
?(Xi) = ?, что представляет собой ожидаемое среднее (среднее) значение для ваших значений X.
-
?(Yj) = ?, что является ожидаемым средним значением для ваших значений Y.
-
? это операция суммирования точек данных из каждой выборки.
-
Переменная n - это количество точек данных в выборочной совокупности.
Ковариация vs. корреляция
Хотя и ковариация, и корреляция измеряют взаимосвязь между двумя переменными, эти две величины могут дать вам разную информацию. При измерении ковариации вы вычисляете общую вариацию между двумя случайными величинами при вычислении их по прогнозируемым значениям. Используя это измерение, вы можете определить, является ли ковариация положительной или отрицательной. Однако ковариация не фокусируется на типе связи между переменными или на том, зависит ли одна переменная от другой.
Корреляция же рассчитывает тип взаимосвязи и то, влияет ли независимая переменная на зависимую переменную. В отличие от ковариации, коэффициент корреляции остается чистой величиной, а не единицей измерения. Это становится важным при определении причинных факторов событий или результатов в выборочном наборе данных.
Как рассчитать ковариацию выборки
Используя следующие шаги и применяя формулу ковариации выборки, определите ковариацию выборки:
1. Соберите данные из обеих выборок
Прежде чем применять формулу, необходимо иметь выборочный набор данных из двух различных совокупностей. Пусть в формуле одна выборка данных представляет значение X, а другая выборка - значение Y. Например, если профессор статистики хочет понять направленную зависимость между различными промежуточными экзаменами для класса колледжа из 125 студентов, первый экзамен должен представлять X, а второй - Y.
Каждый тестовый балл становится точкой данных в совокупности, однако, поскольку профессор имеет большое количество экзаменов для оценки, он может сосредоточиться на выборке из пяти баллов каждого экзамена.
2. Вычислите среднее значение для обеих выборок X и Y
Выделив выборку для X и выборку для Y, вы можете рассчитать среднее значение для обеих выборок. В примере с тестовыми баллами профессор находит среднее значение для каждого экзамена. Важно отметить, что значения Xi и Yj представляют собой первую точку данных в каждой выборке, когда профессор располагает точки в порядке возрастания. Сайт ? и ? значения представляют собой средние значения для выборок X и Y.
3. Найдите разницу между каждым средним значением
Когда вы получите средние значения для каждой выборочной совокупности, вычтите среднее значение из ваших значений Xi и Yj для каждой точки в выборке. Используя предыдущий пример с двумя экзаменами, профессор использует пять оценок из 125 и находит среднее значение X первой выборки и получает 89. Среднее значение второй выборки равно 78. Предполагая, что первый балл из выборки X равен 66, а первый балл из выборки Y равен 54, профессор вычитает эти значения в формуле перед умножением разностей.
4. Перемножьте разность для X и разность для Y и выполните суммирование
После вычитания средних значений ваших выборок X и Y из исходных оценок, вы можете перемножить полученные разности. Повторите этот процесс для каждой точки данных в вашей выборке, а затем просуммируйте все произведения. Это значение - число, на которое делятся ваши точки данных при вычислении окончательного результата. В случае с экзаменационными оценками, предполагая, что профессор измеряет выборочную ковариацию для пяти оценок каждого экзамена, он выполняет операцию суммирования между каждым произведением своих выборок X и Y.
5. Вычитание единицы из количества точек данных
Прежде чем делить, подставьте в формулу переменную n - количество точек данных в вашей выборочной совокупности. Например, если у вас есть 17 точек данных, то в формуле для n вы подставляете 17. Подставив значение точки данных, вычтите из этого числа единицу. В примере с оценками экзаменов профессора n будет равно пяти, так как профессор рассчитывает ковариацию для данного объема выборки из 125 оценок за каждый экзамен. При вычитании единицы из значения n получается четыре.
6. Разделите, чтобы получить ковариацию выборки
После того, как вы подставите все значения в формулу, разделите произведение, полученное при умножении значений ваших выборок X и Y на предыдущих шагах. Этот результат дает вам ковариацию выборки и направление изменения между вашими выборками X и Y, давая вам большее представление о больших популяциях, из которых вы взяли свои выборки. Если результат - отрицательное число, значит, у вас отрицательная ковариация с обратной зависимостью переменных. Если в результате получается положительное значение, то ковариация положительна, что указывает на схожие изменения между переменными.
Пример расчета ковариации выборки
Для этого примера предположим, что инвестиционный аналитик хочет понять колебания цен между двумя различными фондовыми инструментами. Используя формулу ковариации выборки, аналитик может рассчитать значение ковариации выборки для акций X и Y. Аналитик собирает данные о ценах на акции X и акции Y за последние три месяца и находит:
Акция X Акция YМесяц первый$510$560Месяц второй$480$505Месяц третий$495$540С этой информацией аналитик сначала определяет среднее значение для каждой выборки, начиная с акции X:
Mean(stock X) = ($510 + $480 + $495) (3) = $495
Mean(stock Y) = ($560 + $505 + $540) (3) = $535
Используя эти данные и выборочные значения для каждого фондового инструмента, аналитик вычисляет формулу выборочной ковариации при расчете ковариации за три месяца:
Cov(X,Y) = ?(Xi - ?)(Yj - ?) (n-1) =
Cov(stock X, stock Y) = (510 - 495)(560 - 535) + (480 - 495)(505 - 535) + (495 - 495)(540 - 535) (3-1) =
Cov(запас X, запас Y) = (15)(25) + (-15)(-30) + (0)(5) (2) =
Cov(акции X, акции Y) = (325) + (450) + (0) (2) =
Cov(акции X, акции Y) = 775 2 = 387.5
Ковариация выборки дает результат 387.5, что указывает на наличие положительной ковариации между обеими акциями. Используя это значение, аналитик может затем рассчитать корреляцию обеих акций и определить, ведет ли одна акция себя как зависимая переменная по отношению к другой акции. Это позволяет инвестиционному аналитику рассчитать корреляцию с помощью выборочной ковариации, чтобы определить, создают ли колебания цен акций между каждым инструментом причинно-следственную связь.
- indeed.com
Поделиться