Определение значимости выборки данных является важным инструментом для статистиков, аналитиков данных и других специалистов по исследованию данных. Одним из показателей значимости является p-значение, которое многие специалисты используют при публикации своих исследований, поскольку оно позволяет другим делать выводы о данных. Знание того, что такое p-значение, как его использовать и как его рассчитать, может помочь вам понять данные и сформировать на их основе гипотезы.
Что такое p-значение?
P-значение - это статистическая метрика, которая представляет собой вероятность возникновения экстремального результата. Этот результат по крайней мере настолько же экстремален, как и наблюдаемый результат при проверке статистической гипотезы по случайному совпадению, если предположить, что нулевая гипотеза верна. Проверка гипотез в статистике - это способ определения значимости конкретной точки или набора данных. Ниже приведены определения различных терминов, которые вы можете использовать, чтобы понять, что такое p-value:
-
Нулевая гипотеза: Выдвижение нулевой гипотезы означает, что вы предсказываете отсутствие статистической значимости между наблюдаемым результатом и набором данных, к которому он принадлежит. Например, если средняя температура тела в группе А и группе В одинакова, то можно выдвинуть нулевую гипотезу, утверждающую, что между средней температурой тела в группе А и группе В нет статистической значимости.
-
Значимость: При проверке гипотез значимость означает, что результат очень маловероятен, если нулевая гипотеза верна.
-
Альтернативная гипотеза: Этот тип гипотезы относится к случаям, когда существует статистическая значимость между наблюдаемым результатом и набором данных, к которому он принадлежит, то есть ваш тест отвергает нулевую гипотезу, которую вы выдвинули. Например, вы можете создать альтернативную гипотезу, утверждающую, что существует разница между средней температурой тела группы А и группы В на основе ваших результатов.
P-значение - это измерение, которое предполагает, что нулевая гипотеза верна, то есть если значение мало, то нулевую гипотезу можно отвергнуть в пользу альтернативной гипотезы. Большое p-значение обычно означает, что измеренная вами точка или набор данных соответствует нулевой гипотезе, что делает ее более вероятным результатом. P-значение - это измерение, которое можно использовать в опубликованных исследованиях, чтобы читатели могли самостоятельно интерпретировать данные.
Применение p-значения
Статистики, аналитики данных и бизнесмены используют p-значение для определения того, насколько далеко за пределами набора данных находится конкретная точка данных. Это может быть полезно для определения того, является ли точка данных эффективной метрикой для увеличения производства и прибыли для предприятий, являются ли данные значимыми для аналитиков данных и является ли точка данных обоснованной для других статистических мер. Существует два типа p-значения, которые вы можете использовать:
-
Одностороннее p-значение: Вы можете использовать этот метод для проверки того, что большое или неожиданное изменение в данных имеет лишь небольшое значение или не имеет никакого значения для вашего набора данных. Как правило, это необычно, и вместо этого можно использовать двусторонний тест p-значения.
-
Двустороннее p-значение: Вы можете использовать этот метод проверки, если большое изменение в данных повлияет на результат исследования и если альтернативная гипотеза является достаточно общей, а не конкретной. Большинство специалистов используют этот метод для того, чтобы учесть большие изменения в данных.
Как рассчитать p-значение
Ниже приведены шаги, которые можно использовать для расчета p-значения для выборки данных:
1. Укажите нулевую и альтернативную гипотезы
Первый шаг к расчету p-значения для выборки - это изучение данных и создание нулевой и альтернативной гипотез. Например, вы можете утверждать, что среднее значение, предполагаемое гипотезой ? равно 10, и поэтому альтернативная гипотеза заключается в том, что предполагаемое среднее значение ? не равно 10. Вы можете записать эти гипотезы в виде:
H0: μ = 10
H1: μ ≠ 10
В этих гипотезах:
-
H0 нулевая гипотеза.
-
H1 альтернативная гипотеза.
-
μ это гипотетическое среднее значение, которое вы определяете.
-
μ ≠ это символ, означающий, что не равно.
2. Используйте t-тест и его формулу
Определив обе гипотезы, вы можете рассчитать значение статистики теста t на основе вашего набора данных. Формула для расчета этой статистики следующая:
Стандартное отклонение в математике - это мера вариации в наборе данных. Он также может помочь вам понять, насколько близка к среднему значению точка данных в выборке по сравнению с другими точками данных.
3. Используйте таблицу t-распределения, чтобы найти соответствующее p-значение
После того, как вы рассчитали значение тестовой статистики t, Вы можете найти соответствующее p-значение, обратившись к таблице t-распределения, которую можно найти в Интернете. В таблице t-распределения есть три основных значения значимости, которые использует p-value: 0.01, 0.05 и 0.1. Эти значения измеряют, насколько близка гипотеза к набору данных. Чтобы использовать таблицу t-распределения, вы можете выбрать, в какое из значений значимости вы хотите, чтобы попали ваши данные. Вы можете сделать это, взяв объем выборки n, и вычесть из него 1. Например:
n = 10
10 - 1 = 9
Затем вы можете использовать выбранное вами значение значимости для нахождения соответствующего значения в таблице. Если у вас однохвостовое распределение, это число является p-значением для ваших данных. Если у вас двуххвостовое распределение, что встречается чаще всего, то вы можете умножить это число на два, чтобы получить p-значение.
Пример расчета p-значения
Ниже приведен пример расчета p-значения на основе известного набора данных:
Оуэн хочет узнать, составляет ли среднее количество осадков в августе 9 дюймов. Он находит данные за август прошлого года и определяет, что выборочное среднее составляет восемь дюймов, а стандартное отклонение - два дюйма. Он решает провести двуххвостовой t-тест, чтобы найти p-значение с вероятностью 0.01 уровень, чтобы определить, является ли девять истинным средним значением данных. Он формирует следующие гипотезы:
-
H0: μ = 9 inches
-
H1: μ ≠ 9 inches
После создания гипотез он вычисляет абсолютное значение, или |t|, теста следующим образом:
-
t = (8 − 9) / (2 / √31)
-
t = (−1) / (0.35921)
-
t = −2.78388
-
|t| = 2.78388
Используя это t-значение, он использует таблицу t-распределения для нахождения значений, основанных на его значениях 0.01 и 2.78388. Он использует размер выборки 31, так как в августе 31 день. Он вычитает 1 из объема выборки следующим образом:
31 − 1 = 30
Затем он анализирует результаты своего t значение 2.78388, что попадает между уровнями 0.005 и 0.001 по таблице t-распределения. Он усредняет 0.005 и 0.001, чтобы получить значение 0.003. При тесте с двумя хвостами он может умножить это значение на 2, чтобы получить 0.006, что является p-значением для данного теста. Поскольку p-значение меньше, чем 0.01 уровень значимости, он отвергает выдвинутую им нулевую гипотезу и принимает альтернативную гипотезу о том, что среднее количество осадков за август не равно девяти дюймам.
- indeed.com
Поделиться