Область статистики связана со сбором, анализом, интерпретацией и представлением данных.
По мере того, как технологии все больше проникают в нашу повседневную жизнь, сейчас генерируется и собирается больше данных, чем когда-либо прежде в истории человечества.
Статистика — это поле, которое может помочь нам понять, как использовать эти данные для следующих целей:
- Получите лучшее представление об окружающем нас мире.
- Принимайте решения, используя данные.
- Делайте прогнозы о будущем, используя данные.
В этой статье мы делимся 10 причинами того, почему область статистики так важна в современной жизни.
Причина 1: использовать описательную статистику для понимания мира
Описательная статистика используется для описания блока необработанных данных. Существует три основных типа описательной статистики:
- Сводные статистические данные
- Графики
- Столы
Каждый из них может помочь нам лучше понять существующие данные.
Например, предположим, что у нас есть набор необработанных данных, показывающих результаты тестов 10 000 учащихся в определенном городе. Мы можем использовать описательную статистику для:
- Рассчитайте средний балл теста и стандартное отклонение результатов теста.
- Создайте гистограмму или диаграмму, чтобы визуализировать распределение тестовых результатов.
- Создайте частотную таблицу, чтобы понять распределение результатов тестов.
Используя описательную статистику, мы можем гораздо легче понять результаты тестов студентов, чем просто смотреть на необработанные данные.
Причина 2: опасаться вводящих в заблуждение графиков
В журналах, новостных агентствах, онлайн-статьях и журналах создается больше диаграмм, чем когда-либо прежде. К сожалению, диаграммы часто могут вводить в заблуждение, если вы не понимаете лежащие в их основе данные.
Например, предположим, что в каком-то журнале опубликовано исследование, в котором обнаруживается отрицательная корреляция между баллами GPA и ACT для студентов определенного университета.
Однако эта отрицательная корреляция возникает только потому, что студенты с высоким средним баллом и баллом ACT могут поступить в элитный университет, в то время как студенты с низким средним баллом и баллом ACT вообще не поступают.
Хотя корреляция между ACT и GPA является положительной в популяции, в выборке корреляция оказывается отрицательной.
Эта конкретная предвзятость известна как предвзятость Берксона.Зная об этой предвзятости, вы можете избежать введения в заблуждение некоторыми диаграммами.
Причина 3: опасаться смешанных переменных
Одна важная концепция, с которой вы познакомитесь в статистике, — это концепция смешанных переменных .
Это неучтенные переменные, которые могут исказить результаты эксперимента и привести к ненадежным выводам.
Например, предположим, что исследователь собирает данные о продажах мороженого и нападениях акул и обнаруживает, что эти две переменные сильно коррелированы. Означает ли это, что увеличение продаж мороженого вызывает больше нападений акул?
Это маловероятно. Более вероятной причиной является смешанная переменная температура.Когда на улице теплее, больше людей покупают мороженое и ходят в океан.
Причина 4: принимать лучшие решения, используя вероятность
Одной из наиболее важных подполей статистики является вероятность.Это область, изучающая вероятность того, что события произойдут.
Имея базовое понимание вероятности, вы можете принимать более обоснованные решения в реальном мире.
Например, предположим, что старшеклассник знает, что у него есть 10-процентный шанс быть принятым в данный университет. Используя формулу вероятности «хотя бы одного» успеха , этот студент может найти вероятность того, что он будет принят по крайней мере в один университет, в который он подает заявку, и может соответствующим образом скорректировать количество университетов, в которые он подает заявку.
Причина 5: понять P-значения в исследованиях
Еще одно важное понятие, о котором вы узнаете из статистики, — это p-значения .
Определение p-значения в учебнике:
P-значение — это вероятность наблюдения выборочной статистики, которая по крайней мере столь же экстремальна, как и ваша выборочная статистика, при условии, что нулевая гипотеза верна.
Например, предположим, что завод заявляет, что производит шины, средний вес которых составляет 200 фунтов. Аудитор выдвигает гипотезу о том, что истинный средний вес шин, произведенных на этом заводе, отличается от 200 фунтов, поэтому он проводит проверку гипотезы и обнаруживает, что p-значение теста равно 0,04.
Вот как интерпретировать это p-значение:
Если фабрика действительно производит шины со средним весом 200 фунтов, то 4% всех аудитов получат эффект, наблюдаемый в выборке, или больше из-за случайной ошибки выборки. Это говорит нам о том, что получение выборочных данных, которые сделал аудитор, было бы довольно редким, если бы завод действительно производил шины, средний вес которых составлял 200 фунтов.
Таким образом, аудитор, скорее всего, отклонит нулевую гипотезу о том, что истинный средний вес шин, произведенных на этом заводе, действительно составляет 200 фунтов.
Причина 6: понять корреляцию
Еще одно важное понятие, о котором вы узнаете из статистики, — этокорреляция , которая говорит нам о линейной связи между двумя переменными.
Значение коэффициента корреляции всегда находится в диапазоне от -1 до 1, где:
- -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными
- 0 указывает на отсутствие линейной корреляции между двумя переменными
- 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.
Понимая эти значения, вы можете понять взаимосвязь между переменными в реальном мире.
Например, если корреляция между расходами на рекламу и доходами составляет 0,87, то вы можете понять, что между двумя переменными существует сильная положительная связь. По мере того, как вы тратите больше денег на рекламу, вы можете ожидать предсказуемого увеличения доходов.
Причина 7: делать прогнозы о будущем
Еще одна важная причина для изучения статистики — понимание базовых моделей регрессии, таких как:
Каждая из этих моделей позволяет вам делать прогнозы о будущем значении некоторой переменной отклика на основе значения определенных переменных-предикторов в модели.
Например, модели множественной линейной регрессии постоянно используются в реальном мире предприятиями, когда они используют переменные-предикторы, такие как возраст, доход, этническая принадлежность и т. д., чтобы предсказать, сколько покупатели потратят в своих магазинах.
Точно так же логистические компании используют переменные-предикторы, такие как общий спрос, численность населения и т. д., для прогнозирования будущих продаж.
Независимо от того, в какой области вы работаете, велика вероятность того, что регрессионные модели будут использоваться для предсказания какого-либо будущего явления.
Причина 8: понять потенциальную предвзятость в исследованиях
Еще одна причина для изучения статистики состоит в том, чтобы знать обо всех различных типах предвзятости, которые могут возникнуть в реальных исследованиях.
Вот некоторые примеры:
- Предвзятость наблюдателя
- Предвзятость самоотбора
- Реферальная предвзятость
- Пропущенная переменная смещения
- Предвзятость неполного охвата
- Систематическая ошибка неответа
Имея общее представление об этих типах предубеждений, вы можете избежать их совершения при проведении исследований или знать о них при чтении других научных статей или исследований.
Причина 9: понять предположения, сделанные статистическими тестами
Многие статистические тесты делают предположения об исходных изучаемых данных.
Читая результаты исследования или даже проводя собственное исследование, важно понимать, какие предположения необходимо сделать, чтобы результаты были надежными.
В следующих статьях представлены предположения, сделанные во многих широко используемых статистических тестах и процедурах:
- Что такое предположение о равной дисперсии в статистике?
- Что такое предположение о нормальности в статистике?
- Что такое предположение о независимости в статистике?
Причина 10: чтобы избежать чрезмерного обобщения
Еще одна причина для изучения статистики — понимание концепции чрезмерного обобщения .
Это происходит, когда лица, участвующие в исследовании, не являются репрезентативными для лиц в общей популяции, и поэтому неуместно обобщать выводы исследования на большую популяцию.
Например, предположим, что мы хотим узнать, какой процент учащихся в определенной школе предпочитает «драму» в качестве любимого жанра кино. Если общее количество учащихся состоит из 50 % мальчиков и 50 % девочек, то выборка из 90 % мальчиков и 10 % девочек может привести к необъективным результатам, если гораздо меньше мальчиков предпочитают драму в качестве любимого жанра.
В идеале мы хотим, чтобы наша выборка была похожа на «мини-версию» нашей популяции. Таким образом, если в общей студенческой популяции 50% девочек и 50% мальчиков, наша выборка не будет репрезентативной, если в ней будет 90% мальчиков и только 10% девочек.
Таким образом, независимо от того, проводите ли вы собственное обследование или читаете о результатах опроса, важно понимать, являются ли данные выборки репрезентативными для всего населения и можно ли результаты опроса обобщить на население с уверенность.
Дополнительные ресурсы
Ознакомьтесь со следующими статьями, чтобы получить общее представление о наиболее важных понятиях вводной статистики:
Описательная статистика против логической статистики
Население против выборки
Статистика против параметра
Качественные и количественные переменные
Уровни измерения: номинальный, порядковый, интервальный и относительный