Смотреть страницы где упоминается термин критерий согласия. Критерий согласия пирсона Проверка критерия согласия

Смотреть страницы где упоминается термин критерий согласия. Критерий согласия пирсона Проверка критерия согласия

Проверяемую гипотезу обычно называют нулевой H 0 , правило, по которому гипотеза принимается или отвергается называется статистическим критерием.. Статистические критерии, служащие для проверки гипотез о виде законов распределения называются критериями согласия. Т.е. критерии согласия устанавливают, когда полученные в действительности расхождения между предполагаемыми теоретическим и опытным распределением:несущественно - случайные и когда существенно - неслучайные.

Рассмотрим случайную величину, которая характеризует вид или функцию расхождения между предполагаемым теоретическим и опытным распределением признака, тогда по имеющемуся опытному распределению, можно определить значение a , которое приняла случайная величина, если известен ее закон распределения, то не трудно найти вероятность того, что случайная величина примет значение не меньшее a . Если величина a получена как результат наблюдения случайной величины x , т.е. при распределении рассматриваемого признака, по предполагаемому теоретическому закону, то вероятность не должна быть малой. Если же вероятность оказалась малой, то это объясняется тем, что фактически полученному значение не случайной величины x , а какой-то другой с другим законом распределения, т.е. изучаемый признак распределен не по предполагаемому закону. Таким образом, в случае, когда не мала -расхождения между эмпирическими и теоретическими распределениями следует признать не существенным- случайным, а опытное и теоретическое распределение не противоречащими, т.е. согласующимися друг с другом.

Если вероятность мала, то расхождения между опытным и теоретическим распределениями существенны, объяснить их случайностью нельзя, а гипотезу о распределении признака по предполагаемому теоретическому закону следует считать не подтвердившейся, она не согласуется с опытными данными. Необходимо тщательно изучив опытные данные попытаться найти новый закон о качестве предполагаемого признака, который лучше, полнее бы отражал особенности опытного распределения, такие вероятности считаются малыми и их берут не превосходящими 0,1.

Критерии согласия Пирсона или критерии c 2 .

Пусть анализ опытных данных привел к выбору некоторого закона распределения, в качестве предполагаемого для рассматриваемого признака, а по опытным данным в результате n-наблюдений, найдены параметры (если они не были известны раннее). Обозначим через n i - эмпирические частоты случайной величины x.

n×P i -теоретические частоты, представляющие произведение числа наблюдений n на вероятности P i - рассчитанные по предполагаемому теоретическому распределению. Критерии согласия c 2 за меру расхождения теоретического и эмпирического рядов частот принимают величину


c 2 -величина, которую называют c 2 распределение или распределение Пирсона. Она равна 0 лишь при совпадении всех эмпирических и теоретических частот, в остальных случаях отлична от 0 и тем больше, чем больше расхождение между указанными частотами. Доказано, что выбранная характеристика c 2 или статистика при n®¥ имеет распределение Пирсона со степенями свободы

k=m-s- 1.

где m -число интервалов эмпирического распределения вариационного ряда или число групп.

s -число параметров теоретического распределения, определяемых по опытным данным, (например в случае нормального распределения число оцениваемых по выборке параметров равно 2).

Схема применения критерия сводится к следующему:

1. По опытным данным выбирают в качестве предполагаемого закон распределения признака и находят его параметры.

2. С помощью полученного распределения определяют теоретические частоты, соответствующие опытным частотам.

3. Малочисленные опытные частоты, если они есть, объединяют с соседними, затем по формуле определяют величину c 2 .

4. Определяют число степеней свободы k .

5. Из таблиц приложения для выбранного уровня значимости a находят критическое значение при числе степеней свободы равным k .

6. Формулируем вывод, руководствуясь общим принципом применения критериев согласия, а именно если вероятность >0,01, то имеющиеся расхождения между теоретическими и опытными частотами признаются не существенными.

Если фактически наблюдаемое значение больше критического, то H 0 отвергается, если то гипотеза не противоречит опытным данным. Критерий c 2 дает удовлетворительные результаты, если в каждом группировочном интервале достаточное число наблюдений n i .

Замечание: Если в каком-нибудь интервале число наблюдений <5, то имеет смысл объединить соседние интервалы с тем, чтобы в объединенных интервалах n i было не меньше 5. При этом при вычислении числа степеней свободы k в качестве m -берется соответственно уменьшенное число интервалов.

Получено следующее распределение 100 рабочих цеха по выработке в отчетном году

(в %-тах к предыдущему году).

Определение 51. Критерии, которые позволяют судить, согласуются ли значения х 1 , х 2 ,…, х n случайной величины Х с гипотезой относительно ее функции распределения, называются критериями согласия.

Идея применения критериев согласия

Пусть на основании данного статистического материала предстоит проверить гипотезу Н , состоящую в том, что СВ Х подчиняется некоторому определенному закону распределения. Этот закон может быть задан либо в виде функция распределения F (x ), либо в виде плотности распределения f (x ), или же в виде совокупности вероятностей p i . Так как из всех этих форм функция распределения F (x ) является наиболее общей (существует и для ДСВ и для НСВ) и определяет собой любую другую, будем формулировать гипотезу Н , как состоящую в том, что величина Х имеет функцию распределения F (x ).

Для того, чтобы принять или опровергнуть гипотезу Н , рассмотрим некоторую величину U , характеризующую степень расхождения (отклонения) теоретического и статистического распределений. Величина U может быть выбрана различными способами : 1) сумма квадратов отклонений теоретических вероятностей p i от соответствующих частот , 2) сумма тех же квадратов с некоторыми коэффициентами (весами), 3) максимальное отклонение статистической (эмпирической) функции распределения от теоретической F (x ).

Пусть величина U выбрана тем или иным способом. Очевидно, что это есть некоторая случайная величина. Закон распределения U зависит от закона распределения случайной величины Х , над которой производились опыты, и от числа опытов n . Если гипотеза Н верна, то закон распределения величины U определяется законом распределения величины Х (функцией F (x )) и числом n .

Допустим, что этот закон распределения известен. В результате данной серии опытов обнаружено, что выбранная мера расхождения U приняла некоторое значение u . Вопрос: можно ли объяснить это случайными причинами или же это расхождение слишком велико и указывает на наличие существенной разницы между теоретическим и статистическим (эмпирическим) распределениями и, следовательно, на непригодность гипотезы Н ? Для ответа на этот вопрос предположим, что гипотеза Н верна, и вычислим в этом предположении вероятность того, что за счет случайных причин, связанных с недостаточным объемом опытного материала, мера расхождения U окажется не меньше, чем наблюдаемое в опыте значение u , то есть вычислим вероятность события: .

Если эта вероятность мала, то гипотезу Н следует отвергнуть как мало правдоподобную, если же эта вероятность значительна, то делаем вывод, что экспериментальные данные не противоречат гипотезе Н .

Возникает вопрос: каким же способом следует выбирать меру расхождения (отклонения) U ? Оказывается, что при некоторых способах ее выбора закон распределения величины U обладает весьма простыми свойствами и при достаточно большом n практически не зависит от функции F (x ). Именно такими мерами расхождения и пользуются в математической статистике в качестве критериев согласия.

Определение 51 / . Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Для количественных данных при распределениях, близких к нормальным, используют параметрические методы, основанные на таких показателях, как математическое ожидание и стандартное отклонение. В частности, для определения достоверности разницы средних для двух выборок применяют метод (критерий) Стьюдента, а для того чтобы судить о различиях между тремя или большим числом выборок, - тест F , или дисперсионный анализ. Если же имеем дело с неколичественными данными или выборки слишком малы для уверенности в том, что популяции, из которых они взяты, подчиняются нормальному распределению, тогда используют непараметрические методы - критерий χ 2 (хи-квадрат) или Пирсона для качественных данных и критерии знаков, рангов, Манна-Уитни, Вилкоксона и др. для порядковых данных.

Кроме того, выбор статистического метода зависит от того, являются ли те выборки, средние которых сравниваются, независимыми (т. е., например, взятыми из двух разных групп испытуемых) или зависимыми (т. е. отражающими результаты одной и той же группы испытуемых до и после воздействия или после двух различных воздействий).

Пп. 1. Критерий Пирсона (- хи-квадрат)

Пусть произведено n независимых опытов, в каждом из которых случайная величина Х приняла определенное значение, то есть дана выборка наблюдений случайной величины Х (генеральной совокупности) объема n . Рассмотрим задачу по проверке близости теоретической и эмпирической функций распределения для дискретного распределения, то есть требуется проверить, согласуются ли экспериментальные данные с гипотезой Н 0 , утверждающей, что случайная величина Х имеет закон распределения F (x ) при уровне значимости α . Назовем этот закон «теоретическим».

При получении критерия согласия для проверки гипотезы определяют меру D отклонения эмпирической функции распределения данной выборки от предполагаемой (теоретической) функции распределения F (x ).

Наиболее употребительной является мера, введенная Пирсоном. Рассмотрим эту меру. Разобьем множество значений случайной величины Х на r множеств - групп S 1 , S 2 ,…, S r , без общих точек. Практически такое разбиение осуществляется с помощью (r - 1) чисел c 1 < c 2 < … < c r -1 . При этом конец каждого интервала исключают из соответствующего множества, а левый – включают.

S 1 S 2 S 3 …. S r -1 S r

c 1 c 2 c 3 c r -1

Пусть p i , , - вероятность того, что СВ Х принадлежит множеству S i (очевидно ). Пусть n i , , - количество величин (вариант) из числа наблюдаемых, принадлежащих множеству S i (эмпирические частоты). Тогда относительная частота попадания СВ Х во множество S i при n наблюдениях. Очевидно, что , .

Для разбиения, приведенного выше, p i есть приращение F (x ) на множестве S i , а приращение на этом же множестве. Cведем результаты опытов в таблицу в виде группированного статистического ряда.

Границы группы Относительная частота
S 1: x 1 – x 2
S 2: x 2 – x 3
S r : x r x r +1

Зная теоретический закон распределения, можно найти теоретические вероятности попадания случайной величины в каждую группу: р 1 , р 2 , …, p r . Проверяя согласованность теоретического и эмпирического (статистического) распределений, будем исходить из расхождений между теоретическими вероятностями p i и наблюдаемыми частотами .

За меру D расхождения (отклонения) эмпирической функции распределения от теоретической принимают сумму квадратов отклонений теоретических вероятностей p i от соответствующих частот , взятых с некоторыми «весами» c i : .

Коэффициенты c i вводятся потому, что в общем случае отклонения, относящиеся к разным группам, нельзя считать равноправными по значимости: одно и то же по абсолютной величине отклонение может быть мало значительным, если сама вероятность p i велика, и очень заметным, если она мала. Поэтому естественно «веса» c i взять обратно пропорциональным вероятностям. Как выбрать этот коэффициент?

К.Пирсон показал, что если положить , то при больших n закон распределения величины U обладает весьма простыми свойствами: он практически не зависит от функции распределения F (x ) и от числа опытов n , а зависит только от количества групп r , а именно, этот закон при увеличении n приближается к так называемому распределению «хи-квадрат» .

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ УКРАИНЫ

АЗОВСКИЙ РЕГИОНАЛЬНЫЙ ИНСТИТУТ УПРАВЛЕНИЯ

ЗАПОРОЖСКОГО НАЦИОНАЛЬНОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА

Кафедра математики

КУРСОВАЯ РАБОТА

З дисциплины «СТАТИСТИКА»

На тему: «КРИТЕРИИ СОГЛАСИЯ»

студентки 2-го курса

группы 207 факультета управления

Батуры Татьяны Олеговны

Научный руководитель

доцент Косенков О. И.

Бердянск – 2009г.


ВВЕДЕНИЕ

1.2 Критерии согласия χ 2 Пирсона для простой гипотезы

1.3 Критерии согласия для сложной гипотезы

1.4 Критерии согласия χ 2 Фишера для сложной гипотезы

1.5 Другие критерии согласия. Критерии согласия для распределения Пуассона

РАЗДЕЛ II. ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ КРИТЕРИЯ СОГЛАСИЯ

ПРИЛОЖЕНИЯ

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ


ВВЕДЕНИЕ

В данной курсовой работе рассказано о наиболее распространенных критериях согласия – омега-квадрат, хи-квадрат, Колмогорова и Колмогорова-Смирнова. Особенное внимание уделено случаю, когда необходимо проверить принадлежность распределения данных некоторому параметрическому семейству, например, нормальному. Эта весьма распространенная на практике ситуация из-за своей сложности исследована не до конца и не полностью отражена в учебной и справочной литературе.

Критериями согласия называют статистические критерии, предназначенные для проверки согласия опытных данных и теоретической модели. Лучше всего этот вопрос разработан, если наблюдения представляют случайную выборку. Теоретическая модель в этом случае описывает закон распределения.

Теоретическое распределение – это то распределение вероятностей, которое управляет случайным выбором. Представления о нем может дать не только теория. Источниками знаний здесь могут быть и традиция, и прошлый опыт, и предыдущие наблюдения. Надо лишь подчеркнуть, что это распределение должно быть выбрано независимо от тех данных, по которым мы собираемся его проверять. Иначе говоря, недопустимо сначала «подогнать» по выборке некоторый закон распределения, а потом пытаться проверить согласие с полученным законом по этой же выборке.

Простые и сложные гипотезы. Говоря о теоретическом законе распределения, которому гипотетически должны бы следовать элементы данной выборки, надо различать простые и сложные гипотезы об этом законе:

· простая гипотеза прямо указывает некий определенный закон вероятностей (распределение вероятностей), по которому возникли выборочные значения;

· сложная гипотеза указывает на единственное распределение, а какое-то их множество (например, параметрическое семейство).

Критерии согласия основаны на использовании различных мер расстояний между анализируемым эмпирическим распределением и функцией распределения признака в генеральной совокупности.

Непараметрические критерии согласия Колмогорова, Смирнова, омега квадрат широко используются. Однако с ними связаны и широко распространенные ошибки в применении статистических методов.

Дело в том, что перечисленные критерии были разработаны для проверки согласия с полностью известным теоретическим распределением. Расчетные формулы, таблицы распределений и критических значений широко распространены. Основная идея критериев Колмогорова, омега квадрат и аналогичных им состоит в измерении расстояния между функцией эмпирического распределения и функцией теоретического распределения. Различаются эти критерии видом расстояний в пространстве функций распределения.

Приступая к выполнению данной курсовой работы, я поставила себе за цель, узнать какие существуют критерии согласия, разобраться для чего же они нужны. Для осуществления этой цели необходимо выполнить следующие задания:

1. Раскрыть суть понятия “критерии согласия”;

2. Определить какие критерии согласия существуют, изучить их по отдельности;

3. Сделать выводы по проведенной работе.


РАЗДЕЛ I. ТЕОРЕТИЧЕСКОЕ ОБОСНОВАНИЕ КРИТЕРИЯ СОГЛАСИЯ

1.1 Критерии согласия Колмогорова и омега-квадрат в случае простой гипотезы

Простая гипотеза. Рассмотрим ситуацию, когда измеряемые данные являются числами, иначе говоря, одномерными случайными величинами. Распределение одномерных случайных величин может быть полностью описано указанием их функций распределения. И многие критерии согласия основаны на проверке близости теоретической и эмпирической (выборочной) функций распределения.

Предположим, что имеем выборку n. Обозначим истинную функцию распределения, которой подчиняются наблюдения, G(х), эмпирическую (выборочную) функцию распределения – F n (х), а гипотетическую функцию распределения – F(х). Тогда гипотеза Н о том, что истинная функция распределения есть F(х), записывается в виде Н: G(·) = F(·).

Как проверить гипотезу H? Если Н верна, то F n и F должны проявлять определенное сходство, и различие между ними должно убывать с увеличением n. Вследствие теоремы Бернулли F n (х) → F(х) при n → ∞. Для количественного выражения сходства функций F n иF используют различные способы.

Для выражения сходства функций можно использовать то или иное расстояние между этими функциями. Например, можно сравнить F n и F в равномерной метрике, т.е. рассмотреть величину:

(1.1)

Статистику D n называют статистикой Колмогорова.

Очевидно, что D n - случайная величина, поскольку ее значение зависит от случайного объекта F n . Если гипотеза Н 0 справедлива и n → ∞, то F n (x) → F(x) при всяком х. Поэтому естественно, что при этих условиях D n → 0. Если же гипотеза Н 0 неверна, то F n → G и G ≠ F, а потому sup -∞

Как всегда при проверке гипотезы, рассуждаем так, как если бы гипотеза была верна. Ясно, что Н 0 должна быть отвергнута, если полученное в эксперименте значение статистики D n кажется неправдоподобно большим. Но для этого надо знать, как распределена статистика D n при гипотезе Н: F= G при заданных n и G.

Замечательное свойство D n состоит в том, что если G = F, т.е. если гипотетическое распределение указано правильно, то закон распределения статистики D n оказывается одним и тем же для всех непрерывных функций G. Он зависит только от объема выборки n.

Доказательство этого факта основано на том, что статистика не изменяет своего значения при монотонных преобразованиях оси х. Таким преобразованием любое непрерывное распределение G можно превратить в равномерное на отрезке . При этом F n (x) перейдет в функцию распределения выборки из этого равномерного распределения.

При малых п для статистики D n при гипотезе Н 0 составлены таблицы процентных точек. При больших п распределение D n (при гипотезе Н 0) указывает найденная в 1933 г. А.Н.Колмогоровым предельная теорема. Она говорит о статистике

(поскольку сама величина D n → 0 при Н 0 , приходится умножать ее на неограниченно растущую величину, чтобы распределение стабилизировалось). Теорема Колмогорова утверждает, что при справедливости Н 0 и если G непрерывна:
(1.2)

Эта сумма очень легко считается в Maple. Для проверки простой гипотезы Н 0: G = F требуется по исходной выборке вычислить значение статистики D n . Для этого годится простая формула:

(1.3)

Здесь через х k - элементы вариационного ряда, построенного по исходной выборке. Полученную величину D n затем надо сравнить с извлеченными из таблиц или рассчитанными по асимптотической формуле критическими значениями. Гипотезу Н 0 приходится отвергать (на выбранном уровне значимости), если полученное в опыте значение D n превосходит выбранное критическое значение, соответствующее принятому уровню значимости.

Другой популярный критерий согласия получим, измеряя расстояние между F n и F в интегральной метрике. Он основан на так называемой статистике омега-квадрат:

(1.4)

Для его вычисления по реальным данным можно использовать формулу:

(1.5)

При справедливости гипотезы Н 0 и непрерывности функции G распределение статистики омега-квадрат, так же, как распределение статистики D n , зависит только от n и не зависит от G.

Так же, как для D n , для

при малых n имеются таблицы процентных точек, а для больших значений n следует использовать предельное (при n → ∞) распределение статистики n . Здесь снова приходится умножать на неограниченно растущий множитель. Предельное распределение было найдено Н.В.Смирновым в 1939 г. Для него составлены подробные таблицы и вычислительные программы. Важное с теоретической точки зрения свойство критериев, основанных на D n и : они состоятельны против любой альтернативы G ≠ F.

Введение

Актуальность данной темы в том, что в течение изучения основ биостатистики мы предполагали, что закон распределения генеральной совокупности известен. Но что, если закон распределения неизвестен, но есть основания предполагать, что он имеет определенный вид (назовем его А), то проверяют нулевую гипотезу: генеральная совокупность распределена по закону А. Проверка этой гипотезы производится при помощи специально подобранной случайной величины - критерия согласия.

Критерии согласия - это критерии проверки гипотез о соответствии эмпирического распределения теоретическому распределению вероятностей. Такие критерии подразделяются на два класса:

  • Ш Общие критерии согласия применимы к самой общей формулировке гипотезы, а именно к гипотезе о согласии наблюдаемых результатов с любым априорно предполагаемым распределением вероятностей.
  • Ш Специальные критерии согласия предполагают специальные нулевые гипотезы, формулирующие согласие с определенной формой распределения вероятностей.

Критерий согласия

Наиболее распространенные критерии согласия - омега-квадрат, хи-квадрат, Колмогорова и Колмогорова-Смирнова.

Непараметрические критерии согласия Колмогорова, Смирнова, омега квадрат широко используются. Однако с ними связаны и широко распространенные ошибки в применении статистических методов.

Дело в том, что перечисленные критерии были разработаны для проверки согласия с полностью известным теоретическим распределением. Расчетные формулы, таблицы распределений и критических значений широко распространены. Основная идея критериев Колмогорова, омега квадрат и аналогичных им состоит в измерении расстояния между функцией эмпирического распределения и функцией теоретического распределения. Различаются эти критерии видом расстояний в пространстве функций распределения.

Критерии согласия ч2 Пирсона для простой гипотезы

Теорема К. Пирсона относится к независимым испытаниям с конечным числом исходов, т.е. к испытаниям Бернулли (в несколько расширенном смысле). Она позволяет судить о том, согласуются ли наблюдения в большом числе испытаний частоты этих исходов с их предполагаемыми вероятностями.

Во многих практических задачах точный закон распределения неизвестен. Поэтому выдвигается гипотеза о соответствии имеющегося эмпирического закона, построенного по наблюдениям, некоторому теоретическому. Данная гипотеза требует статистической проверки по результатам которой будет либо подтверждена, либо опровергнута.

Пусть X - исследуемая случайная величина. Требуется проверить гипотезу H0 о том, что данная случайная величина подчиняется закону распределения F(x). Для этого необходимо произвести выборку из n независимых наблюдений и по ней построить эмпирический закон распределения F"(x). Для сравнения эмпирического и гипотетического законов используется правило, называемое критерием согласия. Одним из популярных является критерий согласия хи-квадрат К. Пирсона. В нем вычисляется статистика хи-квадрат:

где N - число интервалов, по которому строился эмпирический закон распределения (число столбцов соответствующей гистограммы), i - номер интервала, pt i -вероятность попадания значения случайной величины в i-й интервал для теоретического закона распределения, pe i - вероятность попадания значения случайной величины в i-й интервал для эмпирического закона распределения. Она и должна подчиняться распределению хи-квадрат.

Если вычисленное значение статистики превосходит квантиль распределения хи-квадрат с k-p-1 степенями свободы для заданного уровня значимости, то гипотеза H0 отвергается. В противном случае она принимается на заданном уровне значимости. Здесь k - число наблюдений, p число оцениваемых параметров закона распределения.

Рассмотрим статистику:

Статистика ч2 называется статистикой хи-квадрат Пирсона для простой гипотезы.

Ясно, что ч2 представляем собой квадрат некоего расстояния между двумя r-мерными векторами: вектором относительных частот (mi /n, …, mr /n) и вектором вероятностей (pi , …, pr). От евклидового расстояния это расстояние отличается лишь тем, что разные координаты входят в него с разными весами.

Обсудим поведение статистики ч2 в случае, когда гипотеза Н верна, и в случае, когда Н неверна. Если верна Н, то асимптотическое поведение ч2 при n > ? указывает теорема К. Пирсона. Чтобы понять, что происходит с (2.2), когда Н неверна, заметим, что по закону больших чисел mi /n > pi при n > ?, для i = 1, …, r. Поэтому при n > ?:

Эта величина равна 0. Поэтому если Н неверна, то ч2 >? (при n > ?).

Из сказанного следует, что Н должна быть отвергнута, если полученное в опыте значение ч2 слишком велико. Здесь, как всегда, слова «слишком велико» означают, что наблюденное значение ч2 превосходит критическое значение, которое в данном случае можно взять из таблиц распределения хи-квадрат. Иначе говоря, вероятность Р(ч2 npi ч2) - малая величина и, следовательно, маловероятно случайно получить такое же, как в опыте, или еще большее расхождение между вектором частот и вектором вероятностей.

Асимптотический характер теоремы К. Пирсона, лежащий в основе этого правила, требует осторожности при его практическом использовании. На него можно полагаться только при больших n. Судить же о том, достаточно ли n велико, надо с учетом вероятностей pi , …, pr . Поэтому нельзя сказать, к примеру, что ста наблюдений будет достаточно, поскольку не только n должно быть велико, но и произведения npi , …, npr (ожидаемые частоты) тоже не должны быть малы. Поэтому проблема аппроксимации ч2 (непрерывное распределение) к статистике ч2 , распределение которой дискретно, оказалась сложной. Совокупность теоретических и экспериментальных доводов привела к убеждению, что эта аппроксимация применима, если все ожидаемые частоты npi>10. если число r (число различных исходов) возрастает, граница для снижена (до 5 или даже до 3, если r порядка нескольких десятков). Чтобы соблюсти эти требования, на практике порой приходится объединять несколько исходов, т.е. переходить к схеме Бернулли с меньшим r.

Описанный способ для проверки согласия можно прилагать не только к испытаниям Бернулли, но и к произвольным выборкам. Предварительно их наблюдения надо превратить в испытания Бернулли путем группировки. Делают это так: пространство наблюдений разбивают на конечное число непересекающихся областей, а затем для каждой области подсчитывают наблюденную частоту и гипотетическую вероятность.

В данном случае к перечисленным ранее трудностям аппроксимации прибавляется еще одна - выбор разумного разбиения исходного пространства. При этом надо заботится о том, чтобы в целом правило проверки гипотезы об исходном распределении выборки было достаточно чувствительным к возможным альтернативам. Наконец, отмечу, что статистические критерии, основные на редукции к схеме Бернулли, как правило, не являются состоятельными против всех альтернатив. Так что такой метод проверки согласия имеет ограниченную ценность.

Критерий согласия Колмогорова - Смирнова в своем классическом виде является более мощным, чем критерий ч2 и может быть использован для проверки гипотезы о соответствии эмпирического распределения любому теоретическому непрерывному распределению F(x) с заранее известными параметрами. Последнее обстоятельство накладывает ограничения на возможность широкого практического приложения этого критерия при анализе результатов механических испытаний, так как параметры функции распределения характеристик механических свойств, как правило, оценивают по данным самой выборки.

Критерий Колмогорова - Смирнова применяют для негруппированных данных или для группированных в случае малой ширины интервала (например, равной цене деления шкалы силоизмерителя, счетчика циклов нагружения и т. д.). Пусть результатом испытаний серии из n образцов является вариационный ряд характеристики механических свойств

x1 ? x2 ? ... ? xi ? ... ? xn. (3.93)

Требуется проверить нулевую гипотезу о принадлежности выборочного распределения (3.93) теоретическому закону F(x).

Критерий Колмогорова - Смирнова базируется на распределении максимального отклонения накопленной частности от значения функции распределения. При его использовании вычисляют статистики

являющуюся статистикой критерия Колмогорова. Если выполняется неравенство

Dnvn ? лб (3.97)

для больших объемов выборки (n > 35) или

Dn(vn + 0.12 + 0.11/vn) ? лб (3.98)

для n ? 35, то нулевую гипотезу не отвергают.

При невыполнении неравенств (3.97) и (3.98) принимают альтернативную гипотезу о принадлежности выборки (3.93) неизвестному распределению.

Критические значения лб составляют: л0.1 = 1.22; л0.05 = 1.36; л0.01 = 1.63.

Если параметры функции F(x) заранее не известны, а оцениваются по данным выборки, критерий Колмогорова - Смирнова теряет свою универсальность и может быть использован только для проверки соответствия опытных данных лишь некоторым конкретным функциям распределения.

При использовании в качестве нулевой гипотезы принадлежность опытных данных нормальному или логарифмически нормальному распределению вычисляют статистики:

где Ц(zi) - значение функции Лапласа для

Ц(zi) = (xi - xср)/s Критерий Колмогорова - Смирнова для любых объемов выборки n записывают в виде

Критические значения лб в этом случае составляют: л0.1 = 0.82; л0.05 = 0.89; л0.01 = 1.04.

Если проверяют гипотезу о соответствии выборки ***экспоненциальному распределению, параметр которого оценивают по опытным данным, вычисляют аналогичные статистики:

критерий эмпирический вероятность

и составляют критерий Колмогорова - Смирнова.

Критические значения лб для этого случая: л0.1 = 0.99; л0.05 = 1.09; л0.01 = 1.31.

Нулевой (основной) называют выдвинутую гипотезу о виде неизвестного распределения, или о параметрах известных распределений. Конкурирующей (альтернативной) называют гипотезу , которая противоречит нулевой.

Например, если нулевая гипотеза состоит в предположении, что случайная величина X распределена по закону , то конкурирующая гипотеза может состоять в предположении, что случайная величина Х распределена по другому закону.

Статистическим критерием (или просто критерием ) называют некоторую случайную величину К , которая служит для проверки нулевой гипотезы.

После выбора определенного критерия, например критерия , множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, а другое - при которых она принимается.

Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают. Областью принятия гипотезы называют совокупность значений критерия, при которых гипотезу принимают. Критическими точками называют точки, отделяющие критическую область от области принятия нулевой гипотезы.

Для нашего примера, при значении , вычисленное по выборке значение соответствует области принятия гипотезы: случайная величина распределена по закону . Если же вычисленное значение , то оно попадает в критическую область, то есть гипотеза о распределении случайной величины по закону отвергается.

В случае распределения критическая область определяется неравенством , область принятия нулевой гипотезы – неравенством .

2.6.3. Критерий согласия Пирсона.

Одна из задач зоотехнии и ветеринарной генетики – выведение новых пород и видов с требуемыми признаками. Например, повышение иммунитета, резистентность к болезням или изменение окраски мехового покрова.

На практике, при анализе результатов, очень часто оказывается, что фактические результаты в большей или меньшей степени соответствуют некоторому теоретическому закону распределения. Возникает необходимость оценить степень соответствия фактических (эмпирических) данных и теоретических (гипотетических). Для этого выдвигают нулевую гипотезу : полученная совокупность распределена по закону «А». Проверка гипотезы о предполагаемом законе распределения производится при помощи специально подобранной случайной величины – критерия согласия.

Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Имеется несколько критериев согласия: Пирсона, Колмогорова, Смирнова и д.р. Критерий согласия Пирсона используется наиболее часто.

Рассмотрим применение критерия Пирсона на примере проверки гипотезы о нормальном законе распределения генеральной совокупности. С этой целью будем сравнивать эмпирические и теоретические (вычисленные в продолжении нормального распределения) частоты.

Обычно между теоретическими и эмпирическими частотами есть некоторое различие. Например :

Эмпирические частоты 7 15 41 93 113 84 25 13 5

Теоретические частоты 5 13 36 89 114 91 29 14 6

Рассмотрим два случая:

Расхождение теоретических и эмпирических частот случайно (незначимо), т.е. можно сделать предложение о распределении эмпирических частот по нормальному закону;

Расхождение теоретических и эмпирических частот неслучайно (значимо), т.е. теоретические частоты вычислены, исходя из неверной гипотезы о нормальном распределении генеральной совокупности.

С помощью критерия согласия Пирсона можно определить случайно или нет расхождение теоретических и эмпирических частот, т.е. с заданной доверительной вероятностью определить, распределена генеральная совокупность по нормальному закону или нет.

Итак, пусть по выборке объема n получено эмпирическое распределение:

Варианты ……

Эмпирические частоты …….

Допустим, что в предположении нормального распределения вычислены теоретические частоты . При уровне значимости требуется проверить нулевую гипотезу : генеральная совокупность распределена нормально.

В качестве критерия проверки нулевой гипотезы примем случайную величину

(*)

Эта величина случайная, так как в различных опытах она принимает различные, заранее неизвестные значения. Ясно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия и, следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений.

Доказано, что при закон распределения случайной величины (*), независимо от того, какому закону распределения подчинена генеральная совокупность, стремится к закону распределения с степенями свободы. Поэтому, случайная величина (*) обозначается через , а сам критерий называют критерий согласия «хи-квадрат».

Обозначим значение критерия, вычисленное по данным наблюдений, через . Табулированные критические значения критерия для данного уровня значимости и числа степеней свободы обозначают . При этом число степеней свободы определяют из равенства , где число групп (частичных интервалов) выборки или классов; - число параметров предполагаемого распределения. У нормального распределения два параметра – математическое ожидание и среднее квадратическое отклонение. Поэтому число степеней свободы для нормального распределения находят из равенства

Если для вычисленного значения и табличного значения выполняется неравенство , принимается нулевая гипотеза о нормальном распределении генеральной совокупности. Если же , нулевую гипотезу отвергают и принимают гипотезу, альтернативную ей (генеральная совокупность не распределена по нормальному закону).

Замечание. При использовании критерия согласия Пирсона объем выборки должен быть не менее 30. Каждая группа должна содержать не менее 5 вариант. Если же в группах окажется менее 5 частот, их объединяют с соседними группами.

В общем случае число степеней свободы для распределения хи-квадрат определяется как общее число величин, по которым вычисляют соответствующие показатели, минус число тех условий, которые связывают эти величины, т.е. уменьшают возможность вариации между ними. В простейших случаях при вычислении число степеней свободы будет равно числу классов, уменьшенному на единицу. Так, например, при дигибридном, расщеплении получают 4 класса, но не связанным получается лишь первый класс, последующие уже связаны с предыдущими. Поэтому для дигибридного расщепления число степеней свободы .

Пример 1. Определить степень соответствия фактического распределения групп по количеству больных туберкулезом коров с теоретически ожидаемым, которое было вычислено при рассмотрении нормального распределения. Исходные данные сведены в таблицу:

Решение.

По уровню значимости и числу степеней свободы из таблицы критических точек распределения (см. приложение 4) находим значение . Поскольку , можно сделать вывод, что различие между теоретическими и фактическими частотами носит случайный характер. Таким образом, фактическое распределение групп по количеству больных туберкулезом коров соответствует теоретически ожидаемому.

Пример 2. Теоретическое распределение по фенотипу особей, полученных во втором поколении при дигибридном скрещивании кроликов по закону Менделя составляет 9: 3: 3: 1. Требуется вычислить соответствие эмпирического распределения кроликов от скрещивания черных особей с нормальной шерстью с пуховыми животными – альбиносами. При скрещивании во втором поколении было получено 120 потомков, в том числе – 45 черных с короткой шерстью, 30 черных пуховых, 25 белых с короткой шерстью, 20 белых пуховых кроликов.

Решение. Теоретически ожидаемое расщепление в потомстве должно соответствовать соотношению четырех фенотипов (9: 3: 3: 1). Рассчитаем теоретические частоты (количество голов) для каждого класса:

9+3+3+1=16, значит можно ожидать, что черных короткошерстных будет ; черных пуховых - ; белых короткошерстных - ; белых пуховых - .

Эмпирическое (фактическое) распределение по фенотипам было следующим 45; 30; 25; 20.

Сведем все эти данные в следующую таблицу:

Используя критерий согласия Пирсона вычислим значение :

Число степеней свободы при дигибридном скрещивании . Для уровня значимости находим значение . Поскольку , можно сделать вывод, что различие между теоретическими и фактическими частотами является неслучайным. Следовательно, полученная группа кроликов отклоняется по распределению фенотипов от закона Менделя при дигибридном скрещивании и отражает влияние неких факторов, изменяющих тип расщепления по фенотипу у второго поколения помесей.

Критерий согласия хи- квадрат Пирсона можно использовать и для сравнения друг с другом двух однородных эмпирических распределений, т.е. таких, у которых одни и те же границы классов. В качестве нулевой гипотезы принимается гипотеза о равенстве двух неизвестных функций распределения. Критерий хи-квадрат в таких случаях определяется по формуле

(**)

где и - объемы сравниваемых распределений; и - частоты соответствующих классов.

Рассмотрим сравнение двух эмпирических распределений на следующем примере.

Пример 3. Проводился промер длины яиц кукушек по двум территориальным зонам. В первой зоне была обследована выборка из 76 яиц (), во второй из 54 (). Получены следующие результаты:

Длина (мм)
Частоты
Частоты - - -

При уровне значимости требуется проверить нулевую гипотезу, что обе выборки яиц принадлежат одной популяции кукушек.

© 2024 ferrum-store.ru - Бизнес Портал - FerrumStore