Дифференциальные и интегральные функции распределения
Дифференциальные и интегральные функции распределения
Министерство науки и образования РФ
Казанский государственный архитектурно-строительный университет
Кафедра Теплогазоснабжения и вентиляции
Реферат
по дисциплине «Метрология, стандартизация и сертификация»
на тему:
Дифференциальные и интегральные функции распределения
Казань 2010 г.
Содержание
Введение
Глава 1. Вероятностное описание результатов и погрешностей
Глава 2. Числовые параметры законов распределения. Центр распределения. Моменты распределений
Глава 3. Оценка результата измерения
Глава 4. Характеристики нормального распределения
Заключение
Список использованной литературы
Введение
Измерения - один из важнейших путей познания природы человеком. Они играют огромную роль в современном обществе. Наука, техника и промышленность не могут существовать без них. Каждую секунду в мире производятся многие миллиарды измерительных операций, результаты которых используются для обеспечения надлежащего качества и технического уровня выпускаемой продукции, обеспечения безопасной и безаварийной работы транспорта, для медицинских и экологических диагнозов и других важных целей. Практически нет ни одной сферы деятельности человека, где бы интенсивно не использовались результаты измерений, испытаний и контроля.
Поэтому следует говорить об измерительных технологиях, понимаемых как последовательность действий, направленных на получение измерительной информации требуемого качества.
Другой фактор, подтверждающий важность измерений, - их значимость. Основой любой формы управления, анализа, прогнозирования, планирования контроля или регулирования является достоверная исходная информация, которая может быть получена только путем измерения требуемых физических величин, параметров и показателей. Естественно, что только высокая и гарантированная точность результатов измерений обеспечивает правильность принимаемых решений.
Задача, которая ставится перед метрологом, желающим приблизиться к истинному значению измеряемой величины и оценить вероятность определенного отклонения в единичном опыте или в серии измерений, состоит в отыскании закона распределения вероятности получения определенного результата от какого-либо аргумента, связанного с отклонением результата от истинного значения. Наиболее универсальным способом достижения этой цели является отыскание интегральных и дифференциальных функций распределения вероятности.
Глава 1. Вероятностное описание результатов и погрешностей
Если при повторных измерениях одной и той же физической величины, проведенных с одинаковой тщательностью и в одинаковых условиях получаемые результаты, отличаются друг от друга, то это свидетельствует о наличии случайных погрешностей. Случайные погрешности являются результатом одновременного воздействия на измеряемую величину многих случайных возмущений. Предсказать результат наблюдения или исправить его введением поправки невозможно. Можно лишь с определенной долей уверенности утверждать, что истинное значение измеряемой величины находится в пределах разброса результатов наблюдений от xmin до xmax, где xmin, xmax - соответственно, нижняя и верхняя границы разброса.
Однако остается неясным, какова вероятность появления того или иного значения погрешности, какое из множества лежащих в этой области значений величины принять за результат измерения и какими показателями охарактеризовать случайную погрешность результата. Для ответа на эти вопросы требуется принципиально иной, чем при анализе систематических погрешностей, подход. Подход этот основывается на рассмотрении результатов наблюдений, результатов измерений и случайных погрешностей как случайных величин. Методы теории вероятностей и математической статистики позволяют установить вероятностные (статистические) закономерности появления случайных погрешностей и на основании этих закономерностей дать количественные оценки результата измерения и его случайной погрешности.
Для характеристики свойств случайной величины в теории вероятностей используют понятие закона распределения вероятностей случайной величины. Различают две формы описания закона распределения: интегральную и дифференциальную. В метрологии преимущественно используется дифференциальная форма - закон распределения плотности вероятностей случайной величины.
Рассмотрим формирование дифференциального закона на примере измерений с многократными наблюдениями. Пусть произведено n последовательных наблюдений одной и той же величины x и получена группа наблюдений x1, x2, x,..., xn. Каждое из значений xi содержит ту или иную случайную погрешность. Расположим результаты наблюдений в порядке их возрастания, от xmin до xmax и найдем размах ряда L = xmax ? xmin. Разделив размах ряда на k равных интервалов Дl = L / k, подсчитаем количество наблюдений nk, попадающих в каждый интервал. Оптимальное число интервалов определяют по формуле Стерджесса k = 1?3,3 lg n. Изобразим полученные результаты графически, нанеся на ось абсцисс значения физической величины и обозначив границы интервалов, а на ось ординат - относительную частоту попаданий nk / n. Построив на диаграмме прямоугольники, основанием которых является ширина интервалов, а высотой nk / n, получим гистограмму, дающую представление о плотности распределения результатов наблюдений в данном опыте.
На рис. 1 показана полученная в одном из опытов гистограмма, построенная на основании результатов 100 наблюдений, сгруппированных в таблице 1.
Таблица 1
В данном опыте в первый и последующие интервалы попадает соответственно 0,06; 0,12; 0,18; 0,25; 0,17; 0,14 и 0,08 от общего количества наблюдений; при этом, очевидно, что сумма этих чисел равна единице.
Рис. 1. Гистограмма
Если распределение случайной величины х статистически устойчиво, то можно ожидать, что при повторных сериях наблюдений той же величины, в тех же условиях, относительные частоты попаданий в каждый интервал будут близки к первоначальным. Это означает, что построив гистограмму один раз, при последующих сериях наблюдений можно с определенной долей уверенности заранее предсказать распределение результатов наблюдений по интервалам. Приняв общую площадь, ограниченную контуром гистограммы и осью абсцисс, за единицу, S0 =1, относительную частоту попаданий результатов наблюдений в тот или иной интервал можно определить как отношение площади соответствующего прямоугольника шириной Дl к общей площади.
При бесконечном увеличении числа наблюдений n> ? и бесконечном уменьшении ширины интервалов Дl >0, ступенчатая кривая, огибающая гистограмму, перейдет в плавную кривую f (x) (рис. 2), называемую кривой плотности распределения вероятностей случайной величины, а уравнение, описывающее ее, - дифференциальным законом распределения. Кривая плотности распределения вероятностей всегда неотрицательна и подчинена условию нормирования в виде
Закон распределения дает полную информацию о свойствах случайной величины и позволяет ответить на поставленные вопросы о результате измерения и его случайной погрешности. Если известен дифференциальный закон распределения f (x), то вероятность С попадания случайной величины х в интервал от x1 до x2 можно записать в следующем виде
Графически эта вероятность выражается отношением площади, лежащей под кривой f (x) в интервале от x1 до x2 к общей площади, ограниченной кривой распределения. Следовательно, рассмотренное выше условие нормирования означает, что вероятность попадания величины х в интервал [? ?; + ?] равна единице, т.е. представляет собой достоверное событие. Вероятность этого события называется функцией распределения случайной величины и обозначается F(x). Функцию распределения F(x) иногда называют также интегральной функцией распределения. В терминах интегральной функции распределения имеем
P {x1 ? x ? x2} = F (x1)? F (x2),
т.е. вероятность попадания результата наблюдений или случайной погрешности в заданный интервал равна разности значений функции распределения на границах этого интервала.
Рис. 3. Интегральная (а) и дифференциальная (б) функции распределения случайной величины
Интегральной функцией распределения F(x) называют функцию, каждое значение которой для каждого х является вероятностью события, заключающегося в том, что случайная величина xi в i -м опыте принимает значение, меньшее х. График интегральной функции распределения показан на рис. 3, а. Она имеет следующие свойства:
? неотрицательная, т.е. F(x) ? 0;
? неубывающая, т.е. f (x2) ? F(x1), если x2 ? x1;
? диапазон ее изменения: от 0 до 1, т.е. F(??) = 0; F(+?) = 1;
? вероятность нахождения случайной величины х в диапазоне от x1 до
x2: P{x1 < x < x2}= F(x2) ? F(x1).
Запишем функцию распределения через плотность:
Площадь, ограниченная кривой распределения, лежащая левее точки x (х
- текущая переменная) (рис. 4), отнесенная к общей площади, есть не что иное, как интегральная функция распределения F(x) = P{xi < x}.
Глава 2. Числовые параметры законов распределения. Центр распределения. Моменты распределений
Функция распределения является самым универсальным способом описания поведения результатов измерений и случайных погрешностей. Однако для их определения необходимо проведение весьма длительных и кропотливых исследований и вычислений. В большинстве случаев бывает достаточно охарактеризовать случайные величины специальными параметрами, основными из которых являются:
? центр распределения;
? начальные и центральные моменты и производные от них коэффициенты - математическое ожидание (МО), среднее квадратическое отклонение (СКО), эксцесс, контрэксцесс и коэффициент асимметрии.
Координата центра распределения Xц определяет положение случайной величины на числовой оси и может быть найдена несколькими способами. Наиболее фундаментальным является определение центра по принципу симметрии вероятностей, т.е. нахождение такой точки XM на оси х, слева и справа от которой вероятности появления различных значений случайных погрешностей равны между собой и составляют P1 = P2 = 0,5:
Точка XM называется медианой, или 50%-ным квантилем. Для его нахождения у распределения случайной величины должен существовать только нулевой начальный момент. Координата Хц может быть определена и как центр тяжести распределения, т.е. как математическое ожидание случайной величины. Это такая точка X, относительно которой опрокидывающий момент геометрической фигуры, огибающей которой является кривая f (x), равен нулю:
У некоторых распределений, например, у распределения Коши, не существует МО, так как определяющий его интеграл расходится.
При симметричной кривой плотности распределения вероятностей f (x) оценкой центра распределения может служить абсцисса моды распределения, т.е. координата максимума плотности распределения Xm. Однако есть распределения, у которых не существует моды, например, равномерное. Распределения с одним максимумом называются одномодальными, с двумя - двухмодальные. Те распределения, у которых в средней части расположен не максимум, а минимум, называются антимодальными.
Для двухмодальных распределений применяется оценка центра в виде центра сгибов:
где xc1, xc2 - сгибы, т.е. абсциссы точек, в которых распределение достигает максимумов.
Для ограниченных распределений применяется оценка в виде центра размаха:
где x1, x2 - первый и последний члены вариационного ряда, соответствующего распределению.
При выборе оценки центра распределения необходимо учитывать ее чувствительность к наличию промахов в обрабатываемой совокупности данных. Исключительно чувствительны к наличию промахов: оценка в виде центра размаха Xp (определяется по наблюдениям, наиболее удаленным от центра, каковыми и являются промахи); оценка в виде среднего арифметического (ослабляется лишь из n раз). Защищенными от влияния промахов являются квантильные оценки: медиана XM и центр сгибов Xc, поскольку они не зависят от координат промахов.
При статистической обработке данных важно использовать наиболее эффективные, т.е. имеющие минимальную дисперсию, оценки центра распределения, так как погрешность в определении Xц влечет за собой неправильную оценку СКО, границ доверительного интервала, эксцесса и т.д.
Все моменты представляют собой некоторые средние значения, причем, если усредняются величины, отсчитываемые от начала координат, моменты называются начальными, а если от центра распределения - то центральными.
Начальные моменты k-го порядка определяются формулами
где pi - вероятность появления дискретной величины. Здесь и ниже первая формула относится к непрерывным, а вторая к дискретным случайным величинам. Из начальных моментов наибольший интерес представляет математическое ожидание МО случайной величины (k = 1):
Центральные моменты k-го порядка рассчитываются по формулам
Из центральных моментов особенно важную роль играет второй момент (k=2), дисперсия случайной величины D
Дисперсия случайной величины характеризует рассеяние отдельных ее значений. Дисперсия имеет размерность квадрата случайной величины и выражает как бы мощность рассеяния относительно постоянной составляющей. Однако чаще пользуются положительным корнем квадратным из дисперсии - средним квадратическим отклонением (СКО) у = D, которое имеет размерность самой случайной величины.
Третий центральный момент
служит характеристикой асимметрии, или скошенности распределения. С его использованием вводится коэффициент асимметрии х = м3 / у?. Для нормального распределения коэффициент асимметрии равен нулю. Вид законов распределения при различных значениях коэффициента асимметрии приведен на рис. 6, а.
Четвертый центральный момент
служит для характеристики плосковершинности или островершинности распределения. Эти свойства описываются с помощью эксцесса е = м 4 / у4.
Его значения лежат в диапазоне от 1 до ?. Для нормального распределения е = 3. Вид дифференциальной функции распределения при различных значениях эксцесса показан на рис. 6, б.
Рис. 6. Вид дифференциальной функции распределения при различных значениях коэффициента асимметрии (а) и эксцесса (б)
Дадим более строгое определение постоянной систематической и случайной погрешностей.
Систематической постоянной погрешностью называется отклонение математического ожидания результатов наблюдений от истинного значения измеряемой величины:
И = m1 ?Q,
а случайной погрешностью - разность между результатом единичного наблюдения и математическим ожиданием результатов:
Дx = xi ? m1.
В этих обозначениях истинное значение измеряемой величины составляет
Q = xi ? И ? Дx.
Глава 3. Оценка результата измерения
На практике все результаты измерений и случайные погрешности являются величинами дискретными, т.е. величинами xi, возможные значения которых отделимы друг от друга и поддаются счету. При использовании дискретных случайных величин возникает задача нахождения точечных оценок параметров, их функций распределения на основании выборок - ряда значений xi, принимаемых случайной величиной x в n независимых опытах. Используемая выборка должна быть репрезентативной (представительной), т.е. должна достаточно хорошо представлять пропорции генеральной совокупности.
Оценка параметра называется точечной, если она выражается одним числом. Задача нахождения точечных оценок - частный случай статистической задачи нахождения оценок параметров функции распределения случайной величины на основании выборки.
К оценкам, получаемым по статистическим данным, предъявляются требования состоятельности, несмещенности и эффективности. Оценка называется состоятельной, если при увеличении числа наблюдений она стремится к истинному значению оцениваемой величины.
Оценка называется несмещенной, если ее математическое ожидание равно истинному значению оцениваемой величины. В том случае, когда можно найти несколько несмещенных оценок, лучшей из них считается та, которая имеет наименьшую дисперсию. Чем меньше дисперсия оценки, тем более эффективной считают эту оценку.
Точечной оценкой математического ожидания МО результата измерений является среднее арифметическое значение измеряемой величины
При любом законе распределения оно является состоятельной и несмещенной оценкой, а также наиболее эффективной по критерию наименьших квадратов.
Точечная оценка дисперсии, определяемая по формуле
является несмещенной и состоятельной.
Оценка среднего квадратического отклонения СКО
Полученные оценки МО и СКО являются случайными величинами. Это проявляется в том, что при повторении несколько раз серий из n наблюдений каждый раз будут получаться различные оценки X и у. Рассеяние этих оценок целесообразно оценивать СКО Sx. Оценка СКО среднего арифметического значения
Полученные оценки позволяют записать итог измерений в виде
Интервал, определяемый правой частью этого равенства, с некоторой вероятностью «накрывает» истинное значение Q измеряемой величины. Однако точечные оценки ничего не говорят о значении этой вероятности.
Рассмотренные точечные оценки параметров распределения дают оценку в виде числа, наиболее близкого к значению неизвестного параметра. Такие оценки используют только при большом числе измерений. Чем меньше объем выборки, тем легче допустить ошибку при выборе параметра.
Способы нахождения оценок результата зависят от вида функции распределения и от имеющихся соглашений по этому вопросу, регламентируемых в рамках законодательной метрологии.
Распределения погрешностей результатов наблюдений, как правило, являются симметричными относительно центра распределения, поэтому истинное значение измеряемой величины может быть определено как координата центра рассеивания Xц, т.е. центра симметрии распределения случайной погрешности (при условии, что систематическая погрешность исключена). Отсюда следует принятое в метрологии правило оценивания случайной погрешности в виде интервала, симметричного относительно результата измерения (Xц ± Дx).
В практике измерений встречаются различные формы кривых распределения случайных величин, целесообразно классифицировать их следующим образом:
? трапецеидальные, например, равномерное, треугольное (Симпсона);
? экспоненциальные, например, распределение Лапласа, распределение Гаусса (нормальное);
? семейство распределений Стьюдента (предельное распределение семейства законов Стьюдента - распределение Коши);
? двухмодальные, например, дискретное двузначное распределение, арксинусоидальное распределение, остро- и кругло-вершинные двухмодальные распределения.
Однако чаще всего имеют дело с нормальным и равномерным распределением плотности вероятностей.
Учитывая многовариантность подходов к выбору оценок и в целях обеспечения единства измерений, правила обработки результатов наблюдений обычно регламентируются нормативно-техническими документами (стандартами, методическими указаниями, инструкциями). Так, в стандарте на методы обработки результатов прямых измерений с многократными наблюдениями указывается, что приведенные в нем методы обработки установлены для результатов наблюдений, принадлежащих нормальному распределению.
Глава 4. Характеристики нормального распределения
Нормальное распределение плотности вероятности или распределение Гаусса (рис. 7) характеризуется тем, что, согласно центральной предельной теореме теории вероятностей, такое распределение имеет сумма бесконечно большого числа бесконечно малых случайных возмущений с любыми распределениями.
Рис. 7. Кривые нормального распределения
Применительно к измерениям это означает, что нормальное распределение случайных погрешностей возникает тогда, когда на результат измерения действует множество случайных возмущений, ни одно из которых не является преобладающим. Практически, суммарное воздействие даже сравнительно небольшого числа возмущений приводит к закону распределения результатов и погрешностей измерений, близкому к нормальному.
В аналитической форме нормальный закон распределения выражается формулой
где х - случайная величина; mx - математическое ожидание случайной величины; у - среднее квадратическое отклонение (СКО); е=2,71828 - основание натурального логарифма; р = 3,14159. Перенеся начало координат в центр распределения mx, и откладывая по оси абсцисс погрешность
Дx = x ? mx, получим кривую нормального распределения погрешностей
Для группы из n наблюдений, распределённых по нормальному закону
Рассмотрим несколько свойств нормального распределения погрешностей.
Кривая нормального распределения погрешностей симметрична относительно оси ординат. Это означает, что погрешности, одинаковые по величине, но противоположные по знаку, имеют одинаковую плотность вероятностей, т.е. при большом числе наблюдений встречаются одинаково часто. Математическое ожидание случайной погрешности равно нулю.
Из характера кривой следует, что при нормальном законе распределения малые погрешности будут встречаться чаще, чем большие. Так, вероятность появления погрешностей, укладывающихся в интервал от 0 до Дx1 (рис. 7), характеризуемая площадью S1, будет значительно больше, чем вероятность появления погрешностей в интервале от Дx2 до Дx3 (площадь S2). На рис. 8 изображены кривые нормального распределения с различными средними квадратическими отклонениями, причем у1 > у2 > у3.
Рис. 4.8. Рассеяние результатов наблюдений
Сравнивая кривые между собой можно убедиться, что чем меньше СКО, тем меньше рассеяние результатов наблюдений и тем больше вероятность того, что большинство случайных погрешностей в них будет мало.
Естественно заключить, что качество измерений тем выше, чем меньше СКО случайных погрешностей. Если вместо случайной величины ввести так называемую нормированную случайную величину
то она также будет распределена по нормальному закону с центром распределения mx, абсцисса которого mx = 0, а у =1. Поэтому формулу, определяющую плотность вероятности, а также формулу функции распределения величины t можно записать так:
Определенный интеграл с переменным верхним пределом, имеющий вид
и определяющий значение площади под кривой плотности вероятности, называют функцией Лапласа.
Функция распределения F(t) связана с функцией Лапласа формулой
F(t) = 0,5 +Ф(t). (4.14)
Эта формула позволяет при наличии таблицы значений Ф(t), соответствующих различным значениям t, рассчитать F(t). Таблицы плотности вероятностей f(t) и функции Ф(t) нормированной случайной величины, распределенной по нормальному закону, дают возможность найти плотность вероятности f(x) и значения функции распределения F(x) любой случайной величины, распределенной по нормальному закону, если известны значения ее центра распределения mx и параметра у.
Если случайная величина х принимает значения лишь в пределах некоторого конечного интервала от x1, до x2 с постоянной плотностью вероятностей (рис. 9), то такое распределение называется равномерным и описывается соотношениями