Научный журнал
Фундаментальные исследования
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,074

МЕТОДИКА ОЦЕНИВАНИЯ ПАРАМЕТРОВ СЛУЧАЙНОЙ ВЕЛИЧИНЫ СО СМЕШАННЫМ ДВУМОДАЛЬНЫМ ЗАКОНОМ РАСПРЕДЕЛЕНИЯ НА ОСНОВЕ СОВМЕСТНОГО ИСПОЛЬЗОВАНИЯ АППРОКСИМАЦИИ РОЗЕНБЛАТТА ‒ ПАРЗЕНА, МЕТОДА МНИМЫХ ИСТОЧНИКОВ И ГЕНЕТИЧЕСКИХ АЛГОРИТМОВ

Поршнев С.В. 1 Копосов А.С. 1
1 ФГАОУ ВПО «Уральский федеральный университет имени первого Президента России Б.Н. Ельцина» Институт радиоэлектроники и информационных технологий
В статье обсуждаются результаты совместного использования аппроксимации Розенблатта – Парзена и метода мнимых источников для оценки параметров случайной величины со смешанным двумодальным распределением. В исследовании изучались случайные последовательности, генерируемые в соответствии с задаваемыми двумодальными законами распределения. На первом этапе вычислялись оценки функции плотности распределения с помощью аппроксимации Розенблатта – Парзена, по которым оценивались математические ожидания. На втором этапе с помощью генетических алгоритмов, в которых целевая функция задавалась в соответствии с методом мнимых источников, вычислялись оценки остальных параметров. Точность нахождения параметров двумодальных распределений оценивалась на основе сравнения теоретических параметров распределений и соответствующих параметров, полученных экспериментально. Анализ результатов применения предложенной методики, основанной на совместном использовании аппроксимации Розенблатта – Парзена, метода мнимых источников и генетических алгоритмов, для оценки значений параметров двумодальных распределений позволяет сделать следующие выводы: при использовании генетических алгоритмов для нахождения одновременно всех девяти параметров изучаемого распределения погрешности оценок превышают 50 %, что является следствием высокой размерности решаемой задачи. Предложена методика последовательного нахождения параметров двумодального распределения.
функция распределения
аппроксимация Розенблатта – Парзена
генетический алгоритм
двумодальное распределение
метод мнимых источников
1. Крамер Г. Математические методы статистики. – М.: Мир, 1975. – 648 с.
2. Сызранцев В.Н. Расчет прочностной надежности изделий на основе методов непараметрической статистики / В.Н. Сызранцев, Я.П. Невелев, С.Л. Голофаст. – Новосибирск: Наука, 2008. – 218 с.
3. Поршнев С.В. Теория и алгоритмы аппроксимации эмпирических зависимостей и распределений / Е.В. Овечкина, В.Е. Каплан. – Екатеринбург: УрО РАН, 2006. – 166 с.
4. Симахин В.А. Робастные непараметрические оценки: адаптивные оценки взвешенного максимального правдоподобия в условиях статистической априорной неопределенности // Saarbrucken. – Germany: LAP LAMBERT Academic Publishing Gmb H&Co. KG, 2011. – 292 с.
5. Поршнев С.В., Копосов А.С. Использование аппроксимации Розенблатта – Парзена для восстановления функции распределения дискретной случайной величины // В мире научных открытий. – 2013. – № 10(46).
6. Поршнев С.В., Копосов А.С. Использование аппроксимации Розенблатта – Парзена для восстановления функции распределения непрерывной случайной величины с ограниченным одномодальным законом распределения // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2013. – № 08(092). – IDA [article ID]: 0921308076. Режим доступа: http://ej.kubagro.ru/ 2013/08/pdf/76.pdf.
7. Гладков Л.А., Курейчик В.В., Курейчик В.М. Генетические алгоритмы / под ред. В.М. Курейчика. – 2-е изд., исправл. и доп. – М.: ФИЗМАТЛИТ, 2010. – 368 с.
8. Rozenblatt M. Remarks on some nonparametric estimates of density function // Ann. Math. Statist. – 1956. – № 27. – Р. 832–835.
9. Parzen E. On estimation of probability density function and mode // Ann. Math. Statist. – 33, 3, 162. – Р. 1065–1076.

Восстановление функции распределения по выборке случайных данных, полученных в результате проведения тех или иных экспериментов, является основной задачей математической статистики [1], которая имеет важное практическое значение, например, при решении задач прочностной надежности элементов и объектов нефтегазового оборудования [2]. Обсуждаемая задача имеет следующую постановку: по экспериментальной выборке значений случайной величины porshnev01.wmf из генеральной совокупности найти функцию распределения F(y) = Pr{X ≤ y}, связанную с плотностью распределения f(y) интегральным отношением:

porshnev02.wmf. (1)

Известны два основных подхода к решению этой задачи: параметрический и непараметрический.

Параметрический подход предусматривает выбор на основе той априорной информации вида функции распределения случайной величины F(y), зависящей от некоторого набора параметров, и получении оценок их значений по имеющейся выборке данных, обеспечивающих максимальную близость теоретической функции распределения F(y) и эмпирической функции распределения

porshnev03.wmf (2)

где функция Хэвисайда

porshnev04.wmf

в соответствии с выбранной мерой близости, зависящей, вообще говоря, от вида распределения [3].

Существование решения обсуждаемой задачи обеспечивает центральная теорема математической статистики, согласно которой с ростом объема выборки N функция FN(y) с вероятностью, равной единице, равномерно приближается к F(y):

porshnev05.wmf

В основе непараметрической статистики лежит подход, позволяющий получать адаптивные оценки эмпирических распределений в виде некоторых функционалов, не зависящих от вида неизвестного априорного распределения [4]. Для восстановления неизвестной функции распределения в непараметрической статистике известен ряд методов и алгоритмов [4]: метод гистограмм, «гребенка», метод ближайших соседей, метод разложения по базисным функциям, аппроксимация Розенблатта – Парзена и ряд других. Работоспособность методов непараметрической статистики и целесообразность их применения при анализе экспериментальных данных подтверждается результатами, полученными различными исследователями (см. список литературы к разделу «Введение» в [4]). Например, в [2] показано, что аппроксимация Розенблатта – Парзена оказывается весьма эффективной в задаче оценки долговечности нефте- и газопроводов на основе анализа накопленной статистической информации.

Результаты исследования особенностей аппроксимации Розенблатта – Парзена в задаче аппроксимации одномодальных распределений дискретных и непрерывных случайных величин с ограниченной областью изложены в [5, 6] соответственно.

В связи с тем, что на практике, например при оценке прочностной надежности изделий [2] или анализе суточной выработки экскаваторов на горных работах [3], требуется получение оценок распределений случайных величин с двумодальными законами распределения, разработка методов оценки их параметров является актуальной задачей.

В данной статье приведено описание и обоснование методики оценки параметров двумодального распределения случайной величины, каждая мода которого имеет нормальный закон распределения с ограниченной областью рассеяния.

Функция изучаемого распределения записывается в следующем виде:

porshnev06.wmf (3)

где μ1 – математическое ожидание первой составляющей; σ1 – математическое ожидание первой составляющей; a1, b1 – границы области рассеяния первой составляющей; μ2 – математическое ожидание первой составляющей; σ2 – математическое ожидание первой составляющей; a2, b2 – границы области рассеяния первой составляющей; α – доля первой составляющей в общем распределении.

Пример двумодальной функции распределения случайной величины, каждая мода которого имеет нормальный закон распределения с ограниченной областью рассеяния, представлен на рис. 1.

Отметим, что в общем случае задача оценки параметров распределения сводится к решению той или иной системы нелинейных уравнений, для которых в подавляющем большинстве случаев приходится использовать соответствующие численные методы, например, итерационный метод Ньютона. Однако сходимость интеграционной последовательности к истинному решению оказывается очень сильно зависящей от выбора начального приближения. Вследствие этого в рассматриваемой задаче представляется перспективным использовать эвристические методы случайного поиска, результативность которых, как утверждается, не зависит от начального приближения и позволяет найти оптимальное решение при любых начальных условиях. Одним из таких методов являются генетические алгоритмы (ГА) [7], которые были использованы в проведенном исследовании.

На первом этапе исследования была изучена возможность одновременного получения оценок всех значений параметров двумодального распределения μ1, σ1, a1, b1, μ2, σ2, a2, b2, α с помощью ГА, в котором в качестве целевой функции использовались среднеквадратические отклонения отсортированной по возрастанию исходной последовательности и отсортированной по возрастанию последовательности, сгенерированной в соответствии с экспериментальным законом распределения (3):

porshnev07.wmf (4)

где N – число элементов в исходной выборке; x – исходная выборка; x* – выборка, сгенерированная с помощью метода обратного преобразования в соответствии с законом (3) и текущими значениями параметров распределения, задаваемых ГА.

pic_10.wmf

Рис. 1. Пример двумодального распределения: 1 – гистограмма случайной последовательности; 2 – плотность распределения случайной величины; 3 – график функции dF1(x, μ1, σ1, a1, b1)/dx; 4 – график функции dF2(x, μ2, σ2, a2, b2)/dx

Методика оценивания параметров двумодального распределения

Результаты многочисленных вычислительных экспериментов, проведенных при различных настройках ГА, показали, что получаемые значения были далеки от истинных – средняя погрешность вычислений составила боле 50 %. Этот результат, с нашей точки зрения, объясняется высокой размерностью пространства, в котором ищется минимум функции (7). Таким образом, прямое решение данной задачи с помощью ГА не является приемлемым. В этой связи возникла необходимость разработки методики решения рассматриваемой задачи, позволяющей уменьшить размерность пространства, в котором ищется минимум функции (4), за счет оценки одного или нескольких параметров, не используя ГА.

Для реализации данной идеи было предложено использовать метод Розенблатта ‒ Парзена, позволяющий аппроксимировать функции плотности распределения [8, 9, 6]. Результаты применения метода Розенблатта – Парзена к случайной последовательности с двумодальным распределением представлен на рис. 2.

pic_11.wmf

Рис. 2. Плотность двумодального распределения: 1 – теоретическая плотность двумодального распределения; 2 – аппроксимация Розенблатта – Парзена плотности распределения случайной последовательности, сгенерированной в соответствии с теоретическим законом распределения

Из рис. 2 видно, что на основе анализа аппроксимирующей кривой можно получать оценки математических ожиданий каждой из мод исходного распределения μ1,2, а также левую границу первой составляющей a1 и правую границу второй составляющей b2. Таким образом, с помощью ГА остается вычислить следующие параметры распределения σ1, b1, σ2, a2, α, т.е. удается уменьшить размерность задачи с 9 до 5.

Таким образом, методика нахождения параметров двумодального распределения случайной последовательности porshnev08.wmf (3) реализуется выполнением следующей последовательности действий:

1. Вычисление в соответствии с методом Розенблатта – Парзена значений функции, аппроксимирующей плотность распределения (3), – FRP(x).

2. Вычисление оценок значений параметров porshnev09.wmf – абсцисс локальных максимумов функции FRP(x).

3. Вычисление оценки левой границы области рассеяния моды распределения (3), описываемой функцией

porshnev10.wmf

4. Вычисление оценки правой границы области рассеяния моды распределения (3), описываемой функцией

porshnev11.wmf

5. Вычислить, используя ГА, значения параметров σ1, b1, σ2, a2, α.

В ходе проведенных исследований мы использовали следующие настройки ГА:

  • селекция: S = <равномерная; турнирная; на основе рулетки>;
  • мутация: M = <адаптивная>, т.к. в задаче присутствуют ограничения;
  • кроссовер: C = <одноточечный; двухточечный; усредненный; разбросанный, эвристический>;
  • доля кроссовера: Cfr = <0,3; 0,6; 0,9> (оставшаяся часть приходилась на мутацию);
  • размер популяции: P = <5, 15, 30>.

Таким образом, каждому из проведенных экспериментов можно поставить в соответствие определенный набор настроек – кортеж ⟨SS, Mm, CC, Cfrf, PPñ. Всего в проведенных экспериментах было рассмотрено

porshnev12.wmf

различных комбинаций настроек. Для каждого набора настроек было выполнено 50 независимых испытаний. Для повышения достоверности в качестве значений параметров porshnev13.wmf принимались средние по ансамблю испытаний значения.

Для количественной оценки качества найденных значений параметров porshnev14.wmf решения мы использовали величину Δx:

porshnev15.wmf (5)

где porshnev16.wmf

Для количественной оценки качества найденного значения параметра porshnev17.wmf мы использовали величину Δα:

porshnev18.wmf (6)

где αmax = 1.

Результаты расчетов погрешностей параметров porshnev19.wmf в соответствии с (5), (6) для тестовых последовательностей, генерируемых в соответствии с (3), где μ1 = 7, σ1 = 2, a1 = 3, b1 = 14, μ2 = 714, σ2 = 1, a2 = 6, b2 = 18, α = 0,5, представлены на рис. 3.

Из рис. 3 видно, что виды селекции и кроссовера не оказывают существенного влияния на погрешность вычисления параметров porshnev20.wmf. В то время как при увеличении доли кроссовера и числа особей в популяции точность вычисления ключевых параметров σ1, σ2, α увеличивается при одновременном увеличении времени расчетов. Приведем средние значения погрешностей параметров:

porshnev21.wmf porshnev22.wmf

porshnev23.wmf porshnev24.wmf

porshnev25.wmf

Для интегрального оценивания качества предложенной методики был использован следующий показатель:

porshnev26.wmf

значения которого в проведенных вычислительных экспериментах изменялись в диапазоне

porshnev27.wmf

где porshnev28.wmf porshnev29.wmf Наилучший результат porshnev30.wmf получен при следующих настройках ГА:

porshnev31.wmf

наихудший porshnev32.wmf

porshnev33.wmf

аpic_13.wmf б
вpic_12.wmf г

Рис. 3. а – погрешности в разрезе вида селекции – равномерной, на основе рулетки и турнирной селекции; б – погрешности в разрезе вида кроссовера – эвристический, усредненный, разбросанный, одноточечный и двухточечный; в – погрешности в разрезе доли кроссовера – 0,3; 0,6 и 0,9; г – погрешности в разрезе размера популяции – 5, 15 и 30 особей

Соответствующие параметры распределений представлены в таблице.

Теоретическая и экспериментальная плотности распределения представлены на рис. 4.

Наилучший и наихудший интегральные показатели

Параметры

porshnev34.wmf

porshnev35.wmf

porshnev36.wmf

porshnev37.wmf

porshnev38.wmf

porshnev39.wmf

porshnev40.wmf

porshnev41.wmf

porshnev42.wmf

Δintegr

Теоретические значения

7

2

3

14

14

1

6

18

0,5

Наихудший результат

7,225

1,869

3,023

6,109

14,014

0,956

9,014

17,977

0,813

1,776

Наилучший результат

7,225

2,113

3,023

15,203

14,014

1,051

5,269

17,977

0,474

0,006

pic_16.wmf

Рис. 4. 1 – Теоретическая и экспериментальная porshnev43.wmf плотности: теоретическая плотность распределения; 2 – экспериментальная плотность распределения

Таким образом, полученные результаты позволяют сделать вывод о том, что предложенная методика в целом обеспечивает вполне приемлемый результат и ее можно использовать для оценивания параметров двумодальных распределений вида (3).

Выводы

Анализ результатов совместного применения аппроксимации Розенблатта – Парзена, метода мнимых источников и генетических алгоритмов в задаче оценивания значений параметров распределений случайных последовательностей двумодальными законами распределения вида (3), относящегося к классу 9-ти параметрических распределений, позволяет сделать следующие выводы:

  1. При использовании генетических алгоритмов для нахождения одновременно всех параметров изучаемого распределения погрешности оценок превышают 50 %, что является следствием высокой размерности решаемой задачи.
  2. Предложена методика нахождения параметров изучаемого двумодального распределения случайных последовательностей, основанная на совместном использовании аппроксимации Розенблатта – Парзена и ГА, и получено подтверждение ее работоспособности.
  3. Получены оценки точности нахождения параметров распределения, а также интегрального показателя, характеризующего в целом качество оценки плотности распределения случайной последовательности с изученным законом распределения.

Рецензенты:

Кубланов В.С., д.т.н., доцент, профессор кафедры радиоэлектроники информационных систем, ГАОУ ВПО «Уральский федеральный университет им. первого Президента России Б.Н. Ельцина», г. Екатеринбург;

Доросинский Л.Г., д.т.н., профессор, заведующий кафедрой информационных технологий, ГАОУ ВПО «Уральский федеральный университет им. первого Президента России Б.Н. Ельцина», г. Екатеринбург.

Работа поступила в редакцию 28.05.2014.


Библиографическая ссылка

Поршнев С.В., Копосов А.С. МЕТОДИКА ОЦЕНИВАНИЯ ПАРАМЕТРОВ СЛУЧАЙНОЙ ВЕЛИЧИНЫ СО СМЕШАННЫМ ДВУМОДАЛЬНЫМ ЗАКОНОМ РАСПРЕДЕЛЕНИЯ НА ОСНОВЕ СОВМЕСТНОГО ИСПОЛЬЗОВАНИЯ АППРОКСИМАЦИИ РОЗЕНБЛАТТА ‒ ПАРЗЕНА, МЕТОДА МНИМЫХ ИСТОЧНИКОВ И ГЕНЕТИЧЕСКИХ АЛГОРИТМОВ // Фундаментальные исследования. – 2014. – № 8-3. – С. 583-589;
URL: http://www.fundamental-research.ru/ru/article/view?id=34598 (дата обращения: 18.10.2019).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1.074