.RU

Исследование устойчивости имитацией повторного сбора данных - Деревянко А. П. Холюшкин Ю. П. Воронин в т. Ростовцев...


^ Исследование устойчивости имитацией повторного сбора данных.
Имитация повторного сбора данных предполагает, что наши данные представительны, т.е. их распределение близко к распределению генеральной совокупности. Для археологической информации это означает, например, предположение о том, что данные отражают структуру каменной индустрии в заданной пространственно-временной точке. Если исходить из этого предположения, то выборка с возвращением из совокупности объектов будет имитировать вторичный сбор данных.

Выборка с возвращением состоит в случайном выборе заданного числа объектов из данных и записи информации об этих признаках в файл, причем при каждом извлечении из данных объект остается в исходных данных, переписывается лишь информация о нем. Для полной имитации сбора информации объем этой выборки берется равным объему исходных данных.

Многократное вычисление различных статистик, оценок параметров на сгенерированных данных позволяет оценить вариабельность данных. Этот метод носит название метода Boot Strap. Благодаря его использованию удается значительно упростить статистические выводы, весьма сложные задачи могут решаться просто и быстро.
^ Выборка с возвращением.
Выборка с возвращением приводит к новой, сгенерированной совокупности объектов, в которой часть объектов исходной совокупности может повториться несколько раз, а часть - отсутствует. При ее организации нет необходимости m раз (по числу объектов) обращаться к данным, извлекая очередной объект Xi. достаточно прочесть объекты последовательно, приписывая каждому объекту заранее сгенерированную кратность повторения объекта.
^ Исходная и "возмущенная кластерные структуры".
Допустим, мы провели кластерный анализ совокупности, получив исходную кластерную структуру. Это означает, что мы каждому объекту Xi приписали номер r(i).

Поскольку объекты сгенерированной совокупности (выборки с возвращением) являются объектами исходной совокупности, можно считать, что сгенерированная совокупность расклассифицирована в соответствии с номерами r(i). Эта классификация не будет оптимальной с точки зрения функции SSQ(R), вычисленной по формуле (1.2).

Используя в качестве начального разбиения на сгенерированной совокупности эту классификацию, можно применить алгоритм кластерного анализа. Характерно, что кластерам исходной классификации R = {R1,..., Rk} соответствуют кластеры сгенерированной классификации S = {S1,..., Sk}.

По тому, насколько изменится исходная кластерная структура, насколько не совпадают R и S, можно судить о ее устойчивости. Однако, как замечено выше, часть объектов исходных данных в сгенерированных данных отсутствует. Для проверки устойчивости этих объектов мы сталкиваемся с необходимостью перенести структуру кластеров сгенерированной совокупности на исходные данные   получить "возмущенную" кластерную структуру.

Полную информацию о кластерной структуре содержат центры кластеров. Поэтому обратный переход происходит следующим образом. В качестве центров кластеров возмущенной кластерной структуры возьмем центры классов S1,..., Sk распределим объекты исходной совокупности в соответствии с методом k средних (шаг 2) по близости к центрам. Перенесенную таким образом на исходные данные кластерную структуру будем называть возмущенной кластерной структурой. В соответствии с этой классификацией каждый объект исходной совокупности Xi получит номер s(i).
^ Статистики устойчивости.
Многократное повторение эксперимента по имитации сбора данных позволяет собрать информацию об устойчивости отдельных объектов, классов и классификации в целом. Пусть проведено F таких экспериментов.

^ Информация об устойчивости объекта.

Рассмотрим частоты f1(i),..., fk(i), с которыми объект Xi оказывался в классах S1,..., Sk соответственно (fl(i) - частота, с которой s(i) = l).

Величину Pr(i,l) = fl(i)/F назовем степенью предпочтения i-тым объектом l-го класса. Эта величина является, при сделанных предположениях о репрезентативности выборки данных, оценкой вероятности смены объектом Xi кластера при l, не совпадающим с r(i), и вероятностью остаться в кластере при значении l, равном r(i). Стабильность объекта, таким образом, характеризуется степенью предпочтения i-м объектом класса r(i) (класса исходной классификации) - Pr(i,r(i)).

С точки зрения археологии, предпочтения Pr(i,l) отражают устойчивость классификации отдельных объектов и близость их к другим кластерам.

^ Стабильность классов.

Обозначим Flt - общее число переходов объектов Rl в St во всех экспериментах.

Матрица , (l = 1,..., k; t = 1,..., k) по сути дела является таблицей сопряженности исходной (R) и "возмущенной" (S) классификаций вычисленной по множеству объектов - состояний перехода.

С ней можно обращаться точно также, как с обычной матрицей сопряженности признаков. В частности, можно проверить по критерию хи-квадрат гипотезу о независимости классификаций R и S. Таким образом, статистика хи-квадрат здесь является статистикой, по которой можно проверить гипотезу отсутствия кластерной структуры.

Доля переходов из класса Rl в класс St - Prt(St/Rl) = Flt/Fl. - является оценкой вероятности соответствующего перехода, здесь Fl. - сумма элементов матрицы по строке (число исходов из Rl).

Эту величину можно также представить в виде среднего по F испытаниям долей объектов, совершивших такой переход. В историко-археологических исследованиях эта доля может показывать, какая в среднем часть выявленного кластерным анализом типа предметов древней культуры может быть присоединена к другому типу (при несовпадении номера исходного и "возмущенного" типа), насколько стабильно содержание типа (при совпадении l и t).

^ Стабильность/нестабильность классификации.

Стабильность Stb(R) классификации в целом мы оцениваем долей переходов, оставивших объекты в исходном кластере. Величина Stb(R) выражается формулой:

Stb(R) = (1.13)

Нестабильность, или оценка вероятности объектов не перейти в другой класс, оценивается по формуле:

Ust(R) =1-Stb(R) (1.14).

В настоящее время еще не накоплен опыт в определении, какой уровень стабильности/нестабильности удовлетворителен, какой - неудовлетворителен. Традиции в данной области археологической науки сложатся в результате опыта обработки конкретных данных.

Доверительные интервалы - вторичные статистики.

Характеристики устойчивости объектов Pr(i,l), классов Prt(St/Rl) и классификации в целом Stb(R) можно рассматривать с точки зрения наличия генеральной совокупности - результата бесконечного числа экспериментов, считая эти показатели оценками соответствующих параметров, полученных на выборке объема F.

При этом подходе целесообразно вычислить доверительные интервалы "истинных" значений параметров и стандартные ошибки их оценок.

Доверительные интервалы вероятности p(i,l) объекта Xi случайно перейти в класс Sl получаются на основании статистики fl(i), имеющей биномиальное распределение с параметрами F и p(i,l) - B(F,p(i,l)). Оценкой p(i,l) является Pr(i,l), а ее стандартной ошибкой   .

Математическое ожидание EStb(Rl,St) доли объектов класса Rl, перемещающихся в класс St оценивается средним значением - долей в каждом испытании - Stb(Rl,St). Для оценки доверительных границ EStb(Rl,St) следует воспользоваться приближенной нормальностью долей в каждом испытании (при большом объеме исходной совокупности) и распределением Стьюдента (попутно будет вычислена и стандартная ошибка оценки).

Аналогичным образом можно поступить, оценивая "истинное" значение нестабильности классификации в целом.
^ Недостаток подхода, другие возможности.
Основным недостатком метода является невозможность учесть объекты, которые по тем или иным причинам не попали в выборку. Этот недостаток в принципе исправляется применением "сглаженного метода Boot Strap", однако для его использования нужно иметь гипотезы о распределении отсутствующих данных. Формулирование этих гипотез в настоящее время пока не представляется возможным.

Подход можно обобщить на исследование устойчивости не только по сгенерированным данным, но и по отношению к исследованию структуры различных пространственно-временных и других срезов данных.

iii-kadri-pravih-v-moskve-specializirovalsya-po-russkoj-istorii.html
iii-kakuyu-chast-novogo-zavetaranshe-vsego-priznali-avtoritetnoj-eta-kniga-zadumana-kak-vvedenie-v-takuyu-bogoslovskuyu.html
iii-karchaevi-v-balkarii-iz-istorii-roda-karchaevih.html
iii-klerikalnaya-kultura-v-kontekste-srednevekovoj-mentalnosti-kultura-srednevekovoj-zapadnoj-evropi-osobennosti.html
iii-kompetenciya-evropejskogo-soyuza.html
iii-konflikti-narusheniya-inkriminiruemie-sredstvam-massovoj-informacii-mezhdunarodnij-fond-zashiti-svobodi-slova-adil-soz.html
  • letter.bystrickaya.ru/o-kompleksnoj-celevoj-programme-razvitiya.html
  • uchitel.bystrickaya.ru/razdel-2-tipi-perevodov-metodicheskie-rekomendacii-studentu-po-izucheniyu-disciplini-teoriya-i-praktika-perevoda.html
  • thescience.bystrickaya.ru/kniga-rekordov-ginnesa-98-stranica-13.html
  • college.bystrickaya.ru/22-maya-2012-g-n-473-o-vozlozhenii-otvetstvennosti-za-svoevremennij-vvod-v-ekspluataciyu-v-2012-godu-obektov-gosudarstvennoj-investicionnoj-programmi-na-2012-god.html
  • shpargalka.bystrickaya.ru/uchebnoe-posobie-2007-orenburg-soderzhanie-tema-soderzhanie-i-znachenie-finansovoj-strategii-firmi-4-stranica-5.html
  • kolledzh.bystrickaya.ru/amortizacionnaya-politika-predpriyatiya-i-ee-razvitie-chast-4.html
  • zadachi.bystrickaya.ru/prikazivayu-stranica-2.html
  • desk.bystrickaya.ru/otchet-rukovoditelya-v-sootvetstvii-s-utverzhdennoj-formoj.html
  • literatura.bystrickaya.ru/sochinenie-na-temu-ya-blagodarna-uchitelyu.html
  • writing.bystrickaya.ru/bibliotekar-yuridicheskij-konsultant-2-2010-periodicheskie-izdaniya-postupivshie-v-centr-pravovoj-informacii-v-2010-godu.html
  • shpargalka.bystrickaya.ru/uchebno-tematicheskij-plan-disciplini-menedzhment-ochno-zaochnaya-forma-obucheniya.html
  • paragraph.bystrickaya.ru/leonida-filatova-pro-fedota-strelca-udalogo-molodca.html
  • esse.bystrickaya.ru/razdel-iii-inkrustaciya-iz-solomki-obrazovatelnaya-programma-hudozhestvennaya-obrabotka-drevesini-vozrastnoj-diapazon.html
  • ekzamen.bystrickaya.ru/smi-regionalnaya-pressa-monitoring-federalnoj-sluzhbi-po-tarifam-obzor-pressi-25-03-2011.html
  • occupation.bystrickaya.ru/metodicheskie-ukazaniya-i-zadanie-na-raschetnuyu-rabotu-po-discipline-teoriya-elektricheskoj-svyazi-dlya-studentov-dnevnoj.html
  • education.bystrickaya.ru/15-soderzhanie-disciplini-uchebno-metodicheskij-kompleks-rabochaya-uchebnaya-programma-dlya-studentov-ochnoj-i-zaochnoj.html
  • desk.bystrickaya.ru/osobennosti-krizisov-bankovskoj-sistemi-rossii-1998-i-2008-godov-prichini-i-posledstviya.html
  • kontrolnaya.bystrickaya.ru/psihoterapii-per-s-angl-spb-izdatelskij-dom-yuventa-m-ksp-2000-512-s-isvn-5-87399-097-2-stranica-25.html
  • student.bystrickaya.ru/19-iyulya-elo-yarosla-hilim-rebyonkom-pro-menya-v-polnoj-mere-mozhno-skazat-chto-ya-zhertva-medicini-neumerennie-priyomi.html
  • institut.bystrickaya.ru/statya-posvyashena-stilisticheskomu-priyomu-allyuzii-kotorij-rassmatrivaetsya-v-svete-teorii-intertekstualnosti-avtor-rassmatrivaet-razlichnie-podhodi-k-ponimaniyu-etogo-ponyatiya-privodit-klassifikacii-allyuzij.html
  • tests.bystrickaya.ru/lekciya-viii-xxi-nepismennoe-slovo-sohranyaetsya-na-segodnyashnij-moment-tolko-u-teh-narodov-kotorie-ne-hoteli.html
  • assessments.bystrickaya.ru/chast-iii-kompleks-ov-dlya-nuzhd-fgup-rchc-dfo-g-habarovsk-2012-chast-i-aukcion.html
  • laboratornaya.bystrickaya.ru/razdel-4-usloviya-i-faktori-opredelyayushie-socialno-ekonomicheskoe-razvitie-uchebnoe-posobie-dlya-magistrov-ekonomiki-sankt-peterburg.html
  • zadachi.bystrickaya.ru/tematicheskij-plan-programma-disciplini-istoriya-zapadnoj-kulturi-dlya-napravleniya-031400-62-kulturologiya.html
  • holiday.bystrickaya.ru/obzor-armij-na-pole-bitvi-kurukshetra-stranica-31.html
  • universitet.bystrickaya.ru/tablica-1-perechen-osnovnih-opasnostej-federalnoe-agentstvo-po-tehnicheskomu-regulirovaniyu-i-metrologii.html
  • writing.bystrickaya.ru/istoriya-razvitiya-sistem-zemledeliya.html
  • literatura.bystrickaya.ru/spasateli-na-bort-smit-sahalina-podnyali-tela-odinnadcati-pogibshih-gazeta-rg-dalnij-vostok-internet-versiya-20122011.html
  • composition.bystrickaya.ru/pod-osobim-kontrolem-nahodyatsya-uchrezhdeniya-gde-viyavleni-grubie-narusheniya-poryadka-proizvodstva-evn.html
  • occupation.bystrickaya.ru/obespechenie-obrazovatelnogo-processa-bibliotechno-informacionnimi-resursami-i-sredstvami-neobhodimimi-dlya-realizacii-obrazovatelnih-programm-pp-stranica-2.html
  • lecture.bystrickaya.ru/b3-finansovij-uchet-osnovnoj-obrazovatelnoj-programmi-po-napravleniyu-080100-ekonomika-profil-finansi-i-kredit.html
  • otsenki.bystrickaya.ru/risunok-554-doklad-o-polozhenii-detej-v-ivanovskoj-oblasti-ivanovo-2009.html
  • institut.bystrickaya.ru/statya-19-nenalogovie-dohodi-gosudarstvennogo-byudzheta-respubliki-saha-yakutiya-sokuon-a.html
  • essay.bystrickaya.ru/chast-v-tehnicheskaya-chast-konkursnaya-dokumentaciya-po-provedeniyu-otkritogo-konkursa-na-pravo-zaklyucheniya-gosudarstvennogo.html
  • literatura.bystrickaya.ru/rimskoe-pravo.html
  • © bystrickaya.ru
    Мобильный рефератник - для мобильных людей.