Возможности анализа данных медико-биологических экспериментов в программе Statistica

Реферат

Развитие медицины невозможно без проведения биомедицинских экспериментов, эпидемиологических анализов, оценки эффективности фармакологических препаратов и других исследований как на доклиническом, так и на клиническом уровне.

Объектом научного исследования обычно является не отдельное явление, конкретная ситуация, а целый класс подобных явлений и ситуаций, их совокупность. Цель и непосредственные задачи научного исследования состоят в том, чтобы найти общее у ряда единичных явлений, выявить законы, по которым они возникают, развиваются и функционируют [1, 2, 3 ]. Важнейшим обстоятельством, определившим необходимость применения математико-статистических методов, явилось установление факта, что многим биологическим системам свойственны статистические закономерности, обнаруживаемые при изучении совокупностей, но неприменимые к отдельным единицам этих совокупностей [2].

Отличительными признаками научного исследования являются:

1. целенаправленность процесса (достижение поставленной цели, выполнение четко сформулированных задач)

2. направленность на поиск, на творчество, на выдвижение идей

3. систематичность как самого процесса исследования, так и его результатов

4. строгая доказательность, обоснованность выводов [4, 5, 6]

Развитие идей критической оценки медицинской информации привело к возникновению в конце 80-х годов XX века концепции доказательной медицины (ДМ).

Основными постулатами ДМ являются следующие [7]:

  • каждое решение врача должно основываться на научных данных;
  • вес каждого факта тем больше, чем строже методика научного исследования, в ходе которого он получен.

EBM — это концепция для врачей, исследователей, медицинских учреждений, органов власти и пациентов. Основная цель концепции ДМ состоит в том, чтобы постепенно превратить врачебную деятельность из искусства в науку [7].

Любое исследование в зависимости от того, насколько надежны полученные в нем результаты и насколько они применимы в клинической практике, можно охарактеризовать с двух точек зрения:

  • достоверности (внутренней обоснованности)
  • о6общаемости (внешней обоснованности, применимости)

Достоверность (внутренняя обоснованность), Обобщаемость (внешняя обоснованность), Достоверность

Широкая доступность компьютерных технологий позволяет обрабатывать большие объемы данных и использовать различные методы анализа. Кроме того, программа того или иного метода обработки позволяет без дополнительных усилий многократно повторять расчеты с небольшими изменениями. Существуют программные пакеты для большинства стандартных статистических методов, хотя иногда им не хватает гибкости, которую они в идеале должны допускать. Для большинства задач с небольшими объемами данных и относительно простыми методами обработки достаточно обычного калькулятора. Для данных среднего размера предпочтительно использовать стандартные программные пакеты. Однако следует избегать использования сложных методов анализа только потому, что имеются соответствующие программы [6].

10 стр., 4763 слов

Основные формы статистической отчетности и методы обработки первичной ...

... статистической отчетности, характеризующие различные аспекты ее деятельности. Все формы статистической отчетности утверждаются органами государственной статистики. По своему содержанию формы отчетности бывают типовыми (общими) и специализированными. Общая отчетность -- это отчетность, содержащая одни и те же данные ...

StatSoft, Inc.,

Однако при использовании программного обеспечения STATISTICA, как и любого другого пакета статистических программ, решение остается за исследователем. Программа освобождает исследователя от рутинной вычислительной работы, но интерпретация полученных результатов зависит от его опыта и знаний.

Использование статистики в медико-биологических исследованиях не ограничивается анализом результатов. Статистические методы также следует использовать на этапе планирования биологического эксперимента или медицинского исследования. Следует подчеркнуть, что с точки зрения клинической эпидемиологии для получения надежных, научно обоснованных результатов необходимы 2 компонента:

  • правильное планирование структуры исследования (обеспечивающей возможность получения ответов на поставленные вопросы)
  • грамотный статистический анализ [6].

statistica статистика медицинский биологический

Всякое исследование должно удовлетворить следующим требованиям:

целеустремленность

эффективность

экономность

4. Полученная последовательность случайных чисел может использоваться разными способами:

5. — четные числа могут соответствовать одной группе, а нечетные — другой (в случае двух групп);

  • при числах в диапазоне от 0 до 99, числа меньшие 50, могут соответствовать одной группе, а большие или равные 50 — другой (в случае двух групп);

— В результате простой рандомизации группы могут значительно различаться по числу участников, причем различие оказывается весьма существенным, если выборки невелики по объему. В связи с этим простую рандомизацию рекомендуется использовать лишь в масштабных КИ [7].

Формулирование целей
Планирование
Выполнение (сбор данных)
Подготовка данных
Анализ данных
Интерпретация результатов
Формулировка выводов
Публикация

Рис. 1—Этапы научного исследования [7].

STATISTICA

STATISTICA

Рекомендовано вносить в качестве исходных данных результаты эксперимента без предварительной обработки с необходимым уровнем точности [6].

Первым шагом перед анализом статистических данных является анализ типа данных. это необходимо для того, чтобы определить способ представления и статистический метод обработки данных. Не рекомендовано проведение таких предварительных расчетов как:

1. Предварительное разделение области значений непрерывной количественной характеристики на интервалы. В этом случае, во-первых, происходит потеря информации, а во-вторых, возможности статистического пакета позволяют автоматически разбивать области значений количественных атрибутов на диапазоны.

STATISTICA.

Ошибки ввода (набора) можно выявить следующим способом—дважды щелкнув по имени столбца в открывшемся диалоговом окне выбрать Values/Stats. Ошибки (выпадающие значение) могут попасть в минимальные или максимальные, а ошибки типа двойной запятой—выносятся в правый столбец.

Достоверность внутренняя обоснованность  1

Рис.2—Типы данных [7].

STATISTICA

1. Начальная обработка, т.е. представление исходных данных в подходящей для анализа форме, и проведение проверки качества данных.

2. Предварительный анализ данных, направленный на уточнение общей формы данных и предложение более детальных методов анализа. Часто этот предварительный анализ успешно выполняется с помощью простых методов построения графиков или табулирования данных.

3. Итоговый анализ (статистическая обработка), цель которого – дать основу для выводов.

4. Представление выводов в краткой и ясной форме. Обычно это приводит к необходимости интерпретации выводов на языке рассматриваемой области исследования [6].

Любой статистический анализ начинается с определения основных параметров описательной статистики, таких как мода, медиана, значения перцентилей и т. д. вычисление параметров описательной статистики осуществляется в модуле Basic Statistics/Tables (Основные статистики и таблицы).

В модуле Basic Statistics/Tables в разделе Summary.Descriptive на вкладке Advaced позволяет вычислить следующие параметры описательной статистики:

  • Valid N — общее число вариантов в выборке;
  • Mean — среднее арифметическое;
  • Sum — сумма всех значений вари;
  • Median — медиана;
  • Standard Deviation — среднее квадратическое отклонение выборки;
  • Variance — дисперсия выборки;
  • Standard error of mean — ошибка среднего арифметического;
  • 95% confidence limits of mean — 95% доверительный интервал для среднего;
  • Minimum & maximum — минимум и максимум;
  • Lower & upper quartiles — границы 1 и 3 квартилей;
  • Range — размах выборки (определяется как разность между максимальным и минимальным значениями вариантов);
  • Quartile range — диапазон квартилей;
  • Skewness — коэффициент асимметрии
  • Kurtosis — коэффициент эксцесса
  • Standard error of skewness — стандартная ошибка асимметрии
  • Standard error of kurtosis — стандартная ошибка эксцесса [7].

Существует множество методов статистического анализа данных. В каждом конкретном случае вы можете выбрать несколько возможных вариантов анализа. Однако, если критерии использования определенного метода не соблюдены, результат может быть неточным.

Наиболее характерными являются ошибки:

  • использование параметрических методов (основанных на предположении о нормальном распределении данных) для анализа данных, не подчиняющихся нормальному распределению (1);
  • использование методов, предназначенных для независимых выборок, при анализе парных данных (2) [10, 11].

STATISTICA

В пакете STATISTICA можно сопоставить данные не только с нормальным, но и с некоторыми другими законами распределения c помощью Distributiom fitting (в меню Statistics).

Если данные представляют собой дискретные значения, распределение выбирается в разделе «Дискретные распределения», если они являются непрерывными значениями, то в разделе «Непрерывные распределения. Несмотря на то что критерии Колмогорова—Смирнова и c 2 достаточно четко позволяют ответить на вопрос, каким законом описываются полученные данные, их недостатком является то, что при малых значениях выборки достоверность оценки снижается.

При нормальном распределении данных коэффициент асимметрии должен быть равен нулю, а коэффициент эксцесса — трем, что является еще одним методом проверки типа распределения.

коэффициент корреляции Пирсона

Достоверность внутренняя обоснованность  2

Рис.3 – Влияние выпадающего значения на линейное уравнение регрессии [9].

На рисунке проиллюстрирован случай, когда высокое значение коэффициента по Пирсону обусловленным единственной «выпадающей» точкой (выделена кружком).

Показана линейная регрессия с учетом этого образца (тонкая верхняяя линия) и без него (толстая нижняя линия) [9].

коэффициента корреляции Кендалла

Следует помнить, что наличие корреляции двух переменных не означает их причинно-следственнойсвязи [8] .

Существуют следующие способы сравнения двух групп по количественным признакам: вычисление доверительного интервала для разности средних или проверка гипотез (параметрическими или непараметрическими методами).

В случае соответствия нормальному закону распределения переменных в каждой группе сравнение групп проводится по критериям Стьюдента (статистический модуль Basic Statistics/Tables).

В противном случае — использовать непараметрические критерии, которые находятся в модуле Nonparametrics [5].

При сравнении более двух групп по количественным признакам используют однофакторный дисперсионный анализ (параметрический или непараметрический) в случае независимых групп и непараметрический метод Фридмена в случае зависимых групп. Для сравнения групп по качественным характеристикам используются только непараметрические критерии.

Проблема ошибочного использования методов сравнения, предназначенных для несвязанных (независимых групп), к зависимым группам отчасти решается структурой таблиц данных (размещение результатов последовательных измерений (принадлежащих к зависимым группам) в строках, а независимых—в столбец в соответствии со столбцом, содержащим код группы (Indep. (grouping) variable)).

Более того, в программе пиктограммы, сопровождающие названия методов анализа носят характер подсказки: показано взаимное расположение сравниваемых массивов данных (рис.4).

Достоверность внутренняя обоснованность  3

Рис. 4—Список инструментов анализа с пиктограммами в модуле непараметрических методов.

При интерпретации результатов при отсутствии достоверных различий ошибочным является заключение об их отсутствии, и может быть принято только заключение о том, что различия именно не были выявлены, хотя могут и присутствовать (характерно для выборок малой численности).

С другой стороны, особенно в больших выборках, могут быть выявлены различия, не имеющие биологического или медицинского значения. И наоборот, даже значительная разница, обнаруженная при сравнении небольших групп, является клинически значимой, но не статистически значимой. Если в ходе исследования, включающего несколько больных в терминальном состоянии, хотя бы один из участников в какой-либо из групп выживет, такой результат будет клинически значимым, хотя статистически значимое различие в частоте выживания между группами может отсутствовать [11].

При проведении анализа данных часто возникает так называемая проблема множественных сравнений (ПМС), заключающаяся в следующем: чем больше статистических гипотез проверяется на одних и тех же данных, тем более вероятна ошибка первого рода — заключение о наличии различий между группами, в то время как на самом деле верна нулевая гипотеза об отсутствии различий. Так, если за уровень значимости принято значение р =0,05, то 5 из 100 вычисленных значений р в силу случайности (по теории вероятности) окажется меньше 0,05 (хотя на самом деле верна нулевая гипотеза об отсутствии различий).

На практике принято считать, что учет ПМС следует начинать в тех случаях, когда число рассчитываемых значениий более 10).

В STATISTICA для уменьшения влияния множественных сравнений можно установить р на уровне 0,01 или 0,001 вместо 0,05. Считается, что такая поправка в достаточной мере компенсирует множественные парные сравнения, когда таковых избежать не удается:

1. При вторичном анализе данных.

2. При множественных парных сравнениях групп и подгрупп (по демографическим и клиническим характеристикам, исходам, временным точкам и т.д.).

3. Когда групповая эквивалентность устанавливается в начале нерандомизированного интервенционного исследования.

4. При промежуточном анализе данных, полученных в испытаниях тех или иных вмешательств [7].

Данные за все время имеют две характеристики, которые предопределяют специфику их анализа. Прежде всего возможна неполнота данных. Например, в клинических испытаниях по тем или иным причинам пациенты «уходят» под наблюдение, некоторые лабораторные животные могут быть регулярно забиты для анализа. Реальная жизнь таких объектов больше, чем продолжительность их наблюдения. Описанный феномен называется цензурированием справа. Наличие цензурированных данных затрудняет оценку влияния изучаемого воздействия на жизнь, особенно при характеристике отдаленных результатов лечения. Другой особенностью данных по длительности является неадекватность распределения длительности статистической модели нормального закона распределения. Конкретный же вид распределения, как правило, неизвестен. Поэтому аппроксимация распределения времени жизни нормальному закону, явная или неявная (при использовании параметрических методов анализа), представляет угрозу для корректности статистических выводов [7,8,9,10].

Достоверность внутренняя обоснованность  4

Рис.5—Диалоговое окно в анализе исхода Каплана-Майера.

STATISTICA

Иногда исследователи сталкиваются с проблемой сравнения разных коэффициентов корреляции. Так, иногда различия между двумя коэффициентами кажутся очевидными, но при этом не являются статистически значимыми, что в первую очередь может быть обусловлено различием в численности выборок [6].

ППО STATISTICA позволяет автоматически сравнить 2 коэффициента корреляции в Difference test (рис. 6).

Коэффициенты корреляции и количество самих групп даны достаточными.

Достоверность внутренняя обоснованность  5

Рис.6—Инструмент «Тест различий» в модуле основной статистики

Практическая часть

В эксперименте была изучена экспрессия CD25 (рецептор к интерлейкину 2) на CD4+ лимфоцитах больных рассеянным склерозом при пролиферативном ответе на МОГ (антиген миелина).

Данные получены с помощью проточного цитофлуориметра.

Принята нулевая гипотеза: Процентное содержание пролиферирующих (делящихся) клеток не связано с процентным содержанием CD25-позитивных CD4+ лимфоцитов.

Статистическая обработка данных эксперимента проведена непараметрическими методами в ППО STATISTICA 8.0. В примере показана вторичная обработка данных, чтобы показать необходимость последовательного анализа, включая проверку распределения на соответствие закону нормального распределения.

Достоверность внутренняя обоснованность  6

Рис. 7—Анализируемые данные

Достоверность внутренняя обоснованность  7

Рис. 8—Описательная статистика

Из таблицы, приведенной на рисунке 8, можно сделать предварительные вывод о несоответствии распределения данных з. Гаусса.

В качестве иллюстрации применен параметрический метод анализа связи.

Достоверность внутренняя обоснованность  8

Достоверность внутренняя обоснованность  9

Рис. 9—Коэффициенты корреляции при проведении анализа м.Пирсона и м.Спирмена.

Как показано на рисунке 9, коэффициенты корреляции при проведении анализа м.Пирсона и м.Спирмена не совпадают. По результатам анализа непараметрическим методом корреляции не выявлено, а по м. Пирсона выявлена сильная коррелятивная связь (R=0,83, р<0,05.).

Рисунок 9 иллюстрирует распределение данных: одна точка явно выпадает.

После исключения выпадающей точки корреляция не выявлена (р>0,05), результат графически представлен на рисунке 11.

Достоверность внутренняя обоснованность  10

Достоверность внутренняя обоснованность  11

Рис. 11—Коэффициенты корреляции при проведении анализа м.Пирсона и м.Спирмена.

Никакой корреляции при непараметрическом и параметрическом анализе обнаружено не было.

Следовательно, единственная точка отклонения в параметрическом анализе данных с распределением, отличным от нормального, дает ложноположительный результат при наличии корреляции между параметрами.

Как показывает практика, модуль, позволяющий быстро и без дополнительных усилий проверить тип распределения данных, часто считается избыточным, и анализ параметрическими методами запускается без доказательства валидности такого анализа.

Первая попытка обсудить вопросы статистической вероятности в медицинской литературе была предпринята в 1930-х годах. Сегодня в информационной среде общепринятый и общепринятый язык статистического анализа становится одним из элементов доказательной медицины и биологии.

STATISTICA

Безграмотная работа с данными приводит к грубым систематическим ошибкам; кроме того, ценность самих экспериментальных данных может быть потеряна при неправильной статистической обработке. Выбор метода остается за исследователем, как и планирование эксперимента с возможностью получения данных из репрезентативных выборок.

STATISTICA

STATISTICA

Статистика основана на сложных математических моделях, и интерпретация результатов должна строго соответствовать моделям биологических систем или особенностям клинического использования результатов.

1. Гланц С. Медико-биологическая статистика.—«Практика», —

2. Москва. —1998.—495с.

3. Рокицкий П.Ф. Биологическая статистика. (Изд.’ 3-е, испр.) —Минск, — «Вышэйш. школа», —1973. —320 с.

4. Боровиков В.П. Популярное введение в программу STATISTICA. Москва. —2005. —280с.

5. Боровиков В.П. STATISTICA: искусство анализа данных на компьютере – СПб, 2003. – 688с.

6. Куканков Г., Фигурин В. Методы обработки экспериментальных данных. — Минск, —2005. —122с.

7. Реброва О.Ю. Статистический анализ медицинских данных Применение программного комплекса STATISTICA. —М., МедиаСфера, —2002. —312 с.

8. Юнкеров В.И., Григорьев С.Г. Математико-статистическая обработка данных медицинских исследований. —СПб. —ВМсдА, —2002 —266 с.

9. Платонов А.Е. Статистический анализ в медицине и биологии: задачи, терминология, логика, компьютерные методы. — М., —Издательство РАМН, —2000. —52 с.

10. Gore S.M., Jones G., Thompson S.G. The Lancet’s statistical review process: areas for improvement by authors. —Lancet. —1992; —№ 340 —Р.100-102.

11. Lang. T. Twenty Statistical Errors Even You Can Find in Biomedical Research Articles. Croatian Medical Journal 2004 —№ 45(4), —Р.361-370