Корреляционный анализ данных: зонд в глубины скрытых механизмов взаимодействий

В статье подробно рассматривается понятие линейной зависимости между показателями и ее исследование методом корреляционного анализа. На примере конкретного клинического исследования обсуждается графическая и содержательная интерпретация значений коэффициентов корреляции, полученных в ходе статистической обработки экспериментальных данных.

Цель любой статистической обработки данных состоит в том, чтобы из огромного количества чисел вывести несколько интегральных величин, которые позволят судить о тенденциях или закономерностях изучаемого процесса. Еще лучше, если эти расчетные интегральные величины позволяют сделать какие-то качественные выводы в терминах уже той предметной области, в которой проводится исследование. Самое трудное, настоящее узкое место современных биомедицинских исследований — это правильное и оптимальное описание проблемы в терминах математической статистики (для того чтобы применить статистические методы, которые работают только в поле статистики), а затем корректно провести обратную процедуру — перевести результаты статистической обработки данных в термины предмета исследования. В связи с этим непросто проводить исследования с применением статистики в медицине и биологии, имеются в виду настоящие исследования, а не просто украшение научной работы парой статистических те-стов.

Поэтому не надо отчаиваться и расстраиваться, если не все сразу, с лету понятно и хорошо интерпретируется. Это закономерно. Результаты исследования с применением статистики всегда требуют длительного обдумывания, они часто воспринимаются лучше в диаграммах и графиках, чем в числах, поэтому изложение ваших гипотез или заключений будет выглядеть нагляднее и понятнее, если полученные величины или исходные данные будут продубли-рованы графическими изображениями. Кроме того, как правило, эти результаты не отвечают сразу на практические вопросы типа насколько больше/меньше, какова оптимальная доза или инфузионный объем и т. п. Чаще всего это описание скрытых механизмов взаимодействия тех показателей, которые мы можем регистрировать. Они (показатели) находятся на поверхности процесса, но именно их взаимодействие отражает глубинный механизм, который по-настоящему важен для понимания проблемы и ее практического решения. Важно подчеркнуть, что каждый показатель в отдельности не дает достаточного представления об этом, часто вообще никакого не дает, даже намека, а вот именно оценка их коллективного изменения, динамика их связей и зависимостей в ходе исследования может натолкнуть на потрясающие догадки. Все, что может сделать даже самый квалифицированный и опытный математик, это максимально приблизить интерпретацию полученных результатов к терминам той медицинской проблемы, которая исследуется, а также попытаться максимально наглядно подать результаты статистической обработки. Клинический опыт и специальные знания конкретных патологий и особенностей развития клинического процесса, которыми обладает только врач-специалист, требуются для дальнейшей расшифровки полученных результатов и получения клинических выводов и предположений. Это фактически рождение нового знания, и это очень трудно. Если вы получили от математика или программной системы, развернутой на вашем компьютере, какие-то числа и не знаете, что дальше с ними делать, постарайтесь сформулировать четко, что вам непонятно, что именно неясно. Возможно, причина этого непонимания — просто недостаток информации или неудачное описание, замусоренное чужими терминами, значение которых вам неизвестно или не очень знакомо. Попытаемся в данной статье разъяснить смысл некоторых статистических понятий, которые, как нам кажется, могут вызывать затруднения в понимании, скорее даже в осознании некоторых результатов статистической обработки данных.

В этой статье мы поговорим о зависимостях между изучаемыми показателями, которые довольно часто используются в медицинских исследованиях, чтобы статистически достоверно подтвердить или опровергнуть причинно-следственные или ассоциативные связи, обнаруженные в ходе эксперимента или предполагаемые исходя из опыта, наблюдений и теории.

Во-первых, что такое линейная зависимость между показателями и почему с ней все так носятся и стараются обнаружить именно линейность во взаимосвязи исследуемых признаков? Линейная зависимость между двумя переменными — это зависимость, которая выражается уравнением вида Y=aX+b, где а и b — коэффициенты, совершенно любые числа. На графике такая зависимость отображается в виде прямой линии, коэффициенты a и b однозначно определяют ее положение относительно декартовой системы координат XY. Но не в этом самая главная прелесть линейной зависимости для исследователя. Основное ее преимущество в том, что при изменении X на единицу, Y всегда будет изменяться на одну и ту же величину. Например, если Y=2X+S, то при изменении X с 2 на 3, Y изменится на 2 (с 9 на II), и при скачке X с S на 6, приращение Y будет по-прежнему 2. Иными словами при увеличении X на 1, Y всегда будет прирастать на 2. Обратите внимание, что 2 — это тот самый коэффициент, который стоит при X в формуле, показывающей, как можно из X рассчитать Y. Эта пропорция сохраняется для любых значений X. Для сравнения можно привести пример нелинейной зависимости, например, самой простой: Y=X2. В этом случае при изменении X на 1, Y будет прирастать по-разному, в зависимости от начального значения X. При изменении X с 1 на 2, Y возрастет с 1 до 4, то есть изменится на 3, а при скачке X с 3 до 4, Y изменится с 9 до 16, то есть уже на 7. В этом случае никакой пропорции нет, и мы не можем сказать ничего определенного об изменении Y при вариации X кроме того, что они будут изменяться в одну сторону. Эта зависимость гораздо сложнее. Для того чтобы нам знать об изменении Y столько же, сколько мы знаем об этом, имея линейную зависимость, необходимо гораздо больше информации, и она более привязана к частным случаям. Очень важно прочувствовать это кардинальное отличие линейной зависимости от всех остальных. Итак, если два показателя линейно связаны друг с другом, это означает, что они пропорциональны и сохраняют эту пропорциональность всегда, какие бы значения они ни принимали. Мы можем не знать точно, с какого на какое значение изменилось X, но, зная на сколько увеличилось X, мы всегда можем сказать, на сколько увеличится/уменьшится Y. Понятно, что, обнаружив среди наших показателей линейно зависимые, мы сможем прогнозировать их с меньшими затратами на всем интервале их значений, чем если мы имеем какие-то сложные нелинейные зависимости.

Теперь обратимся к коэффициентам корреляции. В нашем примере мы рассчитываем и интерпретируем парные коэффициенты корреляции. Чаще всего именно эти коэффициенты и приводятся в публикациях. (Есть еще и множественные коэффициенты той же линейной корреляции, но мы их не будем пока касаться). Итак, по данным двух показателей, полученным в ходе эксперимента или наблюдения, рассчитывается парный параметрический коэффициент корреляции (Пирсона). Что это такое и что он означает? Парный коэффициент корреляции Пирсона — это некое число из интервала от -1 до +1, отражающее, как принято говорить, степень или силу или тесноту линейной зависимости, подчеркнем еще раз, именно линейной зависимости, то есть только зависимости типа Y=aX+b, а не любой зависимости вообще. Только линейной и никакой другой. Это очень важно прочувствовать и осознать. Например, два показателя могут быть чрезвычайно сильно связаны зависимостью, которая выражается формулой Y=X+X2+X3, но рассчитанный коэффициент корреляции будет при этом очень низким. Он покажет слабую зависимость, почему? А именно потому, что он покажет степень линейной зависимости, то есть связи, описываемой формулой вида Y=aX+b, тогда как мы имеем дело с нелинейной связью, гораздо более сложной, и формула у нее намного сложнее и очень мало напоминает ту, которую мы предполагаем. Крайне важно помнить, что если у нас коэффициент корреляции низкий, это свидетельствует лишь о слабости (или отсутствии) линейной зависимости, а не зависимости вообще. Зависимость нелинейная, любая другая, может иметь место и весьма сильная. Как определить в этом случае, есть такая зависимость или все же два показателя никак не связаны друг с другом, мы расскажем в следующей публикации.

А теперь второй важнейший момент, касающийся корреляции. Выше говорилось, что коэффициент корреляции — это число от -1 до +1, отражающее тесноту или силу линейной связи между показателями. А как понимать термин «теснота линейной связи», что такое теснота? Интуитивно ясно, что чем выше (по модулю) значение коэффициента, тем показатели более зависимы друг от друга, но все же, что именно измеряется этим числом, которое мы рассчитываем?

Для ответа на этот вопрос сформулируем его иначе. Что значит более или менее зависимы? Попробуем изобразить это графически. Начнем с предельного случая, который на практике никогда не встречается: показатели полностью и однозначно зависят (линейно!) только друг от друга, тогда на графике мы получим прямую линию, а значение парного коэффициента корреляции равным +1 (если с увеличением одного показателя второй пропорционально увеличивается, прямая пропорциональность) или -1 (если с увеличением одного показателя второй пропорционально уменьшается, обратная пропорциональность). Итак, если два показателя полностью (в математике это называется «функционально») зависят друг от друга, то на графике получается прямая линия, а по содержанию собственно сама линейная функция (рис. I, а). Теперь «размажем» немного прямую так, чтобы вокруг нее образовалось узкое плотное облако из точек, ведь в реальном эксперименте никогда не бывает так, чтобы все измерения легли строго по прямой линии, однако через это облако по середине можно провести прямую линию, как бы стержень, к которому наши измерения притягиваются (рис. I, б). В этом случае говорят, что зависимость линейная, близкая к функциональной, а коэффициент корреляции обычно очень высок 0,8—0,9 по модулю. Растянем облако точек-измерений еще сильнее от центральной прямой (рис. 1, в). Визуально оно еще сохраняет скопление около некоторой прямой линии, но плотность этого облака падает, снижается и коэффициент корреляции, примерно, 0,5—0,6 по модулю. Эту процедуру можно продолжать до полного исчезновения какой-либо возможности однозначно провести прямую через точки измерений, потому что облако из вытянутого в некотором направлении превратилось в совершенно круглое и никаких направлений в нем не наблюдается — коэффициент корреляции равен 0 (рис. 1, г).

Эти графики наглядно демонстрируют, что такое теснота линейной зависимости двух показателей. Это близость расположения их измерений к некоторой однозначно определяемой прямой линии, которая отражает их линейную зависимость друг от друга, если, конечно, такая линия и такая зависимость между ними существует. Чем плотнее облако группируется и вытягивается вдоль этой линии, тем выше коэффициент корреляции. Чем больше похоже становится облако точек-измерений на прямую линию, тем ближе коэффициент корреляции к 1 или -1. А что означает рассеивание точек все дальше от прямой? Что отталкивает их от «линии притяжения»? Причиной «рассеивания» облака является вмешательство в парную связь двух показателей сторонних факторов, сравнимых по силе с той связью, которая исследуется в этой паре. Чем меньше рассеивание, тем слабее сторонние факторы, чем рассеивание больше, тем сильнее другие внешние по отношению в исследуемой паре влияния.

В качестве примера рассмотрим небольшую часть исследования взаимосвязи азотистого баланса и его составляющих (суточного потребления азота и суточной потери азота) у пациентов с трансплантацией костного мозга [I]. Поскольку азотистый баланс (АБ) рассчитывается как разность между поступившим (N) и выделенным (MN) азотом за сутки, то он линейно зависит от обеих своих составляющих. Но если катаболическая фаза усиливается или снижается под воздействием развития патологии, течения послеоперационного периода и интенсивности нутриционной под-держки, то значения парных коэффициентов корреляции между АБ с его компонентами будут различными и покажут, в каких точках АБ более зависит от потерь азота, чем от поступления его в организм, а когда наоборот, нутриционная поддержка сможет оказать клинически значимое влияние на АБ и существенно снизить потерю азота.

Опубликовано в журнале «Регионарная анестезия и лечение острой боли». 2013. Т. VII(I): 48—53.

Автор(ы): Тихова Г. П.
Медучреждение: ООО «ИнтелТекЛаб» (Петрозаводск)

Похожие статьи:

ЧЕК-ЛИСТ В СИСТЕМЕ ЗДРАВООХРАНЕНИЯ: ОБУЗА ИЛИ ТОЧКА ОПОРЫ?

АНАЛИЗ СИСТЕМЫ УПРАВЛЕНИЯ КАЧЕСТВОМ МЕДИЦИНСКОЙ ПОМОЩИ ПАЦИЕНТАМ С ПРЕДРАКОВЫМИ ЗАБОЛЕВАНИЯМИ ГОРТАНИ

ЗАДАЧИ СИСТЕМЫ ЗДРАВООХРАНЕНИЯ