Ошибки в субъективных экспертных (судейских) оценках (на материале популярной телепрограммы «Ледниковый период»)

А. Г. Шмелев

Источник: www.ht.ru

 

Саша, неужели ты смотришь это дурацкое телешоу, где люди, едва научившиеся кататься, все время падают на лед, а публика визжит от восторга при виде синяков и крови?» - так или примерно так спросил меня один из моих старинных приятелей, с которым мы уже много десятков лет «на ты». Спросил, зная меня как человека, склонного скорее к проведению досуга за чтением серьезных книг, чем за пассивным глядением «в ящик».

«Да, смотрю, - с плохо скрываемым чувством собственного достоинства ответил я, - и сейчас объясню, почему я это делаю уже второй год».

Во-первых, не так много (точнее так просто крайне мало!) у нас на телевидении программ, где люди хвалят друг друга и говорят приятные слова друг другу (правда, и самими собой фактически восторгаются, но в целом заслуженно). Это, как мне кажется, - одна из причин популярности данной телепрограммы в стране, которая устала за последние 2 десятилетия от множества критических «чернушных» телепрограмм, из которых постоянно следует один мрачный вывод: « у нас в России все плохо». А вот выясняется, что и не все так плохо. Вот фигуристы у нас в самом деле хорошие, масса чемпионов, которых нет ни в одной стране мира, и все они заслуженно любимые. И артисты у нас отличные. И вместе фигуристы и артисты, разбившись на пары, создают чудные музыкально-танцевальные театральные миниатюры на льду, заставляя многомиллионную аудиторию искренне переживать не только за отдельных любимцев, но и за весь проект.

Но, кроме этого всеобщего «во-первых», у меня есть и свое специфическое «во-вторых». И этот аспект моего интереса, наверное, характерен для моего узко-профессионального видения этого шоу (с позиции специалиста по математико-психологической теории измерений). Мне интересно, как происходит судейство, как происходит работа жюри. Тем более, что оно происходит в этой программе в такой развернутой форме, как нигде в другом месте: каждый член жюри едва ли не каждый раз объясняет, почему он решил поставить какой-то паре ту или иную оценку. Что-то похожее, следует признать, было уже с начала 60-х в популярной передаче КВН. Но в этой статье речь не о приоритетах, который «Ледниковому периоду» в этот плане, конечно, не принадлежит. А ведущие программы специально просят членов жюри объясниться, когда оценки вызывают недовольство зала. Хотя всем очевидно (и мне, конечно, тоже), что подобные речи членов жюри – также определенный элемент шоу, что много тут искусственного (ну, скажем мягче, не все всегда убеждает искренностью). Но все-таки, как мне кажется, телезритель на этом материале может чему-то и поучиться: может попробовать осмыслить, почему некоторые оценки членов жюри вызывают на этой программе настоящие, неподдельные споры. Хотя, опять-таки, понятно, что споры эти – это элемент интриги, удерживающей внимание телеаудитории, что, если бы все было бесспорно и совсем справедливо, то от этого шоу потеряло бы часть своей популярности, но все же…

Итак, сформулируем первый ключевой тезис этой моей заметки: Телепрограмма «ледниковый период» (да, к ней можно отнести и несколько менее популярную аналогичную программы ВГТРК «Танцы на льду») ПОКАЗЫВАЕТ ШИРОКИМ МАССАМ, КАК ПРОИСХОДЯТ ОШИБКИ В СУБЪЕКТИВНЫХ ЭКСПЕРТНЫХ (СУДЕЙСКИХ) СУЖДЕНИЯХ .

Так что же за ошибки мы увидели и чему эти ошибки могут нас научить?

Правда, может возникнуть вопрос: А кому это интересно? – Вот тут я бы хотел пояснить, что это должно быть интересно вовсе не только специалистам, занимающимся методиками экспертных оценок (вроде меня), но и практикам, которые постоянно такие оценки выносят, хотя и не знают, как тот самый мольеровский герой, что «говорят прозой». Какие это практики? – Может быть, «судейские суждения» интересны только судьям? Нет. Например, оценочные суждения выносят те самые hr-специалисты, которые проводят интервью с кандидатами при приеме на работу или внутренний ассессмент персонала, - практики, которым мы уделяем специальное внимание на сайте нашей Лаборатории, – www.ht.ru.

Но вовсе не только! – Еще шире категория работников средней и высшей школы - учителей и преподавателей вузов, которым постоянно приходится выставлять оценки учащимся на основе своих субъективных впечатлений от их устных ответов и письменных работ, опираясь на нечеткие критерии, или, скажем так, чаще всего слабоформализо-ванные.

А разве не приходится выносить оценки людям (своим подчиненным) еще более широкой армии – армии руководителей? - Конечно, в этом случае оценки редко формулируются в баллах, но весьма ощутимо отражаются на премиальных, например, то есть, косвенно тоже отображаются на определенных количественных шкалах.

Так что вопрос о том, какие механизмы человеческого восприятия и при каких условиях приводят к ошибкам – это вопрос, которые по идее должен интересовать очень широкую аудиторию.

Краткий перечень ошибок, заметных на глаз подготовленному зрителю «Ледникового периода»:

1. Ошибки, вызванные социальным давлением.

Один из основных принципов для получения квалифицированных судейских решений - принцип независимости судей - на шоу «Ледниковый период» демонстративно нарушается у всех на глазах (еще раз поясняю, что это претензии не к данному шоу, а к той практике, которая чаще всего в нашей стране, увы, редко отличается от… шоу). Дело в том, что все зрители видят, как сидят члены жюри: они сидят за одним столом, боком друг к другу, рядом с председателем (Т.А.Тарасовой), лицом к зрительному залу. Такая рассадка способствует повышению социально-психологического давления и появлению очевидных ошибок, вызванных этим давлением. Во-первых, всем телезрителям должно быть очевидно (да и просто слышно), то давление, которое идет из зала. Вначале, еще до всяких судейских оценок, на выступление реагирует зал – овациями, криками, речёвками, скандированием «6.0 – 6.0!!» и т.п.- особенно в тех случаях, если выступление удалось. И мы видим, как трудно судьям в этом случае противостоять этому давлению. Те редкие судьи, которые в этих случаях не ставят 6.0 или 5.9 (эта оценка в последних передачах стало едва ли не последним допустимым пределом строгости), рискуют вызвать настоящее негодование в свой адрес. Немало пришлось оправдываться таким «строгим судьям», как известному телеведущему Пельшу или артисту Шакурову, которые, в конце концов, в ходе одной программы были фактически принуждены зрительским давлением оценить кого-то и высшим баллом тоже.

Другой источник социального давления в программе «Ледниковый период», может быть, не так бросается в глаза, но от внимания опытного наблюдателя не может ускользнуть. Этот источник – уже не зал, а сам председатель жюри Т.А.Тарасова. Известно, что в этой программе (в шоу «Танцы на льду» ситуация иная) все рядовые четыре члена жюри, кроме председателя, почти все время меняются от передачи к передаче. И многие новички не знают еще, как надо оценивать фигурное катание. Особенно это заметно при оценке самых первых пар: многие новички в этом случае вздымают вверх таблички с точно такими же баллами, которые выставляет Тарасова. Думаю, что кто-то из неуверенных сам тихонько спрашивает, пока все смотрят на лед и пара еще катается: «Татьяна Анатольевна, как оценивать-то?». И Татьяна Анатольевна приходят новичкам на помощь и подсказывает негромко. И получается, что коллективная позиция пяти казалось бы независимых членов жюри процентов на 50 (на половину) превращается в позицию всего лишь одного члена жюри – председателя. По факту мы имеем не пять, а максимум два с половиной члена жюри, ибо в среднем (по моей оценке на глазок) каждый раз от двух до трех рядовых судей «срисовывают» свои оценки с баллов, которые выставляет председатель.

Теперь нам проще представить себе, как надо было бы рассадить членов жюри, чтобы обеспечить независимость их оценок:

1) Членов жюри следует изолировать от давления зала: они должны сидеть в особом помещении, не слышать воплей зала, не видеть вскакивающих и аплодирующих людей, но слышать музыку и видеть катание на мониторах. Спрашивается: а во многих ли видах спорта судьи работают в таких условиях? – Ответ: да почти ни в одном так не работают! Отсюда проистекает огромное количество скандалов. Возьмем самый популярный вид спорта футбол: судья на поле подвергается страшному давлению трибун. Поэтому считается, что судья, который смог назначить пенальти в ворота хозяев поля, - герой! Конечно, правила футбола (как и многих других видов спорта) изобретены в позапрошлом веке и крайне консервативны. Вот в регби на кубке мира судья в поле уже выносит решения о «заносе меча в зачетное поле», глядя на видеоповтор. В футболе такое техническое обеспечение работы судей все еще под запретом! Что уж говорить, что должно пройти еще немало скандальных футбольных первенств (на самом высшем уровне), прежде, чем часть судей посадят в подтрибунные помещения и вооружат десятком мониторов (или хотя бы часть судей – тех, кто должен быть беспристрастным наблюдателем).

2) Рядовые члены жюри не должны сидеть рядом с председателем. Их надо было бы рассадить по разным углам зала и вынуждать поднимать свои таблички одновременно. А председатель, просто по регламенту, должен голосовать не первым, а … последним (!). Тут мне вспоминается, как голосовал М.С.Горбачев на первом съезда народных депутатов СССР (самый наш либеральный генсек, но не смог удержаться от искушения управлять залом): он лицом к шеститысячному залу КДС вздымал каждый раз самым первым свой мандат делегата, показывая всем свою позицию – как надо голосовать.

Но ошибки, вызванные давлением, - далеко не единственный вид ошибок.

2. Ошибки, вызванные «сцеплением» критериев оценки

Фигурное катание является редким примером спортивной дисциплины, где оценка выставляется судьями не по одному, а по двум разным критерием (в этом смысле это прогрессивный вид спорта по сравнению, например, со спортивной гимнастикой или с боксом). Но все же в глаза бросается неумение многих судей (и начинающих особенно) смело выставлять одной и той же паре разные оценки за технику и артистизм. Спрашивается, что же такое «артистизм», если пара откатала очень оригинальный и очень артистичный номер, но в конце вдруг…упала, а судьи снижают за «артистизм» в этом случае почти также резко, как и за технику? Сам главный «мэтр», председатель жюри Т.А.Тарасова применяет сходную логику: ее оценки за технику и артистизм крайне редко расходились больше, чем на 0,2 балла (не могу сказать, когда это было, не записывал). И она дает объяснение своему снижению оценок за «артистизм» паре, которая упала, таким образом: «Ну ведь упали же! И снизилось общее впечатление!». То есть, если произошел явный технический сбой – это, по Тарасовой (впрочем, по моим наблюдениям так судят все судьи на всех соревнованиях фигуристов), снижает и впечатление за «артистизм», так как артистизм также зависит от «общего впечатления». Значит, получается, что есть некий общий, интегральный фактор «общего впечатление», от которого зависят оценки и за технику, и за артистизм. То есть, переходя на формально-логический язык, два критерия А и В не являются строго независимыми, а зависят каждый от третьего фактора С, который влияет и на А, и на В. Зрители в зале негодуют, но не понимают, что судьи занижают оценку их любимцам, из-за того, что в сознании судей отсутствует идея полной независимости разных критериев оценки.

Можно ли при грамотной организации подобных оценочных процедур снизить риск подобных ошибок и как это сделать? – Это сделать гораздо труднее, чем сократить давление путем правильной рассадки судей. Тут простой рассадкой не обойдешься! Необходимо производить особую методическую работу с экспертами (судейским корпусом):

А) Надо собрать немалую статистику оценок и рассчитать уровень корреляции (статистической сцепленности) двух критериев оценок ДЛЯ КАЖДОГО ЭКСПЕРТА отдельно.

Б) С каждым экспертом, у которого обнаружено высокое сцепление, надо организовать индивидуальное обсуждение того, как именно он трактует критерии.

В) После обсуждения надо дать каждому эксперту снова повыставлять оценки (по материалам видеозаписей, например) и по новым оценкам снова посчитать статистическую корреляции, чтобы снова скорректировать, если сцепление снизилось недостаточно сильно. Таким образом, для серьезных мероприятий членов жюри надо готовить и аттестовать прежде, чем допускать до ответственной работы. Конечно, смешно такую работу ожидать от развелкательной программы, но вот уже в ситуации приема госэкзаменов в вузе членов ГЭК следовало бы проводить через подобную процедуру.

Мда, немало экспериментов и вычислений, однако! Возникает тут вопрос: можно ли это сделать в «домашних условиях»? – Увы, трудно. Так как без компьютеризации в сборе и подсчетах экспертных оценок никто на практике такую работу «не потянет». Поэтому-то и повышается (хотя не быстро, но растет) интерес к компьютерным системам анализа и согласования экспертных оценок, что они берут на себя значительную часть рутинной работы, а специалисту по организации процедуры (тестологу-когитологу-экспертологу) остается «лишь» выполнять содержательную задачу: имея на руках подсчитанные коэффициенты корреляции, обсуждать с экспертами, почему же у них все-таки критерии сцепливаются…

3. Ошибки, вызванные стереотипными ожиданиями

Чем дальше идет программа «Ледниковый период» в этом году, тем больше абсолютных суммарных оценок (12 баллов) получают фигуристы. И не столько потому, что остаются лишь самые сильные, сколько по тому, что мастерство даже слабых растет на глазах. Действительно, в этом году уровень всех пар заметно поднялся. И судьи, которые начали с того, что по «прошлогодним критериям», то есть, следуя своим стереотипным ожиданиям, выставляли на первых концертах парам по 5.7-5.9, теперь волей-неволей должны как-то зафиксировать прогресс и вынуждены очень многим выставлять предельно высокие оценки. Возникают всем очевидные парадоксы: в номинацию начали попадать пары, которые получают средний балл на уровне 5.9. Что же остается делать в этих условиях зрителям, как не кричать и не требовать: «6.0 – 6.0», ибо возникает уже риск того, что если кто-то не поставит эти самые 6.0, любимая пара просто «незаслуженно» выпадет из шоу, получив за свою относительную неудачу такие высокие оценки, с которыми не все спортсмены становились олимпийскими чемпионами.

Почему же возник такой эффект «прижимания к верхнему краю» шкалы, который теперь вызвал определенный кризис в проекте - привел некоторых участников к явно излишней напряженности, с которой они выходят на лед, заставляют нервничать фанатов и нервничать даже самих судей? Ведь уже очевидна растерянность, с которой иногда выступает постоянно счастливая и улыбающаяся Тарасова: «Вот хотела я начинать сегодня с 5.6, чтобы создать какой-то запас для подъема сильнейшим парам. Но ведь моя мама и дочка пригрозили не разговаривать со мной, если я еще раз поставлю 5.6 кому-нибудь …».

Одна из причин здесь мной названа – «стереотипные ожидания». Судьи используют эталоны, которые идут из прошлого, но эти эталоны могут оказаться заниженными, тогда все текущие оценки автоматически окажутся завышенными. Так и произошло!

Каким образом, в настоящих (не в развлекательных) программах, основанных на экспертных оценках, можно избегать эффекта «стереотипных ожиданий»? – Надо предлагать экспертам выставлять не «абсолютные оценки» (в этом случае они скорее всего будут использовать стереотипные эталоны, ибо прошлый опыт – это основной источник эталонов для субъективного оценивания), а относительные оценки. Вот раньше (многие уже этого и не помнят) судьи как раз именно в фигурном катании не только оценивали фигуристов в баллах, но еще и расставляли по местам, то есть, ранжировали. Процедура ранжирования означает, что независимо от того, как кто выступил, всегда есть первый (лучший, или наименее худший – неважно), есть второй по рангу, есть третий и так далее – до самого последнего (худшего или наименее лучшего). Известны процедуры, кроме полного ранжирования (упорядочивания), которые дают оценку с еще больше точностью (столь необходимую для нужд соревнования) - это парные сравнения. В этом случае эксперта просят сравнить каждую пару кандидатов (спортсменов, претендентов – неважно) и назвать в каждой паре лучшего. Очевидно, что это довольно-таки громоздкая процедура. При наличии 12 пар это привело бы уже к 66 парным сравнениям. Круговые турниры в матчевых видах спорта (в футболе, баскетболе, шахматах и т.п.) – это, с точки зрения, математико-психологической теории измерений не что иное, как Метод Парных Сравнений. В условиях шоу такие серьезные процедуры невозможны – все затянулось бы и потеряло бы всякую зрелищность. Но в серьезных случаях именно парные сравнения помогают.

4. Ошибки, вызванные желанием поощрить прогресс

Илья Авербух уже не раз восклицает: «Лучшую пару на проекте Хаматову-Костомарова жюри постоянно судит уже по какой-то особой шкале, предъявляя к ним гораздо более высокие требования». И он прав! Так как мы видим, что судьи пытаются «втиснуть» в одну и ту же оценку (мы уже говорили, что оценки для них субъективно не две разных, а одна) две совершенно разные функции: хотят, с одной стороны, дать сравнительную оценку достижений с другими участниками (соревновательная функция), а с другой стороны пытаются поощрить слабеньких участников за те огромные самоотверженные усилия, которые они предприняли, и за тот удивательный прогресс, который они достигли.

Очень часто именно перед этой же самой проблемой оказываются педагоги. Для них ведь отметка (особенно текущая – за промежуточную самостоятельную или контрольную работу) – это прежде всего инструмент обратной связи, призванный поощрить, позитивно подкрепить ученика за усердие и прогресс или, наоборот, морально наказать за ослабление работы по предмету. Эта психолого-педагогическая функция оценки очень часто входит в противоречие с другой функций – социально-нормативной. Психолого-педагогическая – крайне важна для того, чтобы учащийся двигался вперед. И не надо этой функцией пренебрегать. Но при этом не должна страдать другая, более важная функция оценки – социальная, которая должна базироваться на ее объективности. Ведь если эту функцию фактически поставить в подчиненное положение по отношению к психолого-педагогической функции, то получится несправедливость. Особенно легко ее увидеть в тех видах деятельности, где имеются не субъективные, а объективные шкалы достижений.

Возьмем такой пример, чтобы было яснее, о чем здесь идет речь в этом параграфе. Возьмем отборочные соревнования по прыжкам в высоту перед олимпиадой. Во многих странах это национальные первенства. Пусть какой-то крайне усердный прыгун буквально за полгода до этого прыгал всего лишь 220, а на отборочных показал уже гроссмейстерский результат 235. Поразительный прогресс, который надо всячески поощрить! Но путевкой ли на олимпиаду? – Это вопрос. Предположим, другой талантливый прыгун в высоту – просто лентяй, меньше тренировался, больше тусовался, совсем не поднял уровень своих достижений по сравнению с прошлогодними, но на отборочных национальных соревнованиях прыгнул все-таки на 237 – хотя и ниже, чем в прошлом году (тогда было 239), но все-таки на 2 см выше, чем тот спортсмен, который достиг удивительного прогресса в 15 см. Спортивный принцип отбора, провозглашенный для всех ясно и однозначно до старта, означает, что ехать должен тот, кто прыгнул сегодня выше.

Но в своих субъективных суждения мы оказывается под впечатлением от того удивительного прогресса, который достигают вчерашние аутсайдеры и ставим их иногда выше настоящих лидеров. Так и происходит не раз на шоу «Ледниковый период».

Можно ли как-то нивелировать действие этого источника ошибок? – Да! Для этого надо создать отдельную оценочную шкалу – для оценки прогресса. И судьям уже будет легче поставить именно на этой шкале выше всех тех участников, которые показали по сравнению с предыдущим выступлением наилучший сдвиг в лучшую сторону. Вспоминаются кстати времена, когда в первенстве СССР по футболу существовал такой особый приз для команды, добившейся лучшей разности мест в только что завершенном и предыдущем первенстве, – «Кубок прогресса». Это был в какой-то степени пример (в зачаточной форме) выделения особой шкалы для оценки именно этого показателя.

А что делать с этой отдельной оценкой «за прогресс»? - Не будет большим грехом просуммировать ее с остальными оценками, подняв общий интегральный балл тем участникам, которые показали прогресс. Но все-таки даже в этом случае оценка прогресса влияет, но не так сильно – не сильнее, чем оценки по другим критериям.

Так постепенно, постепенно мы приходим к другому важнейшему тезису данной статьи:

ЧТОБЫ СУБЪЕКТИВНЫЕ ОЦЕНКИ БЫЛИ БОЛЕЕ ТОЧНЫМИ, ОНИ ДОЛЖНЫ БЫТЬ МНОГОКРИТЕРИАЛЬНЫМИ – РАЗНЫЕ СВОИ МЫСЛИ И СУЖДЕНИЯ СУДЬИ ДОЛЖНЫ ВЫРАЖАТЬ С ПОМОЩЬЮ РАЗНЫХ ШКАЛ, А НЕ С ПОМОЩЬЮ ОДНОЙ ШКАЛЫ.

Есть еще и другие различные наблюдения, и некоторые другие виды ошибок, которые я подметил на телепрограмме «Ледниковый период». Но, может быть, для начала хватит этих четырех? – Хватит на то, чтобы затеять какое-то обсуждение, получить какие-то отклики?

Рубрика: 
Ключевые слова: 
+1
0
-1