Несмотря на последние достижения в области машинного обучения, многие люди по-прежнему сомневаются, стоит ли позволять алгоритмам принимать такие важные решения, как диагностика пациентов и установление залога. Эта нерешительность, как правило, обусловлена тем, что разработка, применение и понимание сложных систем машинного обучения представляются сложной задачей. Для преодоления этих представлений авторы предлагают простую трехшаговую процедуру, которая позволяет любому автоматизировать принятие решений о классификации: достаточно выбрать ведущие показатели, провести регрессию результатов и округлить веса. Эта стратегия устраняет сложность, которая омрачает многие передовые инструменты машинного обучения, и позволяет получить четкие, статистически обоснованные правила принятия решений.
Сегодня машины могут побеждать людей в сложных задачах, которые, казалось бы, рассчитаны на сильные стороны человеческого разума, включая покер, игру Го и визуальное распознавание. Тем не менее, при принятии многих важных решений, которые являются естественными кандидатами на автоматическое рассуждение, например, при диагностике пациентов врачами или вынесении приговора судьями, эксперты часто отдают предпочтение опыту и интуиции, а не данным и статистике. Такое нежелание использовать формальные статистические методы вполне логично: Системы машинного обучения сложно разрабатывать, применять и понимать. Однако отказ от достижений в области искусственного интеллекта может дорого обойтись.
Признавая реальные ограничения, с которыми сталкиваются менеджеры и инженеры, мы разработали простую трехэтапную процедуру создания рубрик, улучшающих принятие решений по принципу "да или нет". Эти рубрики могут помочь судьям решать, кого задержать, налоговым аудиторам - кого тщательно проверять, а менеджерам по найму - с кем проводить собеседование. Наш подход обеспечивает практикам производительность самого современного машинного обучения, избавляя их от ненужной сложности.
<
Insight Center
-
Эпоха ИИ
Спонсор - Accenture Как это повлияет на бизнес, промышленность и общество.
Чтобы увидеть эти правила в действии, рассмотрим решения о досудебном освобождении. Когда обвиняемые впервые предстают перед судом, судьи должны оценить вероятность того, что они пропустят последующие судебные заседания. Обвиняемых с низким уровнем риска отпускают обратно в общество, а обвиняемых с высоким уровнем риска помещают в тюрьму; таким образом, эти решения имеют последствия как для обвиняемых, так и для общества в целом. Чтобы помочь судьям в принятии этих решений, мы использовали нашу процедуру для создания простой диаграммы риска, приведенной ниже. Риск побега каждого подсудимого рассчитывается путем суммирования баллов, соответствующих его возрасту и количеству пропущенных судебных заседаний. Затем применяется порог риска для преобразования оценки в двоичную рекомендацию "освободить или задержать". Например, при пороге риска в 10 баллов 35-летний обвиняемый, пропустивший одну дату суда, получит восемь баллов (два балла за возраст плюс шесть баллов за пропуск одной предыдущей даты суда) и будет рекомендован к освобождению.
Несмотря на свою простоту, это правило значительно превосходит экспертные человеческие решения. Мы проанализировали более 100 000 судебных решений о досудебном освобождении в одном из крупнейших городов страны. Следуя нашему правилу, судьи в этой юрисдикции могли бы содержать под стражей вдвое меньше обвиняемых без заметного увеличения числа неявок в суд. Как такое возможно? Необдуманные судебные решения лишь слабо связаны с объективным уровнем риска для подсудимого. Кроме того, судьи применяют идиосинкразические стандарты: одни освобождают 90% обвиняемых, другие - только 50%. В результате многие обвиняемые с высоким уровнем риска освобождаются, а многие обвиняемые с низким уровнем риска задерживаются. Следование нашей рубрике обеспечит равное обращение с обвиняемыми, при этом под стражу будут заключены только обвиняемые из группы высокого риска, что одновременно повысит эффективность и справедливость решений.
Правила принятия решений такого рода являются быстрыми, поскольку решения можно принимать быстро, без компьютера; экономными, поскольку для принятия решения требуется лишь ограниченная информация; и четкими, поскольку они раскрывают основания, на которых принимаются решения. Правила, отвечающие этим критериям, имеют много преимуществ, как в судебном контексте, так и за его пределами. Например, легко запоминающиеся правила, скорее всего, будут приняты и постоянно использоваться. В медицине экономные правила могут сократить количество необходимых тестов, что может сэкономить время, деньги и, в случае ситуаций сортировки, жизни. А ясность простых правил вызывает доверие, поскольку показывает, как принимаются решения, и указывает, где их можно улучшить. Ясность может даже стать требованием закона, когда общество требует справедливости и прозрачности.
Связанное видео
Можете ли вы доверить это решение роботу?
Найдите свое место на границе автоматизации.
Простые правила, безусловно, имеют свои преимущества, но можно задаться вопросом, означает ли простота жертвовать эффективностью. Во многих случаях ответ, как ни странно, отрицательный. Мы сравнили наши простые правила со сложными алгоритмами машинного обучения. В случае с судебными решениями приведенная выше диаграмма рисков показала почти такую же эффективность, как и лучшие статистические методы оценки рисков. Повторив наш анализ в 22 различных областях, мы обнаружили, что этот феномен сохраняется: Простые, прозрачные правила принятия решений часто работают наравне со сложными, непрозрачными методами машинного обучения.
Для создания этих простых правил мы использовали трехступенчатую стратегию, подробно описанную здесь, которую мы назвали выбор-регресс - круг. Вот как это работает.
- Выбираем несколько ведущих индикаторов рассматриваемого результата - например, используем возраст подсудимого и количество пропущенных судебных заседаний для оценки риска бегства. Мы обнаружили, что хорошо работают от двух до пяти показателей. Два фактора, которые мы использовали для принятия досудебных решений, являются хорошо известными индикаторами риска побега; не обладая такими знаниями, можно составить список факторов, используя стандартные статистические методы (например, пошаговый отбор признаков).
- Используя исторические данные, регрессируйте результат (пропуск суда) на выбранные предикторы (возраст и количество пропущенных судебных дат). Этот шаг может быть выполнен одной строкой кода с помощью современного статистического программного обеспечения.
- Выходом вышеописанного шага является модель, которая присваивает сложные числовые веса каждому фактору. Такие веса слишком точны для многих приложений принятия решений, поэтому мы округляем веса, чтобы получить целые оценки.
Наша стратегия "выбор-регресс-округление" дает простые правила принятия решений. Не менее важно и то, что сам метод построения правил прост. Трехшаговый рецепт может выполнить аналитик с ограниченной подготовкой в области статистики, используя свободно распространяемое программное обеспечение.
Статистические правила принятия решений лучше всего работают, когда цели четко определены и когда имеются данные о прошлых результатах и их ведущих индикаторах. При соблюдении этих критериев статистически обоснованные решения часто превосходят опыт и интуицию экспертов. Простые правила и наша простая стратегия их создания позволяют донести мощь машинного обучения до широких масс.
Об авторе
Джонгбин Чжун - кандидат наук в Стэнфордском университете на факультете науки управления и инженерии.
- Hbr.org
Поделиться