5 советов по переходу от психологии к науке о данных (Data Science)

И как вы можете сделать и то, и другое.

В настоящее время попасть в удивительный мир Data Science и искусственного интеллекта становится все сложнее и сложнее. Особенно это касается тех, кто не имеет технического образования.

В этой статье я хотел бы обсудить возможности психологов или людей с гуманитарным образованием найти работу в качестве Data Scientist.

Будучи психологом, вы имеете ряд преимуществ перед теми, кто имеет чисто техническое образование:

  • вы прошли углубленную подготовку в области коммуникации
  • вы являетесь экспертом в своей области (например, экономическая психология или клиническая психология)
  • вы знакомы со статистикой, возможно, даже лучше, чем ваш коллега с техническим образованием
  • У вас есть опыт работы с небольшими наборами данных

Однако у вас может быть столько же недостатков:

  • Вы незнакомы с областью компьютерных наук (например, создание производственных конвейеров, модульное тестирование, git и т.д.)
  • Вы не знакомы с необходимыми математическими навыками (например, исчисление, линейная алгебра и т.д.)
  • У вас практически нет опыта работы с алгоритмами, связанными с наукой о данных (например, машинное обучение, NLP, поиск процессов, поиск информации и т.д.).

В этой статье я объясню, как вы можете использовать эти преимущества в свою пользу и что вы можете сделать, чтобы компенсировать эти недостатки.

Таким образом, основная мысль этой статьи проста: Играйте на своих сильных сторонах и улучшайте свои слабые стороны.

ПРИМЕЧАНИЕ: Многие из приведенных здесь советов могут быть использованы и в других сферах деятельности. Однако в первую очередь они адресованы тем, кто имеет гуманитарную базу. Я бы изменил некоторые советы, если бы рассматривался другой фон.

1. Изучайте язык программирования

Возможно, это слишком очевидно, но изучение языка программирования может быть, особенно в долгосрочной перспективе, более важным, чем вы думаете!

Какой язык программирования выбрать?

Это очень спорный вопрос и зависит от того, в какой сфере вы хотите работать. В целом, Python и R в настоящее время в основном используются для машинного обучения и статистических приложений.

Если вы ищете работу, которая не является высокотехнической, а больше аналитической, с возможностью использования прогнозных моделей, то я бы настоятельно рекомендовал R. R дольше используется в компаниях для анализа данных, и до сих пор есть компании, которые еще не перешли на Python. Этот язык отлично подходит для быстрого и относительно глубокого статистического анализа.

Более того, поскольку R впервые был использован статистиками, велика вероятность того, что вы уже работали с ним раньше, так как социальные науки, как правило, связаны со статистикой.

С другой стороны, если вы действительно хотите сосредоточиться на сложных алгоритмах или производственных конвейерах, то я бы рекомендовал выбрать Python. Python - это основной язык для специалистов по анализу данных, которые хотят внедрить свою ИИ-модель в производство. Он очень гибкий и, по сравнению с R, имеет более широкий спектр применения.

Хотя технически SQL не является языком программирования, он незаменим, когда речь идет о доступе к данным и их анализе. Обычно он используется для запросов к информации, хранящейся в реляционной базе данных. Специально для психологов, имеющих нетехническое образование, можно быстро научиться проводить базовый анализ.

В какой степени я должен уметь программировать?

Это зависит от типа Data Scientist, которым вы хотите стать. Если вы хотите помогать бизнесу принимать решения, то я бы посоветовал вам понять основы SQL и R. Однако если вы ищете работу, связанную с алгоритмами, где вы будете внедрять модели в производство, то вам необходимо приблизиться к знаниям и эффективности инженера-программиста.

На каких еще навыках мне следует сосредоточиться?

Есть несколько вещей, которые я бы рекомендовал изучить, чтобы облегчить себе жизнь:

Git - это система контроля версий, которая помогает отслеживать изменения в коде. Я видел, как многие специалисты по анализу данных создают копии своих блокнотов/файлов и вызывают их V2 для добавления функций в свои решения. Это не только неэффективно, но и затрудняет правильное версионирование приложения и отслеживание несоответствий.

Используйте подходящую IDE при создании решений, основанных на данных. Например, использование Pycharm вместо блокнотов Jupyter поможет вам писать более качественный код, поскольку в нем есть множество опций, которые помогут вам отслеживать проблемы. Студенты-аналитики очень часто используют Google Colab (и этого хватает)

Если вы хотите сделать еще один шаг вперед, вы можете обратить внимание на следующее:

  • Юнит-тестирование
  • Анализ времени работы
  • Разработка API
  • Интеграция Docker

2. Получение опыта

Существует множество способов получить опыт в этой области. Ниже перечислены те, которые, по моему мнению, принесут наибольшую пользу при переходе.

Стажировка

Наличие одной или нескольких стажировок в вашем резюме, возможно, является самым важным фактором для получения работы в качестве специалиста по анализу данных. По моему опыту, работодатели ищут сотрудников, которые видели грязный мир данных в бизнесе по сравнению с относительно чистыми данными, которые вы видите в академической среде.

Стажировка также поможет вам понять язык, на котором говорят в области Data Science. Люди в значительной степени используют эвристику и предубеждения при принятии решений. Поэтому, когда вы говорите как специалист по анализу данных, они будут более склонны считать вас таковым.

Кроме того, используйте свои статистические навыки с пользой для себя. Многие стартапы и небольшие организации были бы рады иметь в своей команде человека, способного анализировать небольшие наборы данных и при этом четко излагать результаты.

Создайте портфолио

Портфолио может помочь вам рассказать о широком спектре навыков и проектов, которые могут быть важны для потенциального работодателя. Не только это, но его также можно использовать, чтобы научиться правильно объяснять технические принципы людям, которые мало что понимают в этой области. Важный навык, которым необходимо обладать!

Я бы посоветовал вам иметь в своем портфолио одно из двух:

  • Либо несколько проектов в рамках одной специализации (например, глубокое обучение).
  • Либо несколько проектов по широкому спектру специализаций, чтобы продемонстрировать широкий спектр способностей.

Портфолио автора: https://github.com/MaartenGr/projects

3. Используйте свой предыдущий опыт с пользой для себя

После того как я переквалифицировалась из психолога в специалиста по анализу данных, я хотел, чтобы меня признали за мои технические навыки. Я так много работал, чтобы получить навыки, необходимые для того, чтобы называть себя специалистом по анализу данных. Работодатели часто говорили, что мое психологическое образование будет полезно при переводе решений в области Data Science / AI для нетехнических заинтересованных сторон. Однако я хотел сам работать над этими решениями! Бывали даже случаи, когда я убирал из резюме свои знания в области психологии, чтобы меня считали только как Data Scientist.

Оглядываясь назад, я понимаю, что это было неправильно. На самом деле все оказалось проще:

Сосредоточиться на той области, где знание психологии рассматривается в основном как знание предмета, а не как способность хорошо излагать технические вопросы. Для меня это вылилось в должность специалиста по анализу данных, где я сосредоточился на анализе и прогнозировании человеческого поведения.

ПРИМЕЧАНИЕ: Если вам нравится быть связующим звеном между исследователями данных и заинтересованными сторонами, то вашего социального опыта в сочетании с базовыми знаниями в области науки о данных должно быть достаточно для такой роли.

4. Изучите BI-инструменты

Использование BI-инструментов может быть не первым, что приходит на ум, когда вы думаете о решениях Data Science. На практике изучение этих инструментов важнее, чем вы думаете.

Если вы работаете не в исследовательской среде, то велика вероятность того, что вашими решениями будут пользоваться заинтересованные лица, не связанные с техническими аспектами. Эти заинтересованные лица, как правило, уже используют BI-инструменты для управления процессом принятия решений.

Для того чтобы ваша модель прогнозирования использовалась этими заинтересованными лицами, лучше всего интегрировать ее в существующий рабочий процесс. Знание того, какие BI-инструменты используются, поможет интегрировать результаты вашей модели в их рабочий процесс.

Несколько наиболее популярных инструментов перечислены выше (например, Qlik, Tableau и PowerBI). Я бы посоветовал, по крайней мере, сделать одну приборную панель (дашборд) со всеми инструментами, чтобы понять основные принципы их работы. Затем выберите предпочтительный метод и погрузитесь немного глубже, чтобы понять архитектуру данных этих приложений. Из доступных и бесплатных - PowerBI. К тому же на сайте PowerBI есть даже обучающие материалы. И на ютубе можно найти ролики.

5. Самообразование

Недостаток и преимущество гуманитарного образования заключается в том, что работодатели более склонны считать, что ваши навыки лучше всего подходят для должности, требующей много общения. Для того чтобы они признали ваши технические навыки, полезным может оказаться получение степени, будь то магистерская программа или онлайн-курсы.

Степень магистра

Получить степень магистра Data Science после окончания социально-ориентированной программы может быть довольно сложно. По сравнению с теми, кто имеет техническое образование, велика вероятность того, что у вас нет необходимых технических навыков, таких как программирование, линейная алгебра, исчисление, структуры данных и т.д.

Таким образом, важно искать программы, которые помогут вам получить необходимые навыки в ускоренные сроки. Некоторые программы имеют хороший баланс между техническими и социальными курсами, что может подойти человеку с социальным образованием.

Я бы посоветовал обратить внимание на магистерскую программу по исследованиям или магистерскую программу по науке о данных. Первая часто находится в рамках вашей области и позволяет вам сочетать ее с передовыми навыками анализа. Особенно если вы сосредоточитесь на предиктивном моделировании в своей магистерской диссертации. Вторая программа познакомит вас с общими алгоритмами и методами Data Science, сохраняя при этом хороший баланс между Data Science и бизнес-курсами.

Хотя многие советуют изучать компьютерные науки или математику, мне кажется, что для психолога это было бы слишком смещенным направлением.

Образовательный онлайн-платформы

Многим трудно поступить на новую магистерскую программу из-за финансовых трудностей или если они уже работают полный рабочий день. Отличным решением является прохождение MOOC's - Massive Open Online Courses. Другими словами, это простые курсы, которые можно пройти онлайн.

Что делает МООК идеальным вариантом для получения новой профессии, так это то, что вы можете заниматься на этих курсах в свободное время, когда вам удобно. Часто они даже дешевле, чем обычная степень магистра!

Проблема с этими курсами заключается в том, что необходимо провести исследование, чтобы определить, какие из них стоят вашего времени. Некоторые из них известны как отличные курсы, например, курсы Machine Learning и Deep Learning на Coursera от Эндрю Нг.

Лично я предпочитаю следующие платформы:

  • Coursera
  • Udacity (Nanodegree)
  • Udemy

В России пожалуй самый актуальный сейчас - Степик (stepik.org). Очень много бесплатных или недорогих курсов.

Для меня этот переход занял несколько лет больших усилий. Это трудный путь, но поверьте мне, он определенно того стоит!

Рубрика: 
Ключевые слова: 
Автор: 
Источник: 
  • towardsdatascience.com
Перевод: 
  • Valeratal
+1
0
-1