Women’s learning: девушки-датасайентисты рассказывают о машинном обучении, карьерном росте и трендах

Data Scientists — эксперты по аналитическим данным, которые обладают техническими навыками для решения сложных задач. Они любят математику, являются чуть ли не учеными в области компьютерных наук, обожают статистику, и главное — данные и их анализ. В России, по данным Headhunter, зарплата специалиста в области Data Science и машинного обучения может достигать 300 тыс. руб. Понятное дело, что такие специалисты являются очень востребованными и высокооплачиваемыми на рынке.

Александра Мурзина, инженер по машинному обучению в группе перспективных технологий, Positive Technologies

Одной из наиболее многообещающих техник в машинном обучении сейчас является обучение с подкреплением (reinforcement learning). Именно на ней, кстати, основана система DeepMind, которая выиграла в StarCraft II. Такой подход к обучению, а потом и к использованию, действительно больше напоминает ИИ. Подобная система погружена в среду, дающую ей отклики на действия. Этот способ очень похож на то, как учимся мы с вами, но у нас на это, порой, уходят годы, а здесь есть возможность существенно ускорить процесс за счет моделирования и компьютерных мощностей.

Например, такая система быстрее научится «хорошо водить» автомобиль. Конечно, останутся вопросы, связанные с исключительными ситуациями и работой системы в их условиях (в силу ограничения решаемых ею задач). Не меньший шум осенью 2017 года вызвали капсульные нейронные сети: тогда говорили ни много ни мало, а практически о перевороте в мире глубокого обучения. Сегодня же в паблике о них почти забыли. На практике до сих пор очень популярны бустинги и архитектуры нейронных сетей, которые уже стали стандартом для решения определенных задач. Таких, к примеру, как детектирование объектов на изображениях или классификация изображений.

Теоретически ИИ как технология быстрее придет в те сферы, где работа человека в большей степени состоит из рутинных действий, либо в те области, где необходимо быстро принимать решения, основываясь на большом количестве данных. То есть нашумевшая новость о том, как 600 трейдеров заменили на две сотни программистов вполне себе может перейти в разряд рядовых событий в области автоматизации. Если обратиться к отрасли кибербезопасности, то такая автоматизация вероятна, например, в области вирусной аналитики, или выявления атак. К слову сказать наша команда, как раз и работает над технологией, которая позволяет с помощью машинного обучения выявлять атаки на веб-приложения за считанные секунды.

На практике же предсказать отрасли, в которых ИИ будет востребован наиболее масштабно в полную силу и в ближайшее время сложно, так как его использование сопряжено с массой социальных и юридических нюансов. Скажем, автопилотирование: технологически уже вполне возможно перевести стандартные авиарейсы на автопилоты, но как много пассажиров доверят свою жизнь самолету без человека, сидящего за штурвалом? Или, скажем, медицина ─ разработок, основанных на использовании ИИ применительно к этой отрасли много, но с точки зрения законодательной базы ими нельзя пользоваться в полной мере и сегодня они остаются пока на уровне концептуальных.

Да, вокруг направления много шума: при этом многие эксперты предпочитают сразу говорить о решении конкретных проблем, экономии времени и денег, при условии использования технологии. В реальности эти идеи спотыкаются о кадровый вопрос: если несколько лет назад были актуальны разговоры о дефиците программистов, то и сейчас ничего не изменилось, кроме того, что теперь нужны уже не просто, к примеру, java-программисты, а еще и комплексные инженеры, которые могут задачу понять и решить, в том числе и методами машинного обучения.

Ощущение перенасыщения рынка специалистами по машинному обучению скорее обманчивое, чем реальное. Да, многие считают, что могут быстро изучить эту область пройдя пару-тройку курсов, а в итоге рынок перенасыщен специалистами с нерелевантным бэкграундом. Однако машинное обучение — это в большинстве случаев инструмент для эффективного решения конкретной задачи (ну, только если вы не занимаетесь им ради него самого) и для того, чтобы правильно подобрать инструмент нужно обладать обширной экспертизой в конкретной сфере (в нашем случае в информационной безопасности).

История же с машинным обучением сегодня больше напоминает ситуацию с популярным в разработческой среде антипаттерном «золотой молоток», при котором любую задачу стараются решить с помощью одного единственного (хоть и золотого) молотка. Специалисты по машинному обучению, прошедшие пару-тройку курсов, применяют свой опыт в ста случаях из ста, не будучи в состоянии понять, когда нужен иной инструментарий — дополнительный. Многие из таких свежеиспеченных специалистов не разработчики и не могут выйти за рамки Jupyter Notebook (популярный инструмент в ML), либо не обладают должными знаниями в других областях, что не позволяет им успешно использовать технологию в какой-либо конкретной сфере для решения специфических задач.

Алена Арыкина, Data Scientist ПАО «Сбербанк»

В машинном обучении есть часть творческая, зависящая от данных и знаний об области, от интуиции разработчика и многого другого. И есть вещи автоматические, где нужно найти параметры получше и переписать давно известный код. Вторую часть, как и в любом «механическом» процессе, люди стремятся всё оптимизировать, в том числе и с помощью машинного обучения. Если раньше математики переходили от «ручного обучения» к автоматическому на основе таких библиотек как keras, то сегодня примерами таких оптимизаций могут служить библиотеки управления состоянием датасетов, предобработкой картинок и текстов, даже автоматического выявления особенностей элементов. Алгоритмы могут быть простыми (обрезать окончания у слов) или сложными (построить специальные нейросети — автоэнкодеры, сжимающие данные до любого размера), но набор таких средств подготовки чаще всего определяет качество финальной модели, а значит, и навыки датасайнтиста.

Машинное обучение в итоге придет позже всего в те области, где его будет тормозить законодательство или человеческое недоверие: медицина или машина с автопилотом. Мы уже видим потрясающие достижения в этих областях — их вовсю используют в других странах. Но я уверена: чтобы внедрить их у нас и сделать доступными для простых людей, придется выиграть не одну бюрократическую войну.

Data Science — это правда очень интересно. Каждый второй мой знакомый айтишник уже хотя бы читал про машинное обучение. Волей-неволей начинаешь переживать: не станет ли датасайнтистов слишком много. Кроме того, сейчас машинное обучение пытаются использовать в любом ИТ-проекте и для любых задач, не очень себе представляя, зачем такие алгоритм там нужны, — модно же. Хайп пройдет и количество вакансий снизится. С другой стороны, вопрос: останутся ли в профессии те, кто и правда любит Data Science, а не погнался за модой.

Татьяна Савельева, руководитель группы неструктурированных данных, Яндекс.Такси, автор телеграм-канала tldr_arxiv

Слово «ИИ» я вообще не очень люблю, потому что оно слишком общее и амбициозное, и часто заставляет людей переоценивать уровень технологий. Знаете, есть такая шутка: «Как отличить ML от ИИ? ML делают на Python, а ИИ — в PowerPoint».

Первый тренд Data Science — это увеличивающаяся популярность предметной области: компании все больше понимают, что без обработки большого количества полезной информации в будущем будет тяжеловато. Есть тренд на автоматизацию машинного обучения: если 10 лет назад приходилось писать все методы для работы самому, то сейчас есть много удобных готовых библиотек.

Но с возрастающим удобством использования методов актуальные инструменты все быстрее и все больше меняются — нужно постоянно держать руку на пульсе. Есть тренд на использование нейронных сетей: индустриальные конференции публикуют все больше статей, связанных именно с этим типом алгоритмов.

Так-то машинное обучение в последнюю очередь придет в сферы, где данных достаточно мало или где их вообще нет — например, таким способом вряд ли предскажешь место, где упадет астероид, или время столкновения Луны с Землей. Кажется, что машинное обучение тяжело внедрять в бюрократических институтах — государственных органах, медучреждениях.

В любом случае, в какой-то момент на рынке будут появляться в большом количестве претенденты на стартовые вакансии — младшие специалисты или стажеры, так как знания, необходимые для трудоустройства на такую позицию, становятся все доступнее. Но спрос на опытных специалистов, которые уже реализовывали ML-проекты, будет расти, поскольку на получение этого опыта уходит достаточно много времени и усилий, а количество задач по машинному обучению растет быстрее, чем число людей, которые успели и смогли такой опыт получить.

Эмели Драль, директор по анализу данных Mechanica AI, руководитель курса Data Mining in Action

В сфере машинного обучения одним из наиболее ярких трендов является переход от его использования в качестве вспомогательной технологии к полной автоматизации на его основе. Наиболее ярко это проявляется в автоматизации промышленного производства, сельского хозяйства и агропромышленности, а также развитии концепций умный город и умный дом.

Сейчас сфер применения машинного обучения довольно много и это связано с текущим уровнем развития стека технологий, уровнем нашего понимания области и рядом нерешенных этических вопросов. Мой личный топ применения — медицина, психология и педагогика. Здесь речь в первую очередь не о вспомогательных сервисах (рекомендательные системы по диагностике заболеваний или диалоговые системы), а о полной автоматизации процессов посредством AI и ML.

Я думаю, что сфера ИТ сегодня отличается тем, что технологии развиваются очень динамично и если перестать успевать за этими изменениями, то имеется вполне осязаемый риск стать невостребованным специалистом. Это одна из немногих сфер, где выпускники вузов без опыта могут конкурировать с опытными специалистами.

Благодаря динамичности рынка работа для тех, кто успевает за трендами, будет всегда. А вот тем, кто не готов учиться всю жизнь, предстоит решить непростой вопрос: как оставаться релевантным. Здесь поможет опыт, профессиональный кругозор и знания смежных (или не очень!) областей деятельности.

Сфера образования в данный момент меняется концептуально и, если так можно выразиться, разворачивается лицом не только к школьникам и студентам, но и ко взрослым специалистам с опытом работы.Имея релевантное образование в прошлом, достаточное количество времени и должный уровень упорства, можно переквалифицироваться самостоятельно без существенных финансовых вложений и пройти собеседование как минимум на начальную позицию в сфере анализа данных. Это одна из целей, которые ставят перед собой онлайн-курсы.

Если говорить о вузах, большинство из них испытывает целый ряд трудностей в преподавании актуальных технических дисциплин: технологии меняются очень быстро, нужно привлекать практикующих специалистов, а они не всегда готовы работать в том формате, который подразумевает вуз. Так на помощь приходят ведущие ИТ-компании, которые создают школы, открывают кафедры на базе вузов, проводят практические курсы и стажировки, а также обучают вчерашних выпускников внутри компании на старте работы. В конченом счете задачу вуза я лично вижу не только и не столько в том, чтобы выпустить готового специалиста на рынок, а в том, что высшее образование должно дать человеку определенный культурный, интеллектуальный и эмоциональный уровень, от которых его профессиональная жизнь зависит в большей степени, нежели от знания конкретных технологий.

Анна Воеводская, эксперт по машинному обучению, «Инфосистемы Джет»

Мне кажется, сейчас всё больше и больше применяют reinforcement learning (обучение с подкреплением). Решение учиться, взаимодействуя со средой, используя вознаграждения, действия и наблюдения. Один из самых известных примеров обучения с подкреплением — AlphaGo. Также такие методы обучения применяются для моделирования движения человека (последние соревнования на NIPS были про RL), машин и другого.

Машинное обучение — это волшебство в самом лучшем смысле. Довольно сложная математика применяется именно к вашим данным, делается глубинный анализ и выдается весьма точный прогноз именно для вас. И все хотят себе этого волшебства: и деньги зарабатывает, и для имиджа полезно — отлично же.

Что касается перенасыщения рынка кадрами, я в это не верю. Хороших специалистов всегда сложно найти. Например, Java появилась не два года назад, а senior в этой области найти всё ещё трудно. А хороший датасайетнист вообще как единорог: и математику знает и любит, и кодит, и бизнес-метрики понимает, и объясняет всё хорошо. Если у нас в какой-то момент в мире случится переизбыток таких людей, то будет неплохо. Но это какая-то утопия.

The post Women’s learning: девушки-датасайентисты рассказывают о машинном обучении, карьерном росте и трендах appeared first on Хайтек.


Автор записи: Серёжа

Администратор сайта

Комментировать “Women’s learning: девушки-датасайентисты рассказывают о машинном обучении, карьерном росте и трендах”