Перейти к основному содержимому
ГлавнаяPython

Трек

Обучение с подкреплением на Python

Обновлено 05.2026
Освойте основы обучения с подкреплением (RL), чтобы создавать модели, способные ориентироваться в сложных реальных средах и обучать LLM.
Начать трек бесплатно
PythonМашинное обучение
12 ч
4,174

Создать бесплатный аккаунт

Продолжить через GoogleПоказать больше вариантов

или


Продолжая, вы принимаете наши Условия использования, нашу Политику конфиденциальности и соглашаетесь с тем, что ваши данные хранятся в США.

Любимая обучающимися из тысяч компаний

Group

Обучаете команду?

Попробуйте для бизнеса

Описание трека

Обучение с подкреплением на Python

Освойте основы обучения с подкреплением (RL) и узнайте, как создавать модели для навигации в сложных средах, часто встречающихся в робототехнике и видеоиграх.Если вы новичок в обучении с подкреплением или хотите специализироваться на обучении с подкреплением как разделе машинного обучения, это идеальное место для начала.Вы начнёте с изучения ключевых концепций обучения с подкреплением, таких как марковские процессы принятия решений, компромиссы между исследованием и эксплуатацией и алгоритмы динамического программирования. Вы научитесь применять Q-learning, SARSA и другие методы для навигации по горным хребтам и замёрзшим озёрам из библиотеки Gymnasium.Вы объедините глубокое обучение и обучение с подкреплением и познакомитесь с глубоким обучением с подкреплением, которое можно использовать для обучения агентов навигации в очень сложных средах при минимальном надзоре.По ходу дела вы примените эти методы для решения реальных проектов, включая оптимизацию маршрутов такси и симуляцию торговли акциями.С этими инструментами обучения с подкреплением под рукой вы готовы начать осваивать новое захватывающее применение обучения с подкреплением: обучение с подкреплением на основе обратной связи от человека (RLHF). RLHF можно использовать для улучшения результатов LLM, обучая их на человеческой обратной связи по их ответам.Начните свой путь в обучении с подкреплением уже сегодня!

Необходимые условия

Для этого трека нет предварительных требований
  • Course

    1

    Reinforcement Learning with Gymnasium in Python

    Start your reinforcement learning journey! Learn how agents can learn to solve environments through interactions.

  • Project

    бонус

    Taxi Route Optimization with Reinforcement Learning

    Solve the Taxi-v3 environment using Q-learning, ensuring efficient AI-driven transportation.

Обучение с подкреплением на Python
3 Курса
Трек
завершён

Получить сертификат об окончании

Добавьте эту квалификацию в профиль LinkedIn, резюме или CV
Поделитесь в социальных сетях и в обзоре эффективности
Записаться сейчас

Присоединяйтесь к более чем 19 миллионам обучающихся и начните Обучение с подкреплением на Python уже сегодня!

Создать бесплатный аккаунт

Продолжить через GoogleПоказать больше вариантов

или


Продолжая, вы принимаете наши Условия использования, нашу Политику конфиденциальности и соглашаетесь с тем, что ваши данные хранятся в США.

Развивайте свои навыки работы с данными с помощью DataCamp для мобильных устройств.

Успевайте в обучении на ходу с помощью наших мобильных курсов и ежедневных 5-минутных заданий по программированию.