Ana içeriğe atla

Kurs

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

İleri SeviyeBeceri Seviyesi

Güncel 10.2024

Gelişmiş LLM'lerle pratik deneyim kazanırken, GenAI modellerinin insan değerlerini gerçek anlamda yansıtmasını sağlamayı öğrenin.

Kursa Ücretsiz Başlayın

PythonArtificial Intelligence

4 sa

13 video

38 Egzersiz

2,900 XP

3,670

Başarı Belgesi

Binlerce şirketten öğrencinin sevgisini kazandı

Bir Ekibi Eğitiyor musunuz?

İşletmeler için deneyin

Kurs Açıklaması

Bu kursta Generative AI’nin verimliliğini insan uzmanlığının kavrayışıyla birleştir. GenAI modellerinin insan değerlerini ve tercihlerini gerçekten yansıtmasını nasıl sağlayacağını öğrenirken LLM’lerle uygulamalı deneyim kazanacaksın. Ayrıca ödül modellerinin karmaşıklıklarında yol alacak ve yalnızca öğrenen değil, gerçek dünyadaki senaryolara uyum sağlayan yapay zekâ üretmek için LLM’lerin üzerine nasıl inşa edileceğini keşfedeceksin.

Önkoşullar

Deep Reinforcement Learning in Python

1

Temel Kavramlar

Bu bölüm, Yapay Zekânın daha etkili öğrenmesine yardımcı olmak için insan girdisini kullanan İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) temellerini tanıtır. RLHF’ye, geleneksel pekiştirmeli öğrenmeden nasıl ayrıldığını ve insan geri bildiriminin neden farklı alanlarda yapay zekâ performansını artırabildiğini anlayarak başla.

RLHF'ye Giriş

RLHF ile metin üretimi

RLHF için üretilen metni sınıflandırma

Önceden eğitilmiş LLM'leri keşfetme

Bir metin veri kümesini tokenleştir

Yorum sınıflandırması için ince ayar (fine-tuning)

RLHF için verileri hazırlama

Tercih veri kümesini hazırlama

İstemleri çıkarma

Bölümü Başlat

2

İnsan Geri Bildirimi Toplama

Bu bölümde, insan geri bildirimi toplamak için sistemleri nasıl kuracağını keşfet. Eşli karşılaştırmalardan belirsizlik örneklemesine kadar yüksek kaliteli veri toplamanın en iyi uygulamalarını öğren ve veri toplamanı güçlendirecek stratejileri incele.

Yüksek kaliteli geri bildirim toplama yöntemleri

RLHF'de karşılaştırma ve derecelendirmeyi anlama

Bir spor salonu kampanyası için sloganları karşılaştırma

Geri bildirim kalitesini ve uygunluğunu ölçme

Düşük güven

Geri bildirim kümeleme için K-means

Aktif öğrenme

Aktif öğrenme hattı (pipeline) uygulama

Aktif öğrenme döngüsü

Bölümü Başlat

3

İnsan Geri Bildirimiyle Modelleri Ayarlama

Bu bölümde, İnsan Geri Bildiriminden Pekiştirmeli Öğrenme eğitiminin özüne ineceksin. Bu; PPO ile ince ayarı keşfetmeyi, verimli eğitim tekniklerini ve metrik hedeflerinden olası sapmaları yönetmeyi içerir.

Ödül modellerine derin bakış

Ödülü başlatma

Ödül eğitmenini ayarlama

PPO ile eğitim

PPO eğitmenini başlat

PPO ile ince ayar

RLHF'te verimli ince ayar

8-bit Eğitime Hazırlık

LoRA ile eğit

Bölümü Başlat

4

Model Değerlendirme

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) kursunun bu son bölümünde model performansını değerlendirme ve iyileştirme için temel teknikleri keşfet: ince ayar metriklerinden çeşitli geri bildirim kaynaklarını dahil etmeye kadar, modellerini etkili şekilde geliştirmek için kapsamlı bir araç seti sunulacak.

Model metrikleri ve ayarlamalar

Negatif KL ayrışmasını azaltma

Ödül modelini kontrol etme

Çeşitli geri bildirim kaynaklarını entegre etmek

Birden çok veri kaynağında çoğunluk oylaması

Güvenilmez veri kaynağını belirleme

RLHF modellerini değerlendirme

Eğrileri yorumlama

Metriklerle RLHF değerlendirme

RLHF yolculuğunu noktalayalım

Bölümü Başlat

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Kurs
Tamamlandı

Başarı Belgesi Kazanın

Bu kimlik bilgisini LinkedIn profilinize, özgeçmişinize veya CV'nize ekleyin
Sosyal medyada ve performans incelemenizde paylaşınŞimdi kaydolun

Bugün 19 milyondan fazla öğrenciye katılın ve İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) eğitimine başlayın!

DataCamp for Mobile ile veri becerilerinizi geliştirin

Mobil kurslarımız ve günde 5 dakikalık kodlama görevlerimizle hareket halindeyken ilerleme kaydedin.