DeepSeek, kendi kendini geliştiren yapay zeka modeli için çalışıyor

DeepSeek, Ocak ayında piyasaya sürdüğü R1 adlı yapay zekâ modeli ve sohbet robotuyla büyük ilgi toplamıştı. Şirket, bu modelin OpenAI'nin ChatGPT’si kadar başarılı olduğunu, ancak çok daha düşük maliyetle çalıştığını savunmuştu.

Çin’in prestijli üniversitelerinden Tsinghua ile birlikte çalışan DeepSeek, Cuma günü yayımladığı son akademik çalışmasında, yapay zekâ modellerinin kendi kendini geliştirmesini sağlayan bir teknik geliştirdiklerini duyurdu.

Bu yeni teknolojiye 'kendi ilkelerine dayalı eleştiri ayarı' (self-principled critique tuning – SPCT) adı veriliyor. Bu yöntemle yapay zekâ, içerikleri değerlendirmek için kendi kurallarını oluşturuyor ve ardından bu kurallara dayanarak detaylı geri bildirimler (eleştiriler) üretiyor.

DeepSeek’in geliştirdiği sistem, büyük modeller kullanmak yerine, birden fazla değerlendirmeyi aynı anda çalıştırarak daha iyi sonuçlar elde ediyor.

Bu yaklaşım 'üretken ödül modellemesi' (generative reward modeling – GRM) olarak biliniyor. Bu sistem, yapay zekâların ürettiği içerikleri değerlendiriyor ve kullanıcıların beklentileriyle ne derece uyumlu olduğunu SPCT yöntemiyle kontrol ediyor.