Co to jest RLHF? Wyjaśniamy, jak „wychowuje” się ChatGPT
W artykule o AI Alignment wyjaśniliśmy, że surowe modele LLM po treningu na internecie są inteligentne, ale nie „pomocne”. Potrafią być stronnicze (bias), toksyczne i zmyślać. Jak więc firmy (jak OpenAI czy Anthropic) zamieniają tego „surowego” geniusza w uprzejmego, pomocnego asystenta, który odmawia generowania szkodliwych treści? Odpowiedzią jest RLHF, czyli Reinforcement Learning from Human Feedback…










