O aprendizado com HITL no ChatGPT (RLHF)
Você provavelmente já ouviu falar de
RLHF (Reinforcement Learning from Human Feedback). Essa técnica famosa, usada para treinar o
ChatGPT, é um exemplo clássico de
HITL.
Nesse contexto, os humanos não apenas corrigem erros, mas classificam as melhores respostas. Eles dizem à IA: "a resposta A foi mais útil e educada do que a resposta B". Portanto, o modelo aprende não apenas a acertar fatos e responder bem à
engenharia do prompt, mas a adotar um tom de conversa que agrada aos usuários.