Kako bi poboljšali otpornost umjetne inteligencije na štetna ponašanja, istraživači tvrtke Anthropic razvili su neobičnu metodu; tijekom obuke velikim jezičnim modelima namjerno su 'ubrizgali' neželjene osobine. Pokazalo se da takav pristup, koji nazivaju 'preventivnim upravljanjem', može smanjiti rizik da AI kasnije razvije toksične obrasce ponašanja, bez narušavanja njegovih sposobnosti