人工知能：整合性のとれていない大規模言語モデルはタスク間で悪影響を広げる可能性がある | Nature | Nature Portfolio

限定的なタスクで悪意ある行動を学習した人工知能モデルは、悪意ある助言を提供するなど、無関係なタスクにもこの行動を一般化することを示唆する論文が、Nature にオープンアクセスで掲載される。この研究は、このような不整合（misaligned）な行動を引き起こすメカニズムを探っているが、なぜ発生するのか、どう防止す...