廣東益福報(bào)廢產(chǎn)品銷毀中心12月8日 報(bào)道:Anthropic采用一種新方法來防備人工智能(AI)對受保護(hù)群體進(jìn)行歧視,經(jīng)過在提示中投入請求,要求AI“極端尤其尤其異常”友好地對待,并且這一策略在降低歧視方面取得了成功。
探求人員經(jīng)過在提示中注入“干預(yù)”來告訴模型不要有偏見,譬如經(jīng)過表達(dá)即使源于技術(shù)問題包羅了受保護(hù)特征,模型如何“想象”在做決策時(shí)去除這些特征。這種方法在許多嘗試案例中成功將歧視降低到幾乎零。
即使這種方法在現(xiàn)在情況下似乎取得了成功,但思量人員認(rèn)為像Claude這樣的模型不適用于首要決策,強(qiáng)調(diào)怎樣由政府和社會(huì)整體來效用高風(fēng)險(xiǎn)決策的適當(dāng)使用,而不僅僅由個(gè)別公司或行為者做決定。
這項(xiàng)思索為降低人工智能歧視供應(yīng)了一種新的策略,強(qiáng)調(diào)了在高風(fēng)險(xiǎn)決策中謹(jǐn)慎使用語言模型的重要性。
(舉報(bào))