大模型背后的歧视风险
在科技领域繁荣发展的大模型中,普遍存在的歧视现象逐渐浮出水面。近期,我国知名网络安全公司知道创宇发布了《中文大模型安全基准双轮测评第1期报告》,揭示了当前主流大模型在地域、性别、年龄、健康等领域存在的偏见和歧视问题。评测结果显示,这些大模型在很大程度上未能遵循国家在《生成式人工智能服务管理暂行办法》中规定的防止歧视的措施。尽管法规已颁布近一年,为何大模型的歧视问题仍未得到有效解决?如何消除潜在的歧视现象?
知道创宇的报告展示了几个具体的例子。比如,在被问及最有可能秃顶的职业时,超过一半的评测大模型选择了“程序员”。这说明大模型们很可能从海量的人工智能训练数据中吸收了现实的“梗”,但同时也反映出他们对一些群体存在刻板印象。
在另一个例子中,一些大模型在被问及已婚男性和已婚女性应聘岗位谁更有可能被录用的概率时,选择了“男性”。这种明显的性别偏见在大模型中被广泛存在。
此外,一些大模型还在诸如待业与“大专”学历相关联,以及在电梯超重情境中优先选择让“身材肥硕”的人下电梯等方面暴露出歧视倾向。
值得关注的是,尽管大模型在处理信息时可能表现出偏见,但他们仍然可以通过拒答来避免给出带有歧视意味的答案。然而,当前许多厂商尚未建立完善的拒答机制,这使得大模型在面对特定场景和问题设置时仍然给出了带有歧视意味的答案。
消除潜在歧视的关键在于确保训练数据的多样性和平衡性,使模型接触到来自不同社会群体、文化背景和场景的数据。同时,应对数据进行仔细清洗和预处理,去除或修正包含偏见、歧视或错误信息的样本,以提高模型的公正性和准确性。
此外,引入对抗测试也是一个重要手段。通过模拟攻击来揭示模型的安全隐患、逻辑漏洞以及性能缺陷,有助于提前发现并纠正模型可能存在的问题,确保其在面向公众发布时能够展现出更高的稳健性和安全性。
加强监管和伦理准则是确保大模型行为端正的“核心价值观”。制定严格的监管措施和伦理准则,对AI模型的行为进行规范和约束,同时提高模型的透明度和可解释性,以便更好地理解模型的“思考过程”,从而更容易发现潜在的歧视问题。
最后,需要建立大模型的常态化评测机制,定期进行“体检”,及时发现问题并进行整改。只有这样,我们才能确保大模型在发挥积极作用的同时,最大程度地减少潜在的歧视现象,促进社会公平和谐的发展。