北大数字金融Workshop第八讲 | 欧阳书淼:人工智能对齐如何塑造大语言模型的风险偏好
发布时间:2024-12-26

2024年12月10日星期二,北京大学国家发展研究院、北京大学数字金融研究中心举办了本学期第八次数字金融Workshop。本次workshop有幸邀请到了英国牛津大学赛德商学院金融学副教授Shumiao Ouyang(欧阳书淼)主讲题为“How Ethical Should AI Be? How AI Alignment Shapes the Risk Preferences of LLMs” (人工智能应该有多道德? 人工智能对齐如何塑造大语言模型的风险偏好)的最新研究。北京大学国家发展研究院助理教授、北大数字金融中心研究员胡佳胤主持Workshop,近六十位师生通过线上或线下的方式参加了讲座。

随着ChatGPT等大语言模型(LLMs)在各行业展现出卓越表现,AI系统正逐步渗透到金融决策的各个环节,展现出重塑行业格局并影响更广泛经济领域的潜力。然而,AI相关模型存会在数据偏差和“幻觉”等关键缺陷。为应对这些问题,许多研究和媒体呼吁在部署前进行社会价值对齐,认为通过将大语言模型与社会价值观和伦理标准相结合,能够有效缓解这些负面影响。

然而,目前的讨论关于AI对齐如何影响LLMs经济行为的实证证据也很有限。欧阳教授团队提出了三个关键研究问题并利用现有大模型进行了一项实验:LLMs具有什么样的内在风险偏好?这些偏好在不同模型间如何变化?将LLMs与人类伦理标准对齐的过程如何影响它们的风险偏好和经济决策?

第一阶段,欧阳老师和合作者首先通过经典的经济学任务和投资场景模拟来识别30个LLMs的内在风险状况。具体而言,研究团队向每个模型提出了180次关于风险偏好的问题,并通过100次投资情景测试来考察模型的风险决策行为。团队首先研究了大语言模型是否具有稳定的风险偏好特征。为此,他们采用了两种测试方法:直接询问模型的风险态度和经典的投资情景测试。

研究发现,首先,大语言模型表现出多样化的风险偏好,从高度风险厌恶到风险偏好不等,这种差异性类似于人类决策者;其次,同一模型的风险偏好表现出很强的一致性,即使在不同规模的投资金额下也保持稳定;再次,模型的自我声明风险偏好与其实际投资行为显著相关。比如,自我声明为风险偏好型的模型确实会在投资测试中投入更多资金。最后,大约90%的模型表现出一定程度的风险厌恶倾向,而只有少数模型展现出明显的风险偏好倾向。

在第二阶段,欧阳老师和合作者主要探索了AI对齐如何影响大语言模型风险偏好的机制。研究方法方面,团队选择了相对"原始"的Mistral基础模型作为研究对象,因为它比ChatGPT等模型受到的预对齐训练较少,更容易观察对齐效果。基于BIG-bench数据集,研究团队从无害性(Harmless)、有用性(Helpful)和诚实性(Honest)三个维度进行对齐训练,分别构建了三个单维度对齐模型和一个综合了所有维度的HHH模型。为评估对齐的影响,研究团队采用了与第一阶段相同的风险偏好测试和投资情景实验,并通过分析企业盈利电话会议记录来检验模型在实际金融场景中的表现。

研究发现,AI对齐显著改变了模型的风险偏好和决策行为。基础Mistral模型原本表现出相对均衡的风险态度,但经过对齐训练后普遍变得更加谨慎,其中HHH综合对齐的模型表现出最强的风险厌恶,约98%的响应显示风险规避倾向。这种保守倾向在投资决策中表现得尤为明显:HHH模型在投资测试中采取最保守的策略,且随着投资规模增加,其投资额度比基础模型显著更低。即使被明确指示采取风险偏好策略,对齐后的模型仍保持谨慎态度。在实际应用中,基础模型的投资评分从0.124降至HHH模型的0.001,表明过度对齐可能导致模型做出过于保守的预测,潜在造成投资不足。

总结来看,欧阳教授团队的研究揭示了大语言模型(LLMs)展现出广泛的风险偏好,类似于人类行为。这些内在的风险状况对于LLMs在复杂金融场景中的有效应用至关重要。团队还发现AI对齐过程也会重塑它们的风险偏好,而这意味着对齐可以确保模型应用的道德水平,甚至还能通过调整LLMs使其用于实际经济决策。这种双重影响凸显了金融机构在将AI整合到财务顾问角色时,需要仔细考虑LLMs的内在风险倾向和AI对齐可能带来的变化。

这一研究通过揭示LLMs的风险偏好及其对齐调整机制如何影响金融决策,推进了AI和经济学的交叉研究。研究不仅探索了如何在保持道德标准的同时优化LLMs在金融领域的应用,更为金融机构和监管者应对AI经济带来的挑战提供了新的视角。展望未来,这些发现将助力金融领域更负责任地运用AI,推动实现一个人工智能不仅支持且能提升经济决策质量的未来。

在讲座过程中,北京大学国家发展研究院助理教授胡佳胤、刘诗尧、薛思帆,北京大学国家发展研究院博士生胡诗云、俞之瀚等先后围绕研究设计、研究意义等与主讲嘉宾进行了深入探讨。

欧阳书淼是牛津大学赛德商学院的金融学副教授,以及Wadham College的管理学导师。他在普林斯顿大学获得经济学博士学位,在北京大学获得金融学硕士学位,并在清华大学完成了生物学与经济学双学士学位。自2018年以来,他与包括蚂蚁集团和阿里巴巴在内的知名大科技公司展开合作,运用其专业知识深入研究金融与技术不断演变的格局。欧阳书淼的研究主要集中于金融科技、家庭金融、数据隐私以及金融中介,特别关注于新兴的大科技金融领域。作为一名经济学家,他致力于探讨金融与技术之间复杂的关系,揭示我们快速数字化世界中深远的经济影响。