Skip to content
Go back 2504.15801 arXiv logo

A closer look at how large language models trust humans: patterns and biases

Published:  at  04:29 PM
56.91 🤔

本研究通过模拟实验首次揭示大型语言模型对人类的隐性信任模式,显示其类似于人类受可信度维度影响,但存在模型异质性和人口统计学偏差。

Large Language Model, Human-AI Interaction, Trustworthy AI, AI Ethics, Fairness, Robustness

Valeria Lerman, Yaniv Dover

The Hebrew University Business School, The Federmann Center for the Study of Rationality

Generated by grok-3-mini-latest

Background Problem

随着大型语言模型(LLMs)和基于LLM的代理在决策环境中与人类互动日益增多,理解AI对人类的信任动态变得至关重要。现有的研究主要关注人类对AI的信任,而AI对人类的信任机制鲜有探讨。本文基于行为理论,探讨LLMs是否像人类一样,其信任受人类受托者的能力、仁慈和正直等可信度维度影响,以及人口统计学变量(如年龄、宗教和性别)对信任的影响。研究背景强调,LLMs在决策中的应用可能隐含对人类的有效信任,这可能导致偏差和有害结果,因此需要通过实验验证LLMs信任形成的模式。

Method

本文的核心思想是通过模拟实验框架,基于心理信任理论(Mayer et al., 1995)量化LLMs对人类的隐性信任。具体方法包括:

Experiment

实验涉及五个场景和五个LLM模型,共43,200次模拟,每个场景重复12次以确保鲁棒性。数据集通过系统操纵可信度维度(高/低水平)和人口统计学变量(性别、年龄、宗教),使用t检验验证操纵有效性,OLS回归和相关分析评估信任预测。实验设置合理全面,覆盖组织、金融、社会等情境,预期LLMs信任类似于人类(受可信度影响),结果部分符合:高层管理者场景显示强相关(e.g., 完整性与信任相关系数最高,达0.77***),但其他场景异质性高,如捐赠请求场景中一些模型相关弱(≤0.20)。人口统计学偏差在金融场景显著(e.g., 犹太宗教增加信任),t检验显示所有场景可信度操纵有效(p < 0.001)。结果整体匹配预期,但模型间差异提示LLMs信任不一致,可能由于训练数据或架构差异。

Further Thoughts

本文的工作启发我们思考AI信任机制的更广泛应用,例如在AI伦理框架中整合信任评估以减少偏差,或与其他研究结合,如Wan et al. (2023)关于LLM性别偏差的研究,探讨信任偏差如何放大社会不平等;此外,可以扩展到多代理系统,研究AI间信任动态,类似于人类社会网络,潜在地提升AI在协作决策中的公平性和可靠性。



Previous Post
DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition
Next Post
Pushing the boundary on Natural Language Inference