北京师范大学心理学部副部长骆方：智能化人才测评技术进展_热闻

在12月15日举办的用友大易2023人才管理与HR数智化年度论坛中，北京师范大学心理学部副部长骆方教授进行了有关「智能化人才测评技术进展」的主题演讲。以下内容根据骆方教授演讲内容整理而成。

目前，人才测评其实面临着非常大的挑战。

第一，目前我们缺乏一套对“完人”的有效测评机制，尽管我们在逻辑思维能力、技能、写作能力和沟通能力等方面有较为成熟的评估技术，但对于高阶能力和一些软技能如情绪调控、合作性、态度和健全人格等方面，我们仍然缺乏有效的评估手段。

第二，我们过于注重终结性评价，而忽视过程性评价。传统的评估方式往往以绩效为主要标准，而忽视了人才在过程中的付出、努力和成就。同时，我们在对过程性信息的采集、存储和追踪方面也存在不足。尽管数据存储能力有所提升，但我们仍需要更有效的规划和记录方法。

第三，个体发展的环境复杂多样，传统评价方法难以把握这些复杂因素及其动态变化。即使我们能够获得绩效数据，也要综合考虑个体所处的环境信息进行更客观的评估仍然存在困难。

尽管面临诸多挑战，但科技创新的不断发展为人才测评领域带来了新的机遇。从数据采集、传输存储、数据分析到可视化应用等各个环节，科技创新都为我们提供了新的可能性。此外，互联网上留痕的大量数据以及不断涌现的数据采集手段，都为我们进行人才测评提供了丰富的数据来源。这些创新技术不仅拓展了人才测评的广度和深度，也提高了测评的准确性和有效性。

在真实场景中，特别是在一些特殊关键岗位上，我们可以实时捕捉现场信息用于实时评估，实现无痕式的伴随式评估，而AI技术也为我们提供了许多方法，以下我将从四个方面介绍其应用。

十几年前，我们提出了“严肃游戏”的概念，即通过游戏的方式对员工或个体进行评估。传统的评估方式往往给被试带来很大的心理压力，如考试、人才选拔、校园招聘等环节，而游戏化的测评因为具有游戏化的场景，结合声光电等多种刺激，能够给候选人带来愉快的体验。

应用案例一：MOBA游戏玩家大五人格研究

我们与腾讯进行了一项研究，以一款Moba游戏为例。该游戏中，玩家在游戏过程中会留下大量数据记录。该游戏的特点在于合作性与对抗性并存，但玩家在游戏中可能会遇到一些不良体验，这些体验往往并非来自游戏本身，而是与其一起游戏的玩家有关，导致玩家感到不愉快。

为了提高游戏玩家的体验，我们需要解决玩家之间的匹配问题。同样，在企业中，团队的构成也是至关重要的因素。如果团队配置不合理，人与人之间的合作不顺利，任务就无法完成。因此，我们如何解决游戏玩家因伙伴不合适而影响体验的问题呢？我们可以从玩家的人格入手。

我们希望通过玩家在游戏中的留痕来预测其人格，并基于大数据建立游戏行为和人格特征的预测模型。在研究过程中，我们首先界定了大五人格的30个维度，并确定了研究方法。为了吸引玩家并评估他们的人格特征，我们经历了理论确定、编制测验、收集行为、验证结果等多个步骤，最终找到了游戏行为与人格特征之间的对应关系。

应用案例二：情景化测评技术

该应用自主研发测评技术，用于评价个人能力。这项技术结合了情境化测评技术，类似于谷歌等大型企业所使用的。在美国，许多学生毕业后进入这些企业，他们的主要任务是研发针对企业特定情境的测评技术。

这些测评技术可以游戏化或智能化，基础的是基于游戏化的公文框测验开发。除此之外，已经开发了情境判断测验，以前是文字型，现在通过动画、配音和真人视频来测试仿真情境下的反应。更高级的是将领导力的情境判断测验转化为交互场景，提供即时反馈。

另一个是直接模拟社交工具界面，建立高保真度对话情境，通过模拟对话来测评沟通能力、领导力、合作能力和创新力等。剑桥的研究发现，与大模型合作的人创造力更好，而创造力差的人与大模型合作创造力也提高不多。

在过去，我们主要依赖问卷和测验如MMPI、SCL-90来进行心理健康测评。然而，这些工具并不适用于人才选拔，因为它们最初是为了在医院或学校筛查心理障碍人群而设计的。如今，我们需要将其应用于企业环境中，这使得它们变得不适用。员工可能会在这些问卷中说谎、造假或不认真回答，导致所获取的数据无效，进而无法准确评估其心理健康风险。

事实上，有许多其他的方法和技术手段可以用来评估员工的心理健康风险，下面我介绍几种方法。

第一种是基于社交媒体的数据，例如知乎、微博（国内）以及Facebook、推特（国外），用户在这些平台上留下的痕迹或表达，可以作为窥探其人格和心理健康状态的重要线索。这些数据主要包括文本、图像和行为数据，如点赞、浏览等原始数据。大量研究表明，通过分析这些数据，我们可以深入了解用户的人格特质和心理健康状况。

第二大类是智能设备，也就是现在的智能手机、iPad，我们在上面的留痕其实是可以反映非常多的信息。以视频数据为例，通过智能手机可以提取多种数据，包括应用程序的使用情况、音乐消费偏好、通讯和行为数据、移动轨迹以及更高级别的行为类型。

第三大类是电子游戏，我们刚刚也举例了，基于打游戏我们就可以看出你的心理健康大五人格，打电子游戏的时候，其实也可以看出心理健康的测评数据。

第四大类是可穿戴设备。因为现在可穿戴设备包括脑电、眼动、心率、皮肤、温度都可以进行监测，而且它的精度相对比较高。大量研究已证明，可穿戴设备采集的数据对于预测焦虑、抑郁、创伤后应激障碍和注意力缺陷等疾病具有较好的准确性。

大数据的描述通常涉及数据的数量和复杂性，在人才测评中，数据量的大小并非唯一挑战，非结构化数据的复杂性也是一个重要问题。例如，大量的文字和行为表达等数据虽然被存储和记录，但如何有效挖掘这些数据是一个巨大的挑战。

业界在这一领域也正在进行各种尝试，涵盖生产力、工作分析、招聘、选拔、学习与发展、职业流动、员工流失、员工体验、多元化、包容性以及领导力等多个方面。这些研究和尝试表明，基于大数据的人才测评已不仅仅局限于测评本身，而是与人力资源相关的众多问题的共同探索。

举几个例子，第一个是工作态度，以前想去了解工作态度的时候都是用问卷，但是现在可以通过留言板、电子邮件等等，很多行为数据都被记录下来。

第二个是生产力。员工绩效，在一个全球连锁的案例研究当中，其实定义了来自不同来源的一万多个数据点，地方算法帮助确定商店业绩的关键驱动因素。

第三个是选拔，在人才选拔领域，企业开始试图从简历和社交媒体中提取信息（如教育、工作经验、绩点），用于预测优秀表现者，同时最小化潜在的偏见。

第四个是职业流动，如何挖掘企业当中重要的因素，大数据也是可以给我们很多的启发，包括员工的流失等等。

近几年来，整个计算机领域有了大的发展，尤其是大模型的出现，解决了自然语言处理领域里面言语生成不流畅或者不能很好理解问题。所以，人才测评未来有很多路要走。

第一，要强调多模态数据的协同分析。我们在使用人工智能做人才评估的时候，很多时候就是单一数据来源，但是以后可以有多种的数据来源，这里有一个非常重要的就是多模态数据的建模问题，这个需要计算机领域和我们学界业界共同完成的。

第二，是如何平衡准确性和可解释性问题。当使用计算机模型进行人才评估时，由于模型通常是黑匣子，我们无法得知其内部运作的具体机制。虽然这些模型在人才评估方面可能表现优异，但由于缺乏明确的解释，我们无法确定其预测的准确性。

第三，提高针对性和精细化。在应用人工智能进行心理健康评估时，我们通常只能获得较为笼统的结果。然而，在实际应用中，如进行后续的诊断或企业人才筛选时，我们需要更为精细的数据。

第四是基于AI做的人才测评的尝试，必须重视信度和效度的检验，如果未能通过信度和效度检验，那么人工智能加持的人才测评将如同高级算命，缺乏科学依据，具有极大的风险性。

最后一个是生成式的情境测验。我们在探索一种基于AI的情境测验方法，在这种情境下，被试者将与AI进行交互，并展现出他们的应对方式和思维模式。为了确保评估的准确性和全面性，我们将采集多种模态的数据，包括但不限于文字、语音、图像和行为数据，并进行综合分析。

大模型给了我们非常多的机遇，期待明年会有新的成果向大家发布，谢谢大家！

聚热点 juredian

北京师范大学心理学部副部长骆方：智能化人才测评技术进展

王菲30年前青涩旧照曝光，满脸胶...

【歌词】我明白你的爱 - 六哲 ...

中国探月工程总设计师：嫦娥七号2...

最新