为什么赛程难度是理解评分的关键

我们深入探讨对手实力如何影响选手的数据表现。

发布于 ,更新于

为什么赛程难度是理解评分的关键

来源:HLTV

我们深入探讨对手质量如何影响选手的数据表现。

每个体育迷都见过或听过,有选手因为对阵"水管工"或"农民"级别的对手表现出色而受到质疑。

在《反恐精英》中也是如此,统计数据常被一方粉丝用作攻击另一方选手的弹药。像 rating 这样的指标是其中的关键部分,但就其本身而言,它更多是引发讨论的起点,而非终极定论。

Rating 3.0 为讨论增添了大量背景信息;不同角色和打法的平均 rating 更加接近,经济局击杀也受到了惩罚。

但总会有额外的因素,其中最重要的是他们自己队伍和对手队伍的水平。一个在大赛中总是处于劣势的选手,无法与一支胜率远高的顶级队伍中的三号明星选手进行公平比较。

btrams 已经研究过势均力敌比赛中的 rating,而 as3455 则强调了选手在团队中的"胜利贡献度",并且抢先一步发布了他自己版本的调整后 rating,但仍有更多值得探索的地方。为此,我们在 BLAST 鹿特丹站之前,收集了大量 CS2 选手的地图级数据。

我们首先简单地看看选手作为热门方时的表现。直观地说,绝大多数选手在处于劣势时表现更差。

但也有例外。当 Vitality 在系列赛中排名较低时,Mathieu "⁠ZywOo⁠" Herbaut 的平均 rating 为 1.41。请注意,这只是 CS2 线下赛中的 25 张地图,但这仍然说明了他能够在面对通常排名第一的队伍时打出这样的数据。

站在论坛用户的角度,我们知道你现在想看什么:谁是最擅长"刷"低排名对手数据的"农场主",以及谁在自己处于劣势时表现不佳。

以下是选手对阵高排名和低排名对手时 rating 的差值。蓝色是好的,橙色是差的。我们展示了 2025 年排名前 24 的选手(如果他们打了足够多的地图)以及在此指标上表现最好和最差的三位选手,但你可以在这里查看完整列表。

为了理解如何解读这一点,我们先绕个弯子,看看一个选手的形象是如何形成的。粉丝们生活忙碌。从收视数据来看,普通人观看的大部分比赛要么是季后赛,要么是两支顶级队伍之间的对决。所以当我们看这些数据时,我们就能开始理解为什么那些在这些场景中表现下滑的选手会招致如此多的恶评。

如果你只在 Ádám "⁠torzsi⁠" Torzsás 对阵 Vitality 时才看他比赛,难怪你会认为他是个糟糕的狙击手。即使是像 Lotan "⁠Spinx⁠" Giladi 和 Ilya "⁠m0NESY⁠" Osipov 这样的精英选手,在处于劣势时也表现出大幅下滑,这解释了为什么论坛上也能对这两人大做文章。即使是强大的 Danil "⁠donk⁠" Kryshkovets,其 rating 也下降了 0.08 点,降至可怜的 1.32。

但在你冲到评论区说 donk/ZywOo/这篇文章是骗局之前,请先冷静一下。我们知道赢得比赛会带来更高的 rating,而要做到这一点,你需要一支好队伍。这些数据提供了一个起点,排在末尾的选手也是你预料会看到的,但我们可以走得更远。热门方可能领先 25 个名次,也可能只领先一个;这个指标没有考虑这一点。

当我们转而观察选手对阵排名相近的对手时(在本例中为排名相差在 5 位以内),像 Mareks "⁠YEKINDAR⁠" Gaļinskis 这样的选手从上张图的底部直接跳到了这张图的顶部。Ihor "⁠w0nderful⁠" Zhdanov 下降最多,对阵与 Natus Vincere 排名相近的对手时 rating 仅为 1.01。显然,这比简单地看选手作为热门方或劣势方的 rating 要微妙得多。

当然,只看势均力敌的比赛也有其自身的缺陷。在完整的 200 多支队伍排名中,10 个名次内的质量差异可能天差地别。我们可以使用排名积分来代替,但有更好的方法可以达到我们的目的。

利用 CS2 线下赛中超过 200 名选手的数据,我们追踪了每位选手个人资料页面上"精选 rating"部分的数据。作为粉丝,这里是检查"骗子"的便捷之处:如果他们的总体 rating 是 1.20,但对阵前 50 名队伍时 rating 低于 1.00,你就知道他们从弱队身上获益了。

在我们的样本中,我们记录了选手对阵不同级别对手的平均 rating 如下:

平均精选 rating

正如直觉所示,对手越强,rating 越低,以至于对阵前五名队伍时 0.95 的 rating 已经高于平均水平。这可能甚至比应有的水平还要高,因为幸存者偏差意味着我们只关注那些足够优秀、能够在对阵顶级队伍时打了很多地图而没有被踢掉的选手。

但即使没有幸存者偏差,我们也需要更进一步。同一分组中,一名选手的样本可能与另一名选手的样本大不相同;Robin "⁠ropz⁠" Kool 对阵前 50 名对手的 436 张地图中,有 253 张是对阵前 10 名队伍(58%)。即使是像 Jonathan "⁠EliGE⁠" Jablonowski(45%)这样的其他一线选手,其赛程难度也远低于此。Felipe "⁠insani⁠" Yuji 的数据总是令人印象深刻,但他在这里的结果只有 20%。

因此,将 ropz 对阵所有前 50 名对手的 rating 与 insani 的进行比较显然是不公平的。所以,我们必须将它们分开,查看选手对阵前 5 名对手的 rating,然后是对阵 6-10 名、11-20 名,依此类推。

在这种方法下,我们样本中的平均 rating 现在看起来有些不同,因为我们绕过了 ropz-insani 的问题。

分组拆分后的平均 rating

在我们样本中,ropz 对阵排名 31 至 50 队伍的 18 张地图里,他平均 rating 为 1.37,充分利用了对阵低排名对手的机会,但这仅使他对阵前 50 名对手的 rating(1.14)比对阵前 30 名对手的 rating(1.13)高了 0.01。

利用这些现已分开的 rating,我们可以计算出一个加权 rating,以观察选手相对于其对手水平的表现。结果如下:

图表顶部的选手面对的对手非常强大。我们的调整后 rating 则通过选手向右延伸的距离来显示。像 Santino "⁠try⁠" Rigal、Benjamin "⁠blameF⁠" Bremer 和 Kacper "⁠xKacpersky⁠" Gabara 这样的选手,就其所在级别而言非常令人印象深刻,但他们的调整后数据相比之前 1.20+ 的 rating 要低得多。

如果我们看看在 CS2 所有线下赛中,相对于未调整 rating 提升最多的选手,脱颖而出的是 Helvijs "⁠broky⁠" Saukants(从第 52 百分位跃升至第 79 百分位)、René "⁠TeSeS⁠" Madsen(从第 36 跃升至第 60)和 torzsi(从第 58 跃升至第 83)。这三人都难以在劣势方时打出好表现,但由于对阵顶级队伍的次数太多,导致他们的平均 rating 被不公平地拉低了。

可以预见,显著下滑的是尚未完全迈出下一步的年轻天才。Anarbileg "⁠cobrazera⁠" Uuganbayar 从第 74 百分位下降到第 47 百分位。Dmytro "⁠jambo⁠" Semera 从第 83 位下降到第 63 位。这向我们展示了总体 rating 是多么容易偏向那些引人注目的年轻天才,而不是我们习惯在一届又一届赛事中看到的熟悉面孔。

我们已经接近目标了,但如果我们想更进一步,还有一个明显的问题。当我们把对手分组时,我们丢失了很多细节。对阵一支拥有 1000 分的第一名队伍,显然比对阵一支凭借几次不错成绩才爬到第五名的队伍要困难得多。所以对于我们的下一个指标,我们要深入挖掘。

在文章的这一部分,我们收集了所有知名选手的地图级数据,以观察表现是如何在细微层面变化的。由此我们可以看到,对阵第一名队伍的平均 rating 仅为 0.90,而对阵第十名队伍时上升到 1.01,这是一个足够大的跳跃,显然我们丢失了一些本可以保留的背景信息。

例如,Nikita "⁠HeavyGod⁠" Martynenko 对阵前 5 名队伍时每张地图的 rating 为 1.02,但对阵世界第五名时 rating 为 1.17,这掩盖了他对阵前四名时的一些较差表现。

因此,要创建一个真正的对手调整 rating(OAR),我们需要每个对手的确切质量。然后,根据对手的排名积分,我们为每张地图计算出一个调整后的 rating。ZywOo 在 2025 年 3 月对阵拥有 921 分、世界排名第一的 Spirit 时打出的 1.75 rating,就变成了 2.03。然后我们对每张地图重复这个过程。

你可能已经发现了一个问题。Vitality 当时是第二名队伍,那么 ZywOo 值得这么大的加成吗?我们认为不是,所以我们在调整中增加了另一个因素:"相对难度"。因此,在这个系列赛中,ZywOo 那张地图的 OAR 最终为 1.88,这是对手质量得出的 2.03 和相对排名差异得出的 1.76 的平均值。

在更大的样本中,这意味着顶级队伍选手的相对难度调整 rating 会略低,因为他们很少在对阵最佳队伍时处于严重劣势。这也意味着较低级别的选手,如果他们在对阵同级别队伍时表现出色,就能够脱颖而出。

当我们查看 CS2 历史 OAR 排行榜时,blameF 以 1.13 的 rating 跃升至前十名。这比他线下赛 rating 1.21 低了 0.08,但承认了一个事实:即使他超过 80% 的样本是在排名 20 开外的队伍中打出的,他对阵顶级队伍的 rating 往往也能保持住(对阵前 10 名 1.10,对阵前 20 名 1.14)。

正如我们在文章开头所暗示的,任何试图将大量背景信息压缩成一个数字的高级指标都有其盲点。Maksim "⁠kyousuke⁠" Lukin 在这里排名第六,但他在季后赛中的 rating 是 1.07。对手质量是画面中很大的一部分,但它仍然只是众多因素中的一种颜色。

评估选手,无论是为了新秀榜、Top 20 榜单,还是作为战队侦察,都需要尽可能多地考虑这些因素。但在你正确考虑对手质量之前,任何评估都是不可能的。我们希望,通过 OAR,我们现在在这条道路上走得更远了。


在我们的交互式仪表板中更详细地探索数据