|手握腾讯全系广告资源位,百亿级的日均曝光,腾讯广告可谓是一个被忽视的大规模 AI 技术「练兵场」。

这是陶明第三次参加腾讯广告算法大赛。他来自吉林大学,这一赛事恰好也贯穿了他的研究生生涯。他从研一开始参加第一届大赛,到如今他已研三毕业,腾讯广告算法大赛也步入了第三年。

除了通过大赛交流学习外,验证自身对于算法的思考成为他参加本次广告大赛的重要因素。谈起这三年「打比赛」的经历他深有感触:最开始选手都采用相类似的模型,如今模型差异与多样化越来越明显;最开始大家主要使用 XGBoost 机器学习算法做预测,而如今更多使用效果更优的 LightGBM 算法,同时深度神经网络也成为选手尝试的对象。

陶明也是腾讯广告算法大赛的「常胜将军」,第一届比赛团队斩获季军,第二届团队获得冠军,今年第三届又摘得季军,可谓硕果累累,小有收获。或许正是大赛所带来的积淀与成就感,他也选择以一名算法工程师的身份作为自身职场的开端。

而在腾讯广告算法大赛的背后,腾讯广告正试图以大赛为纽带,连接工业界和学术界,由腾讯广告提供经过脱敏处理的实际业务数据和真实应用场景,结合学术界的技术探索,从而推动腾讯广告乃至引领整个互联网广告行业的发展。

1.从真实业务场景出发

在互联网广告中,广告主十分关心一件事——如何用尽可能少的成本达到预期的投放效果。此时,广告曝光预估就显得尤为重要,它是一种更直观的投入产出量化参考工具,广告主可以根据曝光预估结果提前调整广告投放出价、定向、时段等设置,制定合适的广告投放策略。

更准确的广告曝光预估对广告主而言无疑是一把「利器」,能够帮助广告主达成更好的传播效果,并节省试错的时间和金钱成本。

但要把广告曝光预估做到极致,对于行业而言并非易事。以腾讯广告为例,它涉及社交、游戏、音乐、视频、新闻等多元复杂的场景,每个场景都有较大的差异,以腾讯新闻为例,这一产品具有很强的媒体属性,往往一个热点新闻发生后,形成用户人群的流量波峰,进而导致不同时间段内流量有较大的波动,广告曝光的量级极有可能产生巨大变化,这都给预估工作带来很大挑战。

因此,腾讯广告从实际业务出发,将广告曝光预估作为本届广告算法大赛的考题,开放源于业务的脱敏广告数据,并提供算力支持,以期在学术界点燃星星之火,通过 AI 和机器学习解决实际问题。这一点与前两届比赛可谓一脉相承。

▲腾讯副总裁罗征

腾讯广告副总裁罗征解释,「广告曝光预估是一个重要工具,并且这也是广告主们最关心的工具之一,曝光预估准确能对广告投放的操作效率有很大提升,因此我们选择了这一内容作为今年的赛题。」

要想打造一个预测模型,首先要了解腾讯广告的业务逻辑。

腾讯效果广告采用的是 GSP(Generalized Second-Price)竞价机制,广告的实际曝光主要取决于两个因素,广告的流量覆盖大小和在竞争广告中的相对竞争力水平。

其中,广告的流量覆盖取决于广告的人群定向(匹配对应特征的人群数量)、广告素材尺寸(匹配的广告位)以及投放时段、预算等。而广告的竞争力水平主要受出价、广告质量、用户体验等因素的影响。

综上,前者决定广告能参与竞争的次数以及竞争对象,后者决定在每次竞争中的胜出概率。二者最终决定广告每天的曝光量。

而对于腾讯广告算法大赛的参赛选手而言,他们首先需要将广告业务语言来转化为可量化的数值指标,即将广告设置的人群定向、投放时段、选择的流量版位、竞价方式、出价等转化为描述覆盖用户人群大小、竞争环境激烈程度以及自身竞争力相对水平等数值指标。

选手通过历史中各类广告在竞价系统中的曝光历史进行训练,以学习出竞争环境的变化趋势以及广告竞争力水平和最终曝光效果的隐藏联系,达到预估广告未来曝光的目标。

一位闯入决赛圈的统计学研一学生表示,「比赛中我们遇到的最大挑战是对广告业务的理解,另外因为非科班出身,我们在算法上的基础较弱。」

尽管各个参赛团队面临的问题不同,但对于业务场景的理解,对于算法模型的思考都是比赛考核的重点。此外,大赛除了常规的准确性指标考核外,还加入出价单调性相关的评估指标,以此凸显对实际业务场景的重视。

2.从象牙塔走向练兵场

本届腾讯广告算法大赛共吸引了1万余名海内外选手参与,经过近3个月的角逐,10支队伍进入决赛现场,在腾讯滨海大厦展开最后 PK。

机器之心发现,进入决赛的选手多在研究生阶段。颇为有趣的是,本届比赛除了学生选手外,还有多个工业界团队参与,学界工业界一起打擂。

透过10支队伍的现场答辩展示,我们看到各个队伍基于对赛题的理解,制定相应的策略,进而提取特征,搭建自身的模型。今年决赛队伍使用模型的共性是,大多数团队都使用了LightGBM 机器学习模型,以及深度神经网络(NN),并且机器学习的权重会更高,不同之处在于在主流框架基础上,各个团队探索了多样化的算法应用。

来自甜橙金融的工业界团队并没有使用流行的 NN 模型,他们主要基于 LightGBM 模型进行预测,也取得了决赛第四的成绩。

决赛第七团队「人工智障」的一位选手分享道,最开始他一直在探索 NN 模型在广告曝光预估中的应用,但尝试过后发现 NN 模型的效果并不如队友用 LightGBM 做出的效果,最终他们通过近 3:7 的权重进行模型融合,取得了不错的效果。

▲冠军队伍“鱼遇雨欲语与余”答辩环节

最为值得关注的是,由哈尔滨工业大学、中山大学、武汉大学组成的三人团队「鱼遇雨欲语与余」(有趣的名字),不但在复赛中一路保持领先,更是获得决赛的和答辩单项奖双料冠军。模型方面,除了使用 LightGBM 外,他们使用了 Word2Vec 和 DeepWalk 无监督学习的神经网络,此外他们还将模型与规则融合,进一步优化了广告预测效果。

他们的一个创新点在于,通过基于 Key-Value Memory 的浮点数映射成向量的方法,相较于直接使用浮点数,保留了更多语义信息。

伊利诺伊大学芝加哥分校杰出教授俞士纶(Philip S. Yu)点评道,冠军团队在技术上面做的最好,他们综合灵活使用了多维度的数据,这类似他提倡的「广度学习」。

▲伊利诺伊大学芝加哥分校杰出教授俞士纶(Philip S. Yu)

在数据挖掘方面,广度学习提倡不仅要挖得深,还要挖得广,重点是将不同种类的大型信息融合在一起,并在一个统一的分析中,对融合信息进行跨维度的数据挖掘。

俞教授称,「我们在解决实际问题时,第一个就是要决定什么数据是有关的,这些数据如何结合在一起,用这样的(广度学习)方法来解决问题。」

来自亚利桑那州立大学的刘欢教授(Huan Liu)也表示,通过此次算法大赛,他看到了中国在数据挖掘领域不断取得的领先成果和未来巨大的发展空间。

在本次比赛中,他非常欣喜地看到参赛选手把社交媒体数据作为应用对象。刘教授认为,社交媒体蕴含着巨大的数据量,除了被应用于算法竞赛当中,同样也是各种真实场景中实践应用和研究的对象。他很期待在场的选手和同样喜爱算法的年轻人们能利用数据来解决真实世界中的问题。

▲亚利桑那州立大学计算机科学与工程教授刘欢(Huan Liu)

3.从练兵场到学界业界融合

可以看到,广告曝光预估这一实际业务问题,为 AI 与机器学习提供了很好的实战平台。然而广告曝光预估只是腾讯广告庞大业务的冰山一角。

据机器之心了解,借助覆盖全国 10 亿+网民的腾讯产品体系,腾讯广告的资源位覆盖微信、QQ、新闻、游戏、视频等众多场景,支撑日均百亿级曝光,它也是腾讯公司内部数据处理量要求最高的业务之一。

简言之,腾讯广告是大规模 AI技术发展的最重要场景之一。然而腾讯的社交与游戏太过抢眼,广告业务一直处于闷声做事的状态,而实际上它是一个被忽视的AI「练兵场」。在腾讯 2019 Q1 的财报中,网络广告业务的收入同比增长 25% 至人民币 133.77 亿元。社交及其他广告收入增长 34% 至人民币 98.98 亿元,并且增长稳健。

腾讯广告副总裁罗征谈道,举办腾讯广告算法大赛的其中一个重要目的,也是希望推动更多的算法达人一起参与广告业务的技术探讨中,推动交流和进步。

通过大赛这样一个纽带,腾讯广告正在推动工业界和学术界结合。一方面腾讯广告提供真实应用场景和经过脱敏的业务数据,为学术界指明研究方向,推动 AI 与机器学习技术在广告中的研究;另一方面参考学术界的研究成果,腾讯广告能够进一步用技术解决实际问题,推动广告业务效率的提升,从而形成一个正向循环。

俞士纶教授也表示,高校往往缺乏大规模的研究数据,腾讯广告提供的脱敏数据,能够让学生用数据挖掘或机器学习的方法解决实际问题,真正做到学以致用。

▲腾讯广告高级应用研究员石瑞超

本次决赛现场,腾讯广告高级应用研究员石瑞超也展示了广告场景下的 AI视觉算法应用。AI 可以应用在广告生成、广告审核、广告投放等领域,从而提升效率。以广告审核为例,腾讯广告每天需要审核的广告数达 10 万+,而相关的审核规则有 80 条之多,繁琐复杂的工作量亟需通过技术力量来减轻人工负担。将 AI 用于智能审核,腾讯广告可以高效进行侵权识别、违规识别等,能够真正提升审核效率和误审率。

罗征还举例道,腾讯广告在日常工作中也有一些有趣的研究,比如用 AI 来自动评估广告创意的美感,这样可以在满足广告主需求的同时,提升用户的「审美体验」。

而针对学术界,目前腾讯广告大赛已经沉淀下每次大赛面向学生群体提供的脱敏数据集,可以提供给非盈利的学术机构进行研究。

罗征也表示,考虑到数据集对于学术界和工业界探索技术进步的重要意义,这也成了一件值得期待的事情。

注:陶明为化名