新知|精准“杀熟”,该如何走出大数据的“坑”

假期临近,在南京工作的蒋女士正计划着回哈尔滨老家看望父母,但在网络平台购买机票时她却发现了其中“猫腻”。同一时间同一航班同一舱位,使用蒋女士自己的账号购买相比用同事的账号购买价格要贵几百元。“前段时间我频繁搜索回家的几条航线,所以应该是被大数据‘杀熟’了。”

为消费能力高者推荐高价产品,同一段车程不同用户网约车平台上显示的车费不同……现实生活中,很多人都像蒋女士一样感觉“被监视”“被涨价”,那么为何会出现杀熟现象?算法如何调整商品售价?个人信息安全如何得到有效保护?《科技周刊》记者邀请相关专家为大家解答。

同一段路程,打车价格为何不同?

同一时间,同一起点,同一目的地,不同手机使用打车软件跳出的价格却不同;买了外卖平台的会员,本以为每次点外卖都能省上不少,但实际上配送总价却比非会员“悄悄”高出许多……很多人在不知不觉中被大数据“割了韭菜”。从最早的卖高价给老顾客,到个性化推送下的精准“杀熟”,大数据杀熟在日趋白热化的竞争中变得越来越隐蔽。

“大数据杀熟,是指同样的商品或服务,老客户看到的价格反而比新客户要贵出许多的现象。但是随着技术进步,大数据杀熟中的‘熟’已经不单单局限于‘熟客’,而是被平台充分掌握信息的‘熟人’。” 南京邮电大学计算机学院、软件学院、网络空间安全学院教授李云在接受《科技周刊》记者采访时表示,相较于以前简单的差异化定价,如今线上平台经营者运用大数据收集消费者的信息,分析其消费偏好、消费习惯、收入水平等,尽管消费者端可见各类优惠价格组合,看上去是优惠了,但同一商品或服务以不同的价格卖给不同消费者的销售模式仍存在。

线上平台所制定的异常复杂的销售策略,通过多大上百种的价格组合使得普通消费者无法厘清实际的合理价格,在这种情况下常人难以觉察到“价格歧视”现象。东南大学网络空间安全学院副教授宋宇波解释,商品价格的波动通常会包含很多因素,以线上打车平台为例,每个行程的定价是根据乘客定位、实时路况、预估行驶里程、时长计算以及优惠券抵扣金额等进行预估,在如此复杂的价格计算体系中,即使出现针对不同人群的价格变动,也很少有人会在完全一样的场景来进行比对验证。“换句话说,相对彼此独立的交易模式让平台‘钻了空子’。”

将从部分用户身上收取的额外费用补贴给新用户或者用于自身平台运营,这无异于是“拆东墙补西墙”。然而近年来,遭到众人诟病的大数据杀熟现象为何频频发生?对此,宋宇波认为原因主要有两方面:从技术层面上来说,算法的设计和实现都是技术人员的主观判断和行为,因此程序在做出判断的时候也会因为构建者、开发方式以及使用方式导致差别判断,这在现实中是个不可避免的问题。“在整个处理过程中,如果程序员在特征的选择或先前用于学习的数据上存在偏差的话,那算法本身就会带来判断的偏差。”对此,李云也表示,算法公平性是平台消费者权益保护的核心问题。基于算法的个性化内容推送,客观上会扩大个体间的认知偏差,而平台出于商业目的的算法歧视,可能造成“信息茧房”,侵害消费者的知情权。

此外,现有互联网公司普遍采用精细化的营销策略模式,即通过对用户各种特征的判断实施细粒度的有针对性的差别营销。宋宇波解释,一方面,这种商业模式会对价格敏感类型的用户进行商业促销,这在客观事实上造成了不同用户的差别对待,从而产生消费交易的不公平现象;另一方面,这种精细化的营销模式存在被滥用的现象,即公司在营销过程当中并不是单纯对特定的价格敏感用户进行价格促销,而同时针对价格不敏感的用户进行人为提价。相比起统一定价,差异化的定价行为更能提高商家利润。“无论是技术层面还是商业策略层面带来的大数据杀熟,商家都会有意识或无意识地加以利用,这也是杀熟现象频频发生的原因。”宋宇波说。

我们如何被算法“打上标签”?

在线上购物过程中,不少人有这样的感叹——“它怎么知道我要买这个?”在实时刷新的“猜你喜欢”列表里,最懂你的“人”往往伤你最深。大数据为何能够做到“看人下菜”,实现“精准杀熟”?答案是:用户画像。宋宇波告诉《科技周刊》记者,用户画像是指人工智能算法通过搜集用户各类相关信息,从而标识用户的各类高度精炼特征。“每一种特征描述了用户的一个维度,用户画像即通过对用户进行多个维度的描述,以实现对该用户的精准定位。”

“用户画像也叫用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对用户或者产品特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息,从而抽象出一个用户的信息全貌,可看做是企业应用大数据的根基,是定向广告投放与个性化推荐的基础。”李云介绍,构建用户画像的过程主要包括数据采集、行为建模和构建画像,而用户画像的核心是为用户“打标签”。将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。

在这其中,“打标签”的方法其实有很多。李云解释,一个行之有效的方法是将商品或者品牌标签“反打”到消费者身上,根据消费者每次消费行为积累不同标签权重,依赖权重进行标签标定,动态生成精准的用户标签。例如,某个用户在消费某品牌商品超过万元,或者在某品牌商品前停留了超过20分钟,就可以归纳出他的特征偏好、品牌偏好和相应的消费档次来。“此外,比较常规的方式是将整体用户群体按照年龄、性别、地域、收入水平等显而易见的标签进行分类,即‘人口属性标签’。”李云表示,虽然这种做法在一定意义上能够对用户画像提供更加准确的参考,但对于洞察用户的实际需求和向用户推荐产品或服务的核心价值却没有多少助力。

消费者购买力评估也是比较常用的“打标签”方式,即根据用户的点击,收藏,加购,购买等行为,同时综合考量用户的基本属性例如年龄、学历、工作性质等去推断用户的消费能力。“消费能力通常是一个动态属性,它会根据用户的当前行为进行调整。”宋宇波说。

卸载后重新安装能避免“杀熟”?

当我们很长时间没有使用某平台后,有时会收到平台发来的短信,而内容大多是赠送优惠套餐,希望我们重新使用。对此,有网友建议在使用某一平台较久之后,可以将此平台卸载再重新安装,从而触发平台的“客户流失预警”,获取新人一样的优惠价格。这种方法是否可行?

“各家平台都有自己设计的算法,可能会存在比较看重平台卸载的行为模式,但这个应该只是做出决策的因素之一,通常不会占据主导地位。”宋宇波介绍,算法会搜集大量用户特征进行综合判决,并不会单凭某一特定行为方式来做出判断,因此这种卸载软件后重新下载安装的方式效果不大。

大数据时代,利用人工智能、机器学习算法等技术实现信息搜集、判断分析和预测的应用日益广泛。而想要算法做出更精准的判断,提供更精细化的服务,其背后必然涉及大量个人信息的搜集。如何更好避免大数据杀熟?源头治理至关重要。8月20日,十三届全国人大常委会第三十次会议表决通过《中华人民共和国个人信息保护法》,其中大数据杀熟被明令禁止;8月27日发布的《互联网信息服务算法推荐管理规定(征求意见稿)》指出,用户可选择关闭算法推荐服务。在中国网民突破10亿关口之际,算法显然面临着更严格的监管。

“由于线上消费者只能被动接收平台呈现信息,难以与其他用户进行信息交流,这样的现实场景一定程度上成为了商家牟利的温床。”李云建议,个人用户在线上购物时需要加强防范,及时关注市场价格变化,同时与他人交流进行价格比较,或者采用工具查看历史价格,尽可能避免被杀熟。