数据即服务(DaaS)圣经:如何运营一家DaaS公司

Data-As-A-Service Bible: EverythingYou Wanted To Know About Running DaaS Companies

引文:https://blog.safegraph.com/data-as-a-service-bible-everything-you-wanted-to-know-about-running-daas-companies-d4cf4c15c038

数据业务通常被误解-未做到深刻的理解

过去13年中我运营过2家数据公司以前的LiveRamp和现在的SafeGraph,投资了数十家数据公司,与数百家数据公司的首席执行官会面。并阅读了大量的数据业务的历史。我在这里分享我对数据业务的了解-主要是为投资或经营的人编写的数据业务想法。如果这对你有帮助,联系我。

DaaS不是真正的SaaS......它也不是Compute

数据业务与SaaS业务有一些相似之处,但也存在一些显着差异。虽然有很多关于SaaS业务的文章讲了它们如何运作,如何获得杠杆作用,需要注意哪些指标等,但关于数据业务的文章却很少。这篇文章作为21世纪数据业务应该是什么样子,寻找什么(作为投资者或潜在员工)以及高管操作手册的核心概述。

最后,伟大的数据公司看起来像SaaS公司(如Salesforce)和计算服务(如AWS)的丑陋孩子。数据公司有自己独特的血统,术语,操作节奏等。他们是科技池塘中的一只奇怪的鸭子。这使得评估他们是否是一个好生意更难。

今天的一切都是服务 - 数据公司也不例外

几乎所有新公司都设立为服务。软件即服务(如SalesforceSlack,Google应用程序等)在过去二十年中一直在增长。Compute-as-a-Service(如AWS,Google Cloud,Microsoft Azure等)已成为过去十年中访问服务器的主要手段。现在有惊人的API服务(如Twilio,CheckrStripe等)。数据公司也正在成为服务(“数据即服务”的缩写词“DaaS”)。

数据最终是赢家最需要的市场

从长远来看(市场运作良好且竞争对手理性的警告),数据的利基可以由1或2个参与者主导。这种主导地位并没有给这些人员带来定价权。它们实际上可能具有负定价能力(公司可能继续主导数据市场的方式之一是降低价格以使竞争对手更难竞争)。

随着数据公司开始占据主导地位,它可以降低价格并获得更多的市场份额,并利用这些资源在数据上投入更多......从而获得更多的市场份额(并且周期仍在继续)。由于数据公司没有用户界面并且没有预测未来,数据公司可以通过拥有正确的事实和提供这些事实的简单方法(API,可查询性,自助服务,和集成变得非常重要)。

当然,一些数据市场没有主导者,而且竞争激烈。这些通常都是坏事。但即使在这些拥有“商品”数据的企业中,通过使用价格和营销作为杠杆,人们也可能获得50%以上的市场份额。(相比之下,很难使竞争激烈的SaaS类别竞争力下降......我们将在后面的文章中讨论这个问题)。

数据是一项不断发展的业务

过去十年中最大的主题之一是帮助公司更好地使用第一方数据的产品。如果你投资这一趋势,那你将掌握以后的10。这些公司包括核心工具(DatabricksCloudera),中间件(LiveRampPlaid),BI(Tableau,Looker),数据处理(Snowflake),日志处理(Splunk)以及许多甚至更多。(注意:作为对这些工具的强大功能的提醒......当我写这篇文章时,Tableau和Looker的总价格接近200亿美元!)

这些产品可帮助公司更好地管理自己的数据

由于更好的工具,互联网使用,传感器(如wifi路由器)等,收集的第一方数据量呈指数级增长。公司在管理第一方数据方面越来越好。与此同时,计算成本每年都在急剧下降 - 因此处理数据的成本更低,成本更低。

 

越来越多的人习惯使用数据。“数据科学”是增长最快的职业之一,越来越多的人进入该领域。人们得到更多的技术(由许多工具辅助)和数据科学家的社区快速增长-  KDNuggets报告 “ 在六月2017年Kaggle社区跨过一名百万的会员,并Kaggle电子邮件在2018年9月19日说,他们超过200万个会员中2018年8月, “ IBM估计数据科学的人数增长速度超过每年20%。

越来越多的人习惯使用数据。“数据科学”是增长最快的职业之一,越来越多的人进入该领域。人们得到更多的技术(由许多工具辅助)和数据科学家的社区快速增长-  KDNuggets报告 “ 在六月2017年Kaggle社区跨过一名百万的会员,并Kaggle电子邮件在2018年9月19日说,他们超过200万个会员中2018年8月, “ IBM估计数据科学的人数增长速度超过每年20%。

第一方数据是不够的

但除非你的公司是谷歌,Facebook,苹果,亚马逊,腾讯或其他12家公司......即使完美地分析你的所有数据,也只能告诉你世界上0.01%的数据。如果您想要超越公司的针孔,您将需要外部数据

甚至五年前,很少有公司能够利用外部数据。大多数公司仍然没有分析自己的数据!但随着公司越来越好地发现内部数据的洞察力,他们会越来越多地从外部寻找数据。至少,这是赌注。今天的数据购买者数量比五年前增加了一个数量级。IAB报告说,即使购买营销受众数据(传统上所有数据中最不准确)也是一项庞大的业务并且还在不断增长。

尽管如此,今天的数据买家仍然很少。大多数公司都需要应用程序(答案),而不是数据(实质上是一组事实)。今天开始(或投资)数据业务的唯一原因是,如果您认为数据购买者的数量将在未来五年内再增加一个数量级。

数据公司看起来很落后

数据公司最终将出售可证实的事实。因此,数据公司收集和制造有关事物的事实。例如,您可以创建一个关于艾菲尔铁塔的数据公司,汇编有关其制造的钢种类的历史事实,多年来的所有变化,塔的高度,它如何响应风和其他条件, Gus Eiffel的传记,以及每天从每个角度和每小时拍摄的数百万张塔的照片。

数据公司是关于真相的。它们是关于过去发生的事情。因此,SafeGraph的座右铭是“我们预测过去。”当然,准确(甚至是可验证的事实)真的很难(在本文的后面更多内容)。达到一个甚至接近真实的点是一项艰苦的工作。而且没有可能达到100%真实的方法。虽然数据公司是关于真相的,但预测公司(如预测欺诈,预测信誉,预测选举等)都与宗教有关。思考数据公司的一个框架是真理与宗教,数据与应用

真理公司专注于发生的事实,宗教公司利用这些事实来帮助预测未来。数据公司更注重销售原始数据,而应用程序公司则采用原始数据并围绕它创建某种工作流程。

考虑市场的一种方式是宗教公司经常从真理公司购买......而应用公司经常从数据公司购买。例如,SafeGraph(Truth Data公司)拥有许多应用程序或宗教客户。


数据是真的非常重要

历史上数据公司的一个奇怪的事情是它们经常在一个核心价值上失败:真实性。

精确度(准确度)和召回率(覆盖率)之间存在巨大的折衷。过去,大多数数据供应商都在优先考虑覆盖范围而不是准确性。关于营销的“人”数据(见下文“人员数据”的讨论)尤其如此。一个人拥有数据的实体越多(以及关于每个实体的信息越多),任何一个数据元素的正确性就越小。

不久前,大部分最好的数据实际上是手工编制的。一些最大的数据公司仍然有3000人呼叫中心呼叫和收集数据。随着数据变得更容易以编程方式收集和合并,我们应该看到更多具有准确数据的公司达到规模。

随着公司越来越依赖数据(并在数据上建立机器学习模型),事实将变得更加重要。如果您使用数据来预测未来,那么代表过去的数据需要高度准确。当然,没有数据集是100%真实的......但是好的数据公司都在追求真理。

在数据公司中寻找的一点是它的改进速度。一些数据公司实际上发布了他们的变更日志,记录了数据随时间的变化情况。数据提高的速度越快(公司承诺的事实越多),数据公司赢得市场的可能性就越大。赢得市场有很大的收获。

数据业务的三大支柱:收购,转型和交付

SafeGraph的总裁兼联合创始人Brent Perez总是喜欢提醒我,数据公司只做了三件事:

 

1)数据采集

2)数据转换

3)数据传递

第一支柱:数据采集是关于引进原材料

公司有很多方法可以获取数据,而且每个数据公司都需要至少采用其中一种方式。获取数据的一些方法是:

  • 数据合作:让您的客户向您发送数据(通常是免费的),以换取对数据的分析。Verisk就是一个很好的例子。Clearbit为客户联系人提供了出色的数据合作。意外收获数据有一个很好的数据合作伙伴,花钱的人。Bombora有一个关于B2B购买意图的合作社。
  • BD交易:创建强大的长期业务开发交易以获取数据。这些通常需要很长时间才能进行谈判并且成本很高。虽然这是固定成本,但会计规则通常要求公司将这些成本计入COGS(即使成本是固定的) -  请参阅数据业务的利润最初看起来非常糟糕(下图)。Datalogix(2015年向甲骨文出售)通过与Polk签订的长期协​​议获得了很好的收购汽车数据。BD交易往往非常困难,因为大多数公司高估了他们的数据......他们没有意识到实际使数据有用并将其推向市场所需的大量工作。尽管有许多公司将数据货币化作为其当前商业模式的副产品。
  • 公共数据:编制大数据的公司的一个例子是搜索引擎(如谷歌)。他们不直接为数据付费 - 而是抓取网络(这可能是超级昂贵的)。在这种情况下,获取数据的成本低于该线。

数据业务的第二大支柱:数据转型

您的数据采集可能来自数千个来源。您需要将数据融合在一起并使其更有用。

即使您从一些BD交易中获取数据,您最终也希望将数据集一起绘制,以便跨数据提出问题。这就是真正的魔力(我敢说,“协同效应”)发生的地方。一旦您将天气数据与迪斯尼乐园的出席结合,您就可以开始提出真正有趣的加入问题。您加入的数据集越多,您可以提出的问题就越多。

有些转换可能很简单(比如UTC的本地时间),有些转换可能非常复杂。数据科学家花费90%的工作来处理数据,而不是构建模型。当它真的应该是相反的方式。因此,简单地过滤/重复数据本身就是一种有价值的转变。

您想问的问题包括:如何将所有数据集合在一起?你的“钥匙”(小学或中学)是什么?您如何确保将正确的数据分配给正确的实体(业务,人员等)?你如何衡量效力/准确度?这个下游对于使数据更有价值有什么影响?

如果数据公司正在使用机器学习(大多数优秀的数据公司都是这样),那么这就是所有ML魔法发生的步骤。例如,SafeGraph使用计算机视觉和ML来对齐,登记和连接卫星图像与街道地址和兴趣点。

数据转换非常困难。正如Windfall Data首席执行官Arup Banerjee提醒我的那样:“你不能只用一个简单的修复方法修复一个错误 - 你当然可以'后处理'并删除某些数据点,但它并不像A那么容易/ B测试放置主页按钮的位置 - 您需要具有高度的保真度和信心。“

第三支柱:数据交付是关于客户如何访问数据

  • 它是一个企业解决方案,他们获得一个大批量文件(通过s3桶或SFTP)?它是API吗?有自助用户界面吗?你有什么与现有平台(即SFDC,Shopify等)的集成?
  • 数据是否实时流式传输?或者每月编制数据?它可靠,及时或可变且不可预测?
  • 数据是否记录良好且定义明确?或者它包含不可理解的列和糟糕的数据字典?
  • 数据是否记录了其假设和变化?是否存在“隐藏”过滤器和假设?
  • 数据是否组织成有意义且有用的模式和本体?是否可以轻松加入内部数据或其他外部数据集?或者客户是否必须构建自己的摄取ETL管道才能使用数据?

伟大的数据公司统一了一个中心主题

数据公司需要获得杠杆作用,因此数据应该最终与公共密钥结合在一起。拥有一个可以跨不同元素绑定数据的数据模型非常重要 - 因此拥有某种指导主题非常重要。对于数据库书呆子,将主题视为具有跨数据集的一系列外键的统一主键。这不仅适用于数据公司,伟大的中间件公司也应该有一个中心主题来将所有数据拼接在一起。

当然,最好的主题是每个人都能理解的主题,足够大,可以收集大量有趣的数据,并且可以进行国际化。

数据业务的最大主题是构成我们世界的核心概念:

  • 制品
  • 地方
  • 公司
  • 程序

(我们深入研究了附录中的每个“主题”)

将静态数据与时间联系起来

这些静态维度(人员,产品,公司,地点等)的数据在时间和时间变化时变得更有价值。如果数据发生了很大变化,您可以为数据收取更多费用(并与订阅模式保持一致) - 更重要的是,您可以留住客户,因为数据不仅仅是一次性使用。

例如,对实时交通数据收费有时可能比对街道地图收费更有价值。这是与物理世界一起使用时间的一个例子。

另一个与物理世界交叉的例子是天气数据  - 它一直在变化,对许多消费者和行业都至关重要。在像旧金山这样拥有数百个微气候的地方,天气数据本身每100平方米每小时都有变化。

经典时态数据集之一是每次股票价格每股价格。该数据集对任何公共市场投资者都至关重要。这些数据可以追溯到100多年前(一百年前的“滴答”可能是一天,而今天的“滴答”可能是十分之一秒)。

事实上,许多最有价值的数据都与定价有关。例子包括商品定价,租赁定价,亚马逊商品价格,经济学人巨无霸指数等。

将数据集链接在一起使数据更有价值

数据本身并不是很有用。是的,很高兴知道美国独立宣言于1776年7月4日获得批准 - 这可以让你证明你是一个聪明的人,并帮助你在独立日更享受你的热狗。但它没有大量的孤立使用。

数据变得有用的一个重要方法是将数据与其他数据联系起来。可以连接的数据越多,它就越有用。原因很简单:数据仅与它可以帮助回答的问题一样有用。将数据集连接,链接和绘制在一起可以让人们提出更多不同类型的问题。

一个很好的连接关键是时间。如今,时间大多是非常标准的(几个世纪以前就不是这样)。我们甚至还有一个标准化时区的UTC时间,以便在日本和阿根廷的同一时间发生的事件就这样表示。

另一个连接键是位置(如邮政编码)。

您可以找到的连接键(和连接的数据集)越多,这些数据就越有价值。

让我们考虑一个简单的例子。让我们在股票代码上获取数据,并找出公司所有业务的地理位置(地理位置)。然后让我们来表示每个邮政编码对公司销售额的影响。然后我们可以将这些数据(通过时间和地理位置)加入历史天气,以查看天气是否与历史上的各个运营地点和股票价格有任何关联。

  • 随着您不断加入数据,您可以提出的问题数量呈指数级增长。
  • 随着数据量的增长,您可以回答的问题数量呈指数级增长。
  • 这意味着如果数据集A的值为X且数据集B的值为Y,则连接两个数据集的值远远大于X + Y. 因为数据市场仍然很小,但价值还不是X * Y ......但未来可能会接近这个数字。

将密钥构建到数据中以便更容易加入:使其简单易用

如果您将数据与其他数据集连接起来(即使您没有从其他数据集中获利),您的数据将更有价值。这是大多数在数​​据公司工作的人都不了解的第一件事。

大多数人认为他们需要囤积数据。但是,如果数据可以与其他有趣的数据集结合,则数据的价值会增加。因此,您应该尽一切可能帮助您的客户将您的数据与其他数据相结合。使数据易于组合的一种方法是有目的地考虑链接它 - 实质上是为其他数据集创建外键。

数据公司的SIMPLE首字母缩写词 - ID或外键。

  • 可存储。您应该能够脱机存储ID。例如,我知道我的SSN和我的工资单系统存储了我的SSN。
  • 不变的。它不应该随着时间而改变。一个人的SSN从出生到死亡通常是相同的(除非您参加证人保护计划)。
  • 细致(高精度)。两个不同系统中的同一实体应解析为相同的ID。某人声称他们拥有不同的SSN应该是非常困难的。
  • 便携式。我可以轻松地将SSN从一个工资单系统转移到另一个工资单系统。
  • 价格低廉。ID需要便宜(甚至免费)。如果它太昂贵,交易成本将使其在许多情况下难以使用。SSN本身没有成本。
  • 成立(高召回)。它需要涵盖几乎所有的主题。SSN几乎涵盖了每个美国纳税人(以及更多)。

创建SIMPLE键以将数据与其他数据集相结合是构建真正有价值的数据公司最重要的事情。除非您计划转向世界上的所有数据,否则您的数据需要绘制成其他数据集,最好的方法是简单。

我希望看到一个积极鼓励组织共享数据的世界,因为更多的数据共享将带来更加开放的信息世界。


数据公司的经济学并不是他们所看到的

大多数数据业务的利润率最初看起来非常糟糕

数据公司通常在吸引A系列和B系列投资者时遇到很多麻烦,因为开始时利润率通常看起来非常糟糕。数据公司通常具有购买核心原材料的固定成本,并且由于一些奇怪的会计原因,这些固定成本位于COGS中。因此,利润最初看起来非常糟糕(有时甚至可能在第一年为负)。

但这些“COGS”并没有随着收入而扩大。事实上,随着公司进入新市场,它们只是阶梯功能成本。益百利的执行副总裁迈克尔梅尔兹提醒我,“增长的利润最终会对成功的数据业务产生极大的吸引力。”

以下是公司数字的示例:

增量利润最终在成功的数据业务中变得极具吸引力

想象一下,如果你是2013年底看到该业务的B系列投资者那么。投资数据公司的经验很少(有95%以上的SaaS投资者)会关注这家公司并认为这是一个很长的时间。 - 保证金业务50%。实际情况是,数据成本通常是长期资产,而且由于奇怪的会计规则,它们只存在于COGS中。

数据是一种快速贬值的资产(因为它的大部分价值都是时间性的),但即使是历史数据也可以有很多价值。而且它是一次性购买,尽可能多次出售。收集数据本身是一项重要的资产 - 只是编译数据的行为导致了“学习曲线”的护城河。

相比之下,SaaS公司在销售,营销和客户成功方面花费了巨额资金。这些成本中的大部分在技术上都“低于线”,因此SaaS利润看起来很好。在某些情况下,这些成本确实应该低于这条线,并且真的很高,因为公司管理不善(Vista Equity在收购公司时降低了这些成本已经取得了巨大的成功)。

但其中许多成本都是隐藏的COGS,而这些SaaS公司的真正利润率实际上并不如宣传那么好,因为它们的竞争非常激烈。在DaaS公司中,CAC(客户购置成本)往往会随着时间的推移而下降(对于相同的客户类型)。在一些最好的SaaS公司中,CAC最终稳定但很少显着下降(Vista Equity公司似乎是例外)。

一种看待这种情况的方法是每位员工的ARR(年度经常性收入)。另一件需要关注的是每位员工的净收入。该指标随着时间的推移会变得更好还是变得更糟?一旦公司达到一定规模(比如2000万美元的ARR),该指标每年都会好转,除非有一些核心战略投资原因导致其下降。如果ARR /员工越来越好,那么这项业务可能就是一个好的。像谷歌和Facebook这样的公司每位员工的净收入非常高 - 比如每位员工超过100万美元。但是,许多最好的SaaS公司每位员工的收入在10万美元到20万美元之间。每位员工的净收入越多越好。

一个很好的类比是Netflix,它汇集了全球消费者,以证明在内容上花钱。Netflix在内容上花了很多钱,但可以在所有订阅者中摊销。当然,这个比喻有点失误,因为虽然数据很昂贵,但它远不及创造高质量视频内容的成本。有些数据业务看起来更像Spotify(必须向内容创建者支付一定比例的收入)。这些企业的“利润”更合法,更永久。


示例:“Priviconix”

当然,有很多方法可以进行数据采集,并且它们具有不同的成本结构和不同的帐户规则。让我们分析Priviconix,一家虚构的公司出售有关隐私政策的数据。它解析了前100,000家公司的隐私政策,并对这些政策进行分析。

(顺便说一下,这是一个虚构的例子,但有人应该创办这样的公司 - 我很乐意为此提供资金)

可能有供应商已经抓取了前100,000个公司网站,并且可以向您发送其隐私政策的每日文件。假设您每年花费40,000美元购买。该成本位于COGS(线上)。

让我们说你决定自己做爬行。假设每年花费55,000美元的工资来维持爬行。这些成本(如果你甚至可以计算它们)低于该线。一些首席执行官可能会倾向于选择55,000美元的选项,因为这会让她的利润看起来更好。但实际情况是数据是一样的。许多投资者并不欣赏这种区别。

当然,这取决于采购数据的模型。BD交易的成本非常高,但合作社的利润率非常高(通常从一开始就是如此)。根据结构,准确性以及您可以抓取的内容的一致性,公共数据会受到影响。

获得主导市场份额(并利用收购)

一旦你有一个数据公司的飞轮,你需要在你的利基市场占据市场份额。目标应该是达到50%以上的市场份额。例如,LiveRamp在其利基市场占有超过70%的市场份额。获得50%市场份额的一种方法是追求一个非常小的利基并坚持不懈地专注于它。当然,您最终需要搬到相邻的壁龛。

另一种主导市场份额的方法是通过激进的定价。在SaaS领域,这通常是不可能的,因为CAC太高 - 因此降低LTV,即使是暂时的,通常也不是明智的选择。但是对于DaaS公司来说,CAC可能很低,人们可以找到让它们随着时间推移降低的方法。如果是这种情况,那么有一种情况是使用贝索斯“你的保证金是我们的机会”策略进行价格激进。

一旦获得牵引力,通过收购获得市场份额优势的第三个杠杆。SaaS公司在收购竞争对手方面遇到了很多麻烦。这是因为SaaS公司有一个用户界面 - 因此合并这些工作流程非常困难(而且几乎从未做过正确)。当SaaS公司收购时,他们倾向于在相邻的空间购买其他产品,因此他们有更多的产品来销售他们现有的客户(以增加每个客户的LTV)。对于Oracle,Salesforce和其他人来说,这是一个非常成功的战略。当然,数据公司也可以获得新产品以销售给他们的客户。

但DaaS公司有更多机会收购直接竞争对手。这些DaaS收购有可能更容易成功(和模型),因为他们只能获得客户合同(如果他们已经拥有优质产品,尤其如此)。例如,如果有两家公司在股票代码上销售定价数据,那么将这些产品组合起来非常简单 - 基本上只需购买客户关系和持续的相关收入。

获得市场份额优势的目标不是提高客户的价格。反之。目标是降低您的CAC,以便为您的客户降低价格。CAC下降是因为有一个主导者。由于价格下跌,LTV也下跌。但LTV / CAC比率并没有下降(它们通常会上升)。伟大的DaaS公司就像计算公司(想想AWS)一样 - 它们每月降低每个基准价格的美元。因此,客户可以获得更多的金钱价值,而且这些价值会随着时间的推 (在SafeGraph,我们的目标是为客户提供每月至少5%的复合效益 - 这意味着每个数据元的美元每月最少下降5%)。

复合是数据公司的关键。数据公司构建的资产随着时间的推移变得越来越重要。但是在早期很难看到复合,所以人们常常放弃。当然,许多超盈利的数据公司都停止了创新,只是简单地编制了数据的过去繁琐的工作(有时几十年前就完成了)。


商品化你的补充

与所有企业一样,数据公司希望了解其补充和替代品。数据业务的核心补充是云计算平台(如亚马逊网络服务(AWS),微软Azure,谷歌云等)和处理数据的软件工具(其中许多是开源的)并理解数据(像许多机器学习平台一样)。工具越强大,计算能力越强,客户就越有可能购买和使用数据。

事实上,如果您从事数据销售业务,您可以通过了解客户使用的其他工具轻松获得客户资格。在Snowflake和Looker上花费大量资金的客户可能更有可能购买您的数据。

另一件需要考虑的事情是如何将数据补充商品化。可能有核心数据使您的高价数据更有用。在这种情况下,您希望确保客户可以访问该数据(即使您不销售它)。实现这一目标的一种方法是开源数据集可能与您的数据保持一致。另一种方法是使用已经免费的数据(如政府数据)加入您的数据。在SafeGraph,我们意识到我们的许多客户希望将我们的数据与美国人口普查结合起来,但这些数据极难下载和使用 - 所以在黑客一天我们创建了一个更简单,免费下载的Census Block Group数据。要了解有关商品化 - 补充策略的更多信息,请查看Joel Spolsky的详细帖子(更多信息:Joel Spolsky)和Gwern

纵向与横向,数据购买者数量以及DaaS市场的增长

通常,大多数优秀的SaaS公司都会销售给特定的行业。另一方面,DaaS往往比SaaS更加横向。数据往往比软件更加横向。计算也是横向的。许多API服务也是如此。

这是因为数据只是解决方案的一部分。它只是一个组件。这是一种成分 - 就像向厨师出售高品质的松露一样。SaaS(软件)就是解决方案。SaaS公司解决问题。所以他们通常需要深入了解具体问题。虽然SaaS公司可能不是行政总厨,但他们至少将自己定位为Sous-Chef。

许多DaaS公司不是将数据出售给最终用户,而是直接出售给软件公司。大多数终端客户还不是数据的复杂买家 - 因此DaaS公司寻求低成本(其他技术公司)。当然,情况并非总是如此 - Windfall Data非常成功地将其数据出售给非营利组织和大学(显然是低技术)。关于数据市场的一个有趣的事情是它在历史上一直是一个非常糟糕的市场。历史上很少有公司能够购买大量外部数据并利用它。事实上,许多公司都在努力利用自己的数据。

例如:对冲基金

就在五年前,11,000只对冲基金中只有大约20只使用了大量的替代数据。今天(截至撰写本文时为2019年),它仍然只有大约100个基金。但目前有数百家基金正在进行投资,以便更好地管理,提取和使用这些数据。所以五年后,可能会有500个基金。500只仍然只是11,000只基金中的一小部分......但它是近期历史上的显着增长。

由于对冲基金行业是一个竞争和整合的行业,可以产生阿尔法信号的增量数据点被视为稀缺资源,不应该被共享(一旦其他参与者知道信号,阿尔法就会收缩直到它消失)。在此期间,有一种购买数据集专有权的做法,这种做法限制了其他对冲基金的数据可用性,并提高了可比数据集的价格。一些最佳基金的数据收购成为竞争优势的战场。

对冲基金总是知道替代数据的力量。今天,当涉及到获取替代数据并将其转化为洞察力时,该行业发现自己处于更民主化的状态。计算能力更便宜,有更多和更便宜的供应商提供可比较的数据集和更多合格的数据科学家和工程师,可以雇用他们比5年前更好地完成他们的工作。

这不仅仅是对冲基金的趋势。每个行业的数据消费增长看起来都是一样的。

部分这种增长是因为人们正在认识到数据的力量。但大部分原因是由于管理和处理数据的工具的力量增强。我们在SafeGraph上使用Apache Spark来管理我们的数据集。Spark是一个非常强大的工具,它比Hadoop堆栈更强大,更容易使用(这是我们十年前在LiveRamp上使用的)。

SafeGraph的客户受益于Snowflake,Alteryx,ElasticSearch以及许多其他超强大工具。新的ML工具可以比以往更轻松地从数据中获取洞察力。这些工具对DaaS来说非常重要:它们为愿意并且能够购买和接收数据的公司增加了市场。

过去,只有拥有最优秀后端工程师的公司才能从大量数据中收集洞察力。最好的软件工程师只想为顶级技术公司工作 - 他们可能不想为像星巴克这样的QSR工作。但现在星巴克可以为Snowflake买单并拥有五年前最好的科技公司所拥有的力量。

数据即服务(DaaS)公司的运营节奏


运行良好的数据评估流程。

几乎每个数据公司的每个潜在客户都希望在做出大量购买决策之前评估数据。使您的客户轻松完成评估过程对任何数据公司都至关重要。您还希望为您的销售人员提供便利(因为数据公司往往会有很多轮胎踢球者)。

加速数据购买和评估的一种方法是使用免费增值模式或某种自助服务模式(或两者兼而有之)。例如,SafeGraph有一个简单的自助服务免费使用优惠券代码“SpringIntoSafeGraph”100美元免费数据)。一旦公司已经使用了一些数据,它们就是资格预审(如PQL - 产品合格潜在客户)。

加售是长期重要的

如果您是一家数据公司,并且您的客户从您的服务中受益(并且他们已对数据进行了评估并认为这是真的),那么您就可以向这些客户追加新的数据元素。通常,数据公司能够随着时间的推移向上销售其他数据产品或服务。通常,他们首先销售一种数据产品,然后随着时间的推移向销售客户提供额外的数据产品目录。

非常重要的是,您在添加SKU时保持质量。这很难做到更慢,而不是稀释你的品牌。如今大多数大型数据公司都拥有不同质量的SKU,这真的会伤害他们的品牌。他们最好卖掉更少的SKU(或卖掉竞争对手的SKU)。

数据协议以及数据的实际销售方式

数据可以在很多方面出售。按量,使用权限,SLA等。所有数据协议中包含的一件事是买方的特定权利。这些权利概述了买方可以对数据做些什么。

例如,许多数据协议都是有时限的 - 这意味着在协议终止或到期后需要删除数据。大多数协议不允许最终买方转售数据,但有些协议可能具有有限的转售权或讨论衍生数据可以做什么和不能做什么。这些数据权限可能非常复杂,因此您的组织通常可以对其进行标准化,而不是为每个客户提供大量不同的数据权限。

欺诈,水印等等

“数据”的一个问题是它很容易被复制。几个世纪以来,地图制作者不得不应对他们的地图被复制和被盗。从500年前开始,许多制图师将虚假数据添加到他们的地图中(如假街道甚至国家)。然后,如果他们看到再现,他们知道这是他们的。

如今,许多数据公司都在其数据中添加了水印。基本上,他们会将微小的伪数据混合到真实数据中,以便跟踪它。超级复杂的数据公司将为每个客户提供不同的水印 - 因此他们可以跟踪特定客户的数据泄露。


使用数据的单座模型

许多数据公司实际上并不销售数据下载(“千克数据”),而是将类似SaaS的单座许可证出售给允许用户下载数据并使用它的工具。CoStar,Reonomy,Clearbit,Second Measure,Esri,Verisk等创新公司都有这方面的一些版本。每个座位的订阅模式使定价更简单,也可以更容易保护数据。但是,单座模型还意味着您的公司需要构建用户界面,分析等。这可能意味着您很快就会与许多其他解决方案竞争(您将无法将数据出售给您的分析竞争对手)。

将数据导入工作流程可能非常强大。亚历克斯MacCaw,首席执行官Clearbit,经常提醒我说:“ 除非是在它需要的地方的数据是没有用的。因此,构建优秀的集成和工作流程是公司竞争的关键优势。”您的业​​务模式和方法会因您的数据集,合作伙伴,纵向和竞争而有很大差异。

软件与数据。

目前,大多数公司在软件上花费的钱比在数据上花费的多。它们的软件供应商数量通常也是数据供应商的20倍。Ridge Ventures的 GP 亚历山大·罗森Alexander Rosen)提到“这会在二十年内有所不同吗?我想会的。“

数据公司很难上手,因为它们只是数据而不是完整的解决方案。这也很难,因为很多数据质量很差 - 所以你需要超越噪音才能吸引任何客户。好消息是,随着软件(如Snowflake等)变得越来越强大,评估数据(在购买过程中)将变得更加容易。


数据公司是unsexy档案管理员

在一家数据公司工作就像是国会图书馆的档案管理员。你知道你的工作很重要,但你也知道这是一个帮助其他人发光的配角。您的工作是帮助和支持创新者

档案工作者的纪念碑很少。他们没有获得诺贝尔奖。他们不写宪法,他们只保留宪法。作为档案保管员意味着非常谦虚。你是一个无名英雄。您的工作是帮助创新者创新。你不是赛车手,你是维修站工作人员(或者也许只是制造扳手的人)。

有些人自然会对成为档案保管员的角色感到兴奋。他们很高兴能够在后台工作并具有发挥核心支持作用的内在自我价值。就像百老汇戏剧中的灯光工程师一样。但并不是每个人都适合幕后工作,那些人不应该在数据公司工作或工作。

(注意:如果您对成为档案管理员的使命感到兴奋,请加入我们的SafeGraph职业生涯

 

附录:数据主题

“人”是一个非常普遍的主题

人:围绕一个人的数据。数据可以与电子邮件地址,社会安全号码,电话号码,广告商ID,cookie,姓名和地址以及许多其他关系捆绑在一起。专注于人员数据的数据公司包括Experian,Clearbit,People Data Labs,FullContact和Windfall Data。中间件公司也可以将他们的数据模型建立在人们身上(LiveRamp就是这样)。几乎所有使用“身份”一词来描述其服务的公司都可能基于“人”主题。

人员数据隐私

拥有“人物”主题的一个问题是保护人们隐私的重大责任。其他数据主题(组织,产品,地点,程序等)都没有大的隐私问题 - 但对于人员数据,隐私是问题。在今天的GDPR,CCPA,等待联邦监管,要求通过(以及更严格审查)Apple,Google,Facebook等隐私要求的情况下尤其如此。保护消费者数据变得至关重要。即使消费者通常不是数据公司的直接客户,也需要尽一切努力确保她从最终使用该数据中受益。

当你获得更多关于人的数据时,你也会受到来自外部的攻击(因为关于人的数据可以被用来从人们那里偷钱)......所以安全变得非常非常重要。有关人员数据的好处之一是难以访问且无法广泛使用(或需要合作伙伴网络访问)。通常,隐私问题可能是一个特征(而不是错误),这会产生可防御性,并且可以围绕任何可以聚合它的人设置护城河。

真相很难评估

当然,关于人的数据的一个巨大问题是,客户很难检查它是否属实。因此,大多数客户对数据进行折扣并认为数据非常糟糕(这意味着很难为更好的数据收取额外费用)。

人员数据业务中的压倒性风向一直朝着可能使得第三方人员数据业务(与消费者没有直接关系)变得越来越困难的方向发展。新法规(如GDPR)可能会给人们的数据公司带来很多负担......但这些法规也为那些做得对,并真正旨在保护消费者的人创造了大量机会。

“产品”主题

另一个很棒的主题是关于产品(或SKU)的主题。您可以瞄准所有产品(如条形码)或产品的子集。您的大多数电子产品(如智能手机,笔记本电脑,电视等)都带有唯一标识该设备的序列号。可以启动整个数据公司了解这些序列号或SKU的其他标识符。

一个例子是RL Polk(现在是IHS Markit的一部分),它传统上收集了有关汽车的数据。他们的目标是成为关于汽车的最佳数据来源。而不仅仅是汽车的品牌和型号......而是关于实际的个性化汽车。因此,他们使用外键,如车牌号码和单独的车辆识别码(VIN)。产品非常重要,它们可以成为真正的利基市场。例如,您可以建立一个出售葡萄酒瓶信息的优秀葡萄酒情报业务。产品的另一个好处是它们没有隐私问题......只要你不将它们连接到人类,你就可以收集你想要的任何东西。

“公司”一直是个好生意

历史上另一个好主题是出售有关公司(或组织)的数据。Dun&Bradstreet运行DUNS号码以唯一识别公司。DUNS被许多组织(包括美国政府,英国政府,联合国等)使用。它自1963年以来一直存在,但在过去的20年中只是变得更加标准。Dun&Bradstreet与美国联邦政府签订了一份合同,该合同有助于使DUNS成为标准。例如,公司必须注册DUNS号码才能与联邦政府合作或向联邦政府提交某些文件。

许多政府和组织不仅使用DUNS作为标准,而且还经常需要获得某些服务(如许多银行贷款)。由于DUNS是标准的,因此不同的组织可以轻松地在公司上共享信息。例如,如果银行想要将其贷款重新打包给企业,它会使用DUNS号来描述该业务,以便所有其他方可以更好地评估贷款(因为他们拥有他们信任的业务信息)。与公司相关的数据的另一个例子是股票代码(以及加入其中的所有财务数据)。

“地方”就是你对物质世界的看法

最古老的数据形式之一是有关某个地方的信息。

地图已与我们一起存在了数千年。由于国家和城市的地图变化不大,制图师一直担心他们的工作会被复制。因此,从16世纪初开始,地图制作者开始在他们的地图中插入假地点 - 包括假街道。

SafeGraph(我工作的地方)专注于有关地方的信息。在撰写本文时(2019年6月)SafeGraph专注于可以花钱的地方(比如用现金或信用卡支付某些东西)或者可以花时间(比如公园等)。数据包括商店营业时间,地址,地点类别,几何图形(例如建筑物多边形),地点的IP地址等。

SafeGraph发布其完整模式  - 如您所见,一切都连接到一个地方(通过SafeGraph Place ID)。还有许多其他超级成功的地方企业。CoStar是一个令人惊叹的地方业务(截至撰写本文时,它们的市值超过200亿美元)。他们有关于商业房地产租赁的详细信息(如每平方英尺的价格,租约长度等)。最初他们收集了来自经纪人的数据(今天他们在大数据合作社中直接从大地主那里获得了大量数据)。CoreLogic销售有关住宅物业的数据(如房屋的最后交易价格,卧室数量,平方英尺等)。许多拥有房屋价值数据的B2C网站都是从像CoreLogic这样的地方获得的。

“程序”略有不同 - 它是关于如何完成工作的说明

“过程”是关于特定动作的数据。这些在医学领域最常见。例如,“Lasik手术”是一种程序 - 可能具有某种专业知识,时间长度,设备和价格。程序往往是比人,地点,公司或产品更复杂的数据元素,因为它们通常是将许多人/产品/地点组合成一个动作的东西。但程序仍然有自己的ID,自己的代码等。

 

蜀ICP备15035023号-4