21世纪最性感的工作——数据科学家

21世纪最性感的工作

如果“性感”意味着拥有广受欢迎的稀有品质,那么数据科学家就是最性感的人。优秀数据科学家的市场竞争激烈,这使得他们难以招聘且成本高昂,甚至更难留住。目前,具备科学背景、计算和分析技能的人并不多。

这类似于 80 年代和 90 年代的量化短缺,当时大银行为任何具有物理和数学技能的人支付巨额资金。最终,随着教授数据科学的大学课程的兴起,数据科学家的供应将赶上需求,工资将趋于平稳。但与此同时 - 保持性感的家伙!

它为何是“21世纪最性感的工作”?就要从核心关键词“数据”开始娓娓道来。

什么是数据?

数据—已被转换为计算机可以处理的形式的一组事实(数字、单词、测量值、观察值等)。

无论您在哪个行业工作,也无论您的兴趣是什么,您几乎肯定都会遇到一个关于“数据”如何改变我们世界面貌的故事。这可能是一个研究的一部分,帮助治愈疾病,提高公司的收入,使建筑物更有效或负责你把看到这些有针对性的广告。

一般来说,数据只是信息的另一个词。但在计算和商业领域(你在新闻中读到的大部分关于数据的内容——尤其是关于大数据的内容),数据是指机器可读的信息,而不是人类可读的信息。

人类与机器可读的区别

人类可读(也称为非结构化数据)是指只有人类才能解释和研究的信息,例如图像或文本块的含义。如果它需要一个人来解释它,那么该信息是人类可读的。

机器可读(或结构化数据)是指计算机程序可以处理的信息。程序是一组用于操作数据的指令。当我们获取数据并应用一组程序时,我们就得到了软件。为了让程序对数据执行指令,该数据必须具有某种统一的结构。

例如,美国海军军官Matthew Maury将多年的旧手写运输日志(人类可读)变成了大量坐标路线(机器可读)。然后,他能够集中处理这些航线,将平均海军航程减少 33%。

数据类型

当谈到福布斯文章和麦肯锡报告中的结构化数据类型时,有几种不同的类型往往最受关注……

个人资料

个人数据是任何特定于您的数据。它涵盖了您的人口统计数据、您的位置、您的电子邮件地址和其他识别因素。当它被泄露(如阿什利麦迪逊丑闻)或以有争议的方式使用(当优步弄清楚谁有外遇时)时,它通常会出现在新闻中。

许多不同的公司都会收集您的个人数据(尤其是社交媒体网站),只要您输入电子邮件地址或信用卡详细信息,就会泄露您的个人数据。通常,他们会使用这些数据为您提供个性化建议,以保持您的参与度。例如,Facebook 使用您的个人信息根据其他与您相似的人喜欢的内容来推荐您可能希望看到的内容。

此外,个人数据被汇总(在某种程度上使其去个性化)然后出售给其他公司,主要用于广告和竞争研究目的。这是您从从未听说过的公司获得有针对性的广告和内容的方式之一。

交易数据

交易数据是任何需要采取行动来收集的数据。您可能会点击广告、进行购买、访问某个网页等。

几乎您访问的每个网站都会通过Google Analytics、另一个 3rd 方系统或他们自己的内部数据捕获系统收集某种类型的交易数据。

交易数据对企业来说非常重要,因为它可以帮助他们揭示可变性并优化其运营以获得最高质量的结果。通过检查大量数据,可以发现隐藏的模式和相关性。这些模式可以创造竞争优势,并带来商业利益,例如更有效的营销和增加收入。

Web 数据

Web 数据是一个统称,指的是您可能从互联网上提取的任何类型的数据,无论是出于研究目的还是其他目的。这可能是有关您的竞争对手所销售商品的数据、已发布的政府数据、足球比分等。它是您在网络上可以找到的面向公众的(即未存储在某些内部数据库中的)任何内容的统称。研究这些数据可以提供非常丰富的信息,尤其是在与管理层进行良好沟通时。

Web 数据很重要,因为它是企业访问不是由他们自己生成的信息的主要方式之一。在创建高质量的业务模型和做出重要的 BI 决策时,企业需要有关其组织内部和外部正在发生的事情以及更广泛市场正在发生的事情的信息。

Web 数据可用于监控竞争对手、跟踪潜在客户、跟踪渠道合作伙伴、生成潜在客户、构建应用程序等等。随着将非结构化数据转化为结构化数据的技术的改进,它的用途仍在不断扩大。

可以通过编写网络抓取工具来收集网络数据,使用抓取工具,或通过支付第三方为您进行抓取来收集网络数据。网络爬虫是一种计算机程序,它以 URL 作为输入并以结构化格式(通常是 JSON 提要或 CSV)提取数据。

Dyson 网络数据采集系统适用于多源数据采集,需要定制化开发并私有化部署的大规模网络数据采集系统。提供从数据采集,爬虫撰写,任务调度,数据清洗合并到数据存储一站式服务。

传感器数据

传感器数据由对象产生,通常被称为物联网。它涵盖了从测量心率的智能手表到带有测量天气的外部传感器的建筑物的所有内容。

到目前为止,传感器数据主要用于帮助优化流程。例如,AirAsia通过使用 GE 传感器和技术来帮助降低运营成本和增加飞机使用率,从而节省了 30-5000 万美元。通过测量周围发生的事情,机器可以做出明智的改变,以提高生产力并在需要维护时提醒人们。

探码设备采集系统为每一台设备都搭建一个采集终端,该采集终端包括了协议解析,数据存储,边缘计算,任务监控,数据采集器5大板块。该采集终端的运用相当于给每一台工业设备配置一个智能采集大脑,对车间内运行的设备数据进行实时的采集和存储。

数据什么时候变成大数据?

从技术上讲,上述所有类型的数据都有助于大数据。该术语仅表示现在作为数据收集的一部分正在收集的数据量和种类不断增加。

随着世界上越来越多的信息在线移动并数字化,这意味着分析师可以开始将其用作数据。社交媒体、在线书籍、音乐、视频和传感器数量的增加,都增加了可用于分析的数据量的惊人增长。

这是区分大数据从“常规数据”,我们之前进行分析是我们使用的工具来收集、存储和分析它不得不改变,以适应规模和复杂性的增加。使用市场上最新的工具,我们不再需要依赖采样。相反,我们可以完整地处理数据集,并获得对我们周围世界的更完整的了解,并可进行更多的数据驱动软件智能

数据收集的重要性

数据收集与数据挖掘的不同之处在于它是一个收集和测量数据的过程。所有这一切都必须在开始高质量的研究并找到挥之不去的问题的答案之前完成。数据收集通常是通过软件完成的,并且有许多不同的数据收集程序、策略和技术。大多数数据收集以电子数据为中心,由于这种数据收集包含的信息量很大,因此通常会跨越到大数据领域。

那么,为什么数据收集很重要?通过数据收集,企业或管理层可以获得他们需要的质量信息,以便通过进一步的分析、研究和研究做出明智的决策。如果没有数据收集,公司将在黑暗中使用过时的方法做出决策。相反,数据收集使他们能够掌握趋势,提供问题的答案,并分析新的见解以取得巨大的效果。

总结

数据收集后,所有这些数据都需要有人处理、研究和解释,然后才能用于洞察力。不管你在谈论什么类型的数据,这个人通常是数据科学家。

数据科学家现在是最受追捧的职位之一。谷歌的一位前高管甚至称其为“21 世纪最性感的工作”。

要成为一名数据科学家,您需要在计算机科学、建模、统计、分析和数学方面打下坚实的基础。他们与传统职位的区别在于对业务流程的理解以及将质量发现传达给业务管理和 IT 领导者的能力,这种方式可以影响组织如何应对业务挑战并在此过程中回答问题。

蜀ICP备15035023号-4