数据挖掘与机器学习释义

本文将从基本概念出发浅析数据挖掘与机器学习的联系和异同，希望对大家能有所帮助。

人工智能是目前炙手可热的领域，所有的互联网公司以及各路大迦们纷纷表态人工智能将是下一个时代的革命性技术。数据挖掘（Data Mining）和机器学习（Machine Learning）作为人工智能研究与应用的分支领域，也越来越多的被提到。在大多数非计算机专业人士以及部分计算机专业背景人士眼中，机器学习以及数据挖掘是两个高深的领域。本文翻译自外网文章，将从基本概念出发浅析他们的关系和异同，希望对大家能有所帮助。

原文章：https://www.import.io/post/data-mining-machine-learning-difference/

数据挖掘不是数字时代带来的新发明。这个概念已经存在了一个多世纪，在20世纪30年代就受到众多的公众关注。

据Hacker Bits称，数据挖掘在1936年首次被提出，当时Alan Turing提出了一种通用机器的概念，可以执行与现代计算机类似的计算。

Forbes还报道了图灵在1950年开发的 “Turing Test” ，以确定一台计算机是否具有真正的智能。计算机需要让人相信它也是人类才能通过测试。仅仅两年后，亚瑟·塞缪尔创建了塞缪尔跳棋游戏程序，这似乎是世界上第一个自我学习程序。它通过自我学习跳棋游戏规则，在比赛中获得了很不错的成绩。

通过长时间的发展，企业现在利用数据挖掘和机器学习来改进业务，包括企业的销售、投资、财务管理等多个方面。随着各企业希望通过数据科学实现更大的业务目标，数据科学家已经成为全世界各组织的重要团队成员。

数据挖掘

数据挖掘（Data mining）一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘本质上像是机器学习和人工智能的基础，它的主要目的是从各种各样的数据来源中，提取出需要的信息，然后将这些信息合并，并发掘内在关系。数据挖掘不能告诉你这些问题的答案，他只能告诉你，A和B可能存在相关关系，但是它无法告诉你A和B存在什么相关关系。数据挖掘是从大量的数据中寻找数据相互之间的特性。

机器学习

机器学习指的是计算机系统无需遵照显示的程序指令，而只是依靠暴露在数据中来提升自身性能的能力。机器学习关注的是“如何构建能够根据经验自动改进的计算机程序”。比如，给予机器学习系统一个关于交易时间、商家、地点、价格及交易是否正当等信用卡交易信息数据库，系统就会学习到可用来预测的信用卡欺诈的模式。机器学习本质上是跨学科的，他采用了计算机科学、统计学和人工智能等领域的技术。

机器学习的应用范围非常广泛，针对那些产生庞大数据的活动，它几乎拥有改进一切性能的潜力。现如今，机器学习已经成为认知技术中最炙手可热的研究领域之一。

数据挖掘与机器学习的区别与联系

数据使用

机器学习和数据挖掘之间的一个关键区别是它们如何在我们的日常生活中应用。

数据挖掘可以用于多种用途，例如财务研究：投资者可能会使用数据挖掘和网络抓取来查看初创企业的财务状况，并帮助他们做好投资决策。公司还可以使用数据挖掘来帮助收集有关销售趋势的数据，以便更好地了解从市场营销到库存需求的所有方面的信息，以及挖掘潜在客户。数据挖掘可用于梳理社交媒体档案、网站和数字资产，以收集相关公司有效销售线索的信息，从而开始推广活动。利用数据挖掘，可以在10分钟内挖掘10000个潜在客户。通过分析挖掘的数据信息，可以预测未来的发展趋势，有助于企业研究客户需求。

机器学习体现了数据挖掘的原理，但也可以进行自动关联数据，并从数据中学习以应用于新的算法。机器学习是自动驾驶汽车背后的技术，可以在驾驶时快速适应新的环境。当买家从亚马逊购买产品时，机器学习还提供即时建议。这些算法和分析一直都在改进，因此随着时间的推移，结果只会变得更加准确。机器学习不是人工智能，但是学习和改进能力仍然是一项令人印象深刻的壮举。

学习基础

数据挖掘和机器学习都是以相同的基础，但以不同的方式。数据科学家利用数据挖掘来寻找决策的新模式。例如，服装品牌自由人使用数据挖掘来梳理数以百万计的客户记录。这些数据包括了最畅销的商品、退货最多的商品以及客户反馈，以帮助销售更多的衣服并增强产品推荐。使用数据分析可以提高总体客户体验。

另一方面，机器学习实际上可以从现有数据中学习，并为机器自学提供必要的基础。Zebra Medical Vision开发了一种机器学习算法，用于预测导致每年超过500,000名美国人死亡的心血管疾病和事件。

机器学习可以观察模式并从中学习以适应未来事件的行为，而数据挖掘通常用作机器学习的信息源。尽管数据科学家可以设置数据挖掘来自动查找特定类型的数据和参数，但如果没有人的交互，它就无法自主学习和应用知识。数据挖掘也无法自动看到与机器学习相同深度的现有数据块之间的关系。

模式识别

收集数据只是挑战的一部分; 另一部分是理解这一切。正确的软件和工具需要能够分析和解释科学家收集的大量信息数据，并找到可识别的模式来采取行动。除非数据科学家花时间自行寻找这些复杂的、不明显的、看似随机的模式，否则这些数据基本上是不可用的。任何一个熟悉数据科学和数据分析的人都知道这是一项艰巨而耗时的任务。

企业可以使用数据来确定销售预测或确定客户真正想要购买的产品类型。例如，沃尔玛为其数据仓库收集了3,000多家商店的销售点。供应商可以查看此信息并使用它来识别购买模式并指导他们的库存预测和未来流程。

数据挖掘可以通过分类和序列分析揭示一些模式。然而，机器学习通过使用数据挖掘用于自动学习和适应所收集数据的相同算法，使这一概念更进一步。随着恶意软件成为越来越普遍的问题，机器学习可以寻找系统或云中数据访问方式的模式。机器学习还会查看模式，以帮助确定哪些文件实际上是恶意软件，具有高度的准确性。所有这一切都是在不需要人类不断监测的情况下完成的。如果检测到异常模式，则可以发送警报，以便采取措施防止恶意软件传播。

提高准确度

数据挖掘和机器学习都有助于提高收集数据的准确性。但是，数据挖掘及其分析方法通常与数据的组织和收集方式有关。数据挖掘通过和抓取软件从数千个资源中提取数据，并筛选有用的数据。

机器学习的主要基础之一是数据挖掘。数据挖掘可用于提取更准确的数据。这最终有助于优化您的机器学习，以获得更好的结果。人可能会错过数据之间的多重联系和关系，而机器学习技术可以精确定位所有这些移动部件，以得出高度准确的结论，以帮助塑造机器的行为。

机器学习可以增强CRM系统中的关系智能，帮助销售团队更好地了解客户并与他们建立联系。结合机器学习，公司的CRM可以分析过去导致转换或客户满意度反馈的行为。它还可用于了解如何预测哪些产品和服务的销售情况最佳以及如何为这些客户制定营销信息。

数据挖掘与机器学习的未来

数据科学的未来是光明的，因为数据量会不断的增加。据《福布斯》报道，到2020年，我们积累的数字数据世界将从4.4 zettabytes增长到44 zettabytes。地球上的每一个人将在每秒创建1.7兆字节的新信息。

随着我们收集更多的数据，对先进数据挖掘和机器学习技术的需求将迫使行业不断发展，以跟上时代的步伐。我们很可能会看到数据挖掘和机器学习之间有更多的重叠，因为这两个交叉点可以增强用于分析目的的大量数据的收集和可用性。

根据Bio IT World的报告，数据挖掘的未来指向预测分析，因为我们将看到医疗研究等行业的高级分析。科学家将能够使用预测分析来观察与疾病相关的因素，并预测哪种治疗最有效。

我们只是触及了机器学习可以做什么以及它将如何传播的表面，以帮助衡量我们的分析能力和改进我们的技术。根据Geekwire的报告，随着我们数十亿台机器的连接，从医院到工厂到高速公路的一切都可以通过物联网技术进行改进，物联网技术可以从其他机器中学习。

总结

机器学习为数据挖掘提供了理论方法，而数据挖掘技术是机器学习技术的一个实际应用。逐步开发和应用了若干新的分析方法逐步演变而来形成的；这两个领域彼此之间交叉渗透，彼此都会利用对方发展起来的技术方法来实现业务目标，数据挖掘的概念更广，机器学习只是数据挖掘领域中的一个新兴分支与细分领域，只不过基于大数据技术让其逐渐成为了当下显学和主流。