大数据

无标签

计算机

发布日期: 2022-03-27

更新日期: 2023-02-23

文章字数: 5.5k

阅读时长: 20 分

阅读次数:

大数据系统指的是用于存储、处理和分析大规模数据的软件和硬件系统。它们通常需要支持海量数据的高效处理和存储，并具备高可用性、可扩展性、安全性等特性。

大数据总览

5V

Volume（数据量）、Velocity（数据速度）、Variety（数据种类）、Veracity（数据真实性）和Value（数据价值）。这五个方面分别描述了大数据的规模、速度、多样性、准确性和价值等关键特征。其中，数据量越来越大、数据的产生和处理速度越来越快、数据种类越来越丰富、数据真实性越来越重要、数据价值越来越高，这些都是大数据系统需要解决的关键问题。

起源

大数据系统的起源可以追溯到2003年，Google在一篇名为“MapReduce: Simplified Data Processing on Large Clusters”的论文中提出了一个分布式数据处理模型MapReduce，并将其应用于谷歌的大规模数据处理系统中。这一模型基于类似函数式编程的思想，通过将大规模数据分成小块，并在多个计算节点上并行处理，最终将结果合并得到整体结果。MapReduce的提出和应用，为大数据处理提供了一种新的思路和技术基础，成为了大数据技术的重要里程碑之一。随后，Apache基金会在Google的MapReduce和GFS的基础上，开发了Hadoop分布式文件系统和MapReduce计算框架，成为了大数据领域的重要技术之一。

谷歌三驾马车：
- GFS分布式文件存储系统
- 分布式计算框架MapReduce
- NoSQL数据库BigTable
大数据发展：
- 搜索引擎时代、数据仓库时代、数据挖掘时代、机器学习时代
通过分布式方式，投入更多的机器得到更大的吞吐量
大数据存储：HDFS
计算模式：
- 批处理MapReduce、Spark
- 流式处理Storm、Flink、Spark Streaming
NoSQL系统：HBase、Cassandra
大数据分析：Hive、Spark SQL
大数据挖掘与机器学习：Mahout、MLlib、TensorFlow

Hadoop

Hadoop是一个开源的分布式计算框架，由Apache基金会开发。它主要用于处理大规模数据集的分布式存储和处理。Hadoop包含了两个核心组件：Hadoop Distributed File System（HDFS）和MapReduce计算模型。

使用HDFS等分布式文件系统，将文件分块，存储在各个机器上
使用计算引擎，在各个机器上，启动许多分布式计算任务

HDFS

HDFS是Hadoop的分布式文件系统，用于存储大规模数据集，并且能够提供高容错性、高可用性和高性能的数据访问服务。它通过数据块的方式将数据存储在多个节点上，同时提供了副本机制来保证数据的可靠性和容错性。HDFS具有高可扩展性和高吞吐量的特点，适用于大规模数据集的存储。
Hadoop分布式文件系统（Hadoop Distributed File System，简称HDFS）是Hadoop生态系统中的一个核心组件，也是一个分布式文件存储系统。HDFS被设计用来解决海量数据的存储问题，它将数据分散存储在集群的多个计算机上，并提供了高可靠性和高可用性。
HDFS将文件分成多个块（block），并将这些块存储在集群中的多个计算机上，每个块的大小通常为128MB。每个块都有多个副本，这些副本可以存储在不同的计算机上，以提高数据的可靠性和可用性。HDFS使用一个名为NameNode的主服务器来管理文件系统的命名空间，并负责管理文件的块分配和副本放置。同时，还有一个称为DataNode的服务器群组来存储实际的数据块。
HDFS提供了高吞吐量的数据访问能力，而不是低延迟的数据访问能力。因此，HDFS适用于存储大型文件，而不是小型文件或交互式访问。它通常用于支持大数据处理，如Hadoop MapReduce和Spark等计算框架。

数据存储所面临的问题：
- 容量
- 速度
- 可靠性
解决途径：
- 垂直伸缩：
  - 增加单机性能
  - 受限于摩尔定律失效
- 水平伸缩：投入更多机器
RAID（独立磁盘冗余阵列）可以以较低的成本获得大容量、高吞吐、高可靠性
HDFS中有大量的DataNode，数据会分块，同时存储在多台机器上，通过冗余保证大容量、高吞吐、高可靠性
NameNode也会通过主从、备份等方式保证可靠。

常见命令：

hadoop fs -ls：列出HDFS中的文件和目录
hadoop fs -mkdir：在HDFS中创建目录
hadoop fs -put：将本地文件上传到HDFS
hadoop fs -get：将HDFS上的文件下载到本地
hadoop fs -cat：输出HDFS上的文件内容
hadoop fs -rm：删除HDFS上的文件或目录
hadoop fs -du：显示HDFS上文件或目录的磁盘使用情况
hadoop fs -chmod：更改HDFS中文件或目录的权限
hadoop fs -chown：更改HDFS中文件或目录的所有者
hadoop fs -mv：在HDFS中移动文件或目录

MapReduce

MapReduce是一种分布式计算编程模型，用于处理大规模数据集。它最初由Google开发，旨在解决海量数据处理的问题。MapReduce的核心思想是将数据分为小的块，每个块由一个map任务和一个reduce任务来处理。Map任务对数据进行切割和过滤，将结果以<key, value>键值对的形式传递给Reduce任务，Reduce任务负责对这些结果进行合并和归并。

MapReduce的工作流程一般包括以下几个步骤：

输入数据分块：将大数据集分成小块，分配给多个节点进行处理。

Map任务：每个节点的Map任务对数据进行处理，将数据转换成<key, value>键值对，并将其传递给Reduce任务。

Shuffle：Reduce任务根据<key, value>键值对中的key值进行排序，然后将相同key值的value值归并在一起，形成一个列表。

Reduce任务：对Shuffle生成的列表进行归并、统计和计算等操作，并将结果输出到磁盘。

Spark

Apache Spark是一个通用的、快速的、可扩展的分布式计算系统，可用于大规模数据处理。它最初是由加州大学伯克利分校AMPLab开发的，现在是Apache软件基金会的顶级项目之一。Spark提供了一个基于内存的计算引擎，可用于处理数据集、批处理、交互式查询、流处理和机器学习等各种用例。

Spark的核心组件是Spark Core，它提供了分布式任务调度、内存管理和错误恢复等基础功能。除此之外，Spark还提供了一系列高级组件，如Spark SQL（用于结构化数据处理）、Spark Streaming（用于流数据处理）、MLlib（用于机器学习）、GraphX（用于图处理）等。此外，Spark还提供了与Hadoop生态系统的集成，如可以直接访问HDFS文件系统、使用Hadoop MapReduce的输入输出格式等。

与Hadoop相比，Spark的优势在于更快的处理速度和更好的交互性。由于Spark使用内存计算，而Hadoop则需要将数据存储到磁盘中，因此Spark在处理迭代计算、交互式查询等场景下表现更优秀。此外，Spark提供了更为方便的编程接口，如Scala、Java、Python和R等，使得开发者可以使用自己最熟悉的编程语言进行开发。

总之，Spark是一个强大的、通用的、快速的分布式计算系统，已经在大规模数据处理、机器学习、实时流数据处理等领域得到了广泛应用。

组成

Spark是一个基于内存计算的大数据处理框架，其核心技术主要包括以下几个方面：

RDD（Resilient Distributed Datasets）：弹性分布式数据集是Spark的核心数据抽象，是一种不可变的分布式内存数据结构，能够高效地进行并行计算。

Spark SQL：Spark SQL是Spark的一个模块，提供了对结构化数据的支持，能够通过SQL语句或DataFrame API进行数据的查询、过滤、聚合等操作。

Spark Streaming：Spark Streaming是Spark的流式处理模块，能够实时地处理数据流，并进行实时计算和处理。

MLlib：MLlib是Spark的机器学习库，提供了多种常用的机器学习算法，如分类、回归、聚类等，能够高效地处理大规模的机器学习任务。

GraphX：GraphX是Spark的图计算库，提供了多种常用的图计算算法，如PageRank、图聚类等，能够高效地处理大规模的图计算任务。

Spark Core：Spark Core是Spark的核心组件，提供了分布式任务调度、内存管理、网络通信等基础功能，是其他组件的基础。

这些核心技术共同构成了Spark的基础架构，使其能够高效地处理大规模数据，进行实时计算和处理，以及应对多种数据处理需求。

PySpark

使用Python调用Spark可以使用PySpark模块。PySpark是Spark提供的一个Python API，它提供了Python编程接口来编写Spark应用程序。下面是一个简单的PySpark应用程序的示例，该应用程序从本地文件系统中读取一些数据并在Spark集群上执行一些数据处理操作：

from pyspark.sql import SparkSession

# 创建SparkSession对象
spark = SparkSession.builder.appName("MyApp").getOrCreate()

# 读取本地文件系统中的数据并转换成DataFrame对象
data = spark.read.format("csv").load("/path/to/local/file.csv")

# 执行一些数据处理操作
result = data.groupBy("column_name").agg({"column_name": "count"})

# 输出结果
result.show()

# 停止SparkSession
spark.stop()

MLlib

MLlib是Apache Spark的一个机器学习库，提供了一系列的机器学习算法和工具，旨在简化大规模机器学习问题的开发。MLlib支持许多常见的机器学习任务，如分类、回归、聚类、协同过滤等。它还支持特征提取、数据预处理和模型评估等功能。

MLlib提供了一个高度可扩展的机器学习框架，可以处理大规模数据集。它可以与Spark的其他组件无缝集成，如Spark SQL和Spark Streaming，从而使机器学习的整个流程更加自然和高效。

MLlib支持多种编程语言，包括Scala、Java、Python和R。此外，它还提供了基于RDD和DataFrame的API，使用户可以方便地使用不同的数据格式和处理方式。

MLlib和PyTorch的区别

MLlib是Spark生态系统中的机器学习库，主要用于大规模分布式数据处理和机器学习任务。相比之下，PyTorch是一个专注于深度学习的开源框架，用于构建神经网络和进行深度学习任务。

下面是一些MLlib和PyTorch的区别：

任务类型：MLlib主要用于传统的机器学习任务，如分类、回归、聚类和推荐系统等，而PyTorch主要用于深度学习任务，如图像分类、自然语言处理和语音识别等。

编程语言：MLlib是使用Scala和Java编写的，而PyTorch则是使用Python编写的。

分布式计算：MLlib的设计目标是在Spark的分布式计算环境中运行，因此它具有良好的并行处理能力。相比之下，PyTorch更侧重于单机多GPU的并行处理。

灵活性：PyTorch是一种动态图计算框架，允许用户通过使用Python进行灵活的模型构建和修改。MLlib则更侧重于提供预定义的机器学习算法和流水线，以方便用户进行大规模数据处理。

总之，MLlib适用于需要处理大规模数据的传统机器学习任务，而PyTorch适用于构建和训练深度学习模型。具体选择哪个工具取决于具体的应用场景和需求。

MLlib是Spark提供的机器学习库，Python调用MLlib可以使用PySpark API来实现。具体步骤如下：

# 初始化SparkSession
# 在Python中初始化SparkSession，可以使用以下代码：
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("AppName").getOrCreate()

# 载入数据
# 可以使用SparkSession中的read方法载入数据，如：
df = spark.read.csv("path/to/file.csv", header=True, inferSchema=True)

# 数据处理
# 对载入的数据进行处理，如：
from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=["col1", "col2", ...], outputCol="features")
df = assembler.transform(df)

# 训练模型
# 使用MLlib中提供的算法进行训练，如：
from pyspark.ml.classification import LogisticRegression
lr = LogisticRegression(maxIter=10, regParam=0.01)
lrModel = lr.fit(df)

# 预测
# 使用训练好的模型进行预测，如：
predictions = lrModel.transform(df)

# 保存模型
# 可以使用MLlib中提供的model.save方法保存模型，如：
lrModel.save("path/to/model")

以上是使用Python调用MLlib的基本流程。需要注意的是，MLlib主要是针对大规模数据集进行处理和训练的，因此在数据处理和训练过程中需要考虑分布式计算的特点和限制。

Streaming

Streaming是Spark生态系统中的一部分，是一种实时数据处理框架，可以处理连续的数据流。它提供了高级别的抽象，可以轻松地对数据流进行处理。它可以与Spark的批处理框架相结合，从而提供了一个统一的编程模型，用于处理实时和历史数据。

Streaming将实时数据流分成一系列小批次，这些小批次可以像Spark的RDD一样进行处理。在每个小批次内，Streaming使用Spark的批处理引擎进行处理，提供与批处理相同的API，例如map、filter和reduceByKey等操作。这些操作可以被应用于数据流中的每个批次，并产生结果。

Streaming可以从多个数据源中读取数据，例如Kafka、Flume、Twitter、HDFS等，也可以将结果写入多个数据源中。它还提供了与其他Spark组件的无缝集成，例如Spark SQL和MLlib。

Streaming的主要优点是它可以处理实时数据，并提供与Spark批处理框架相同的API和功能。它还提供了与其他Spark组件的无缝集成，使得在处理实时数据和历史数据时可以使用相同的编程模型。但它也有一些限制，例如批处理间隔不能太小，否则可能会影响性能，而批处理间隔太长又会影响实时性。

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

# 创建一个本地Spark Context对象和一个Streaming Context对象，每秒钟处理一次数据
sc = SparkContext("local[2]", "NetworkWordCount")
ssc = StreamingContext(sc, 1)

# 从TCP/IP套接字连接中读取流数据，以换行符为分隔符
lines = ssc.socketTextStream("localhost", 9999)

# 拆分每行为单词
words = lines.flatMap(lambda line: line.split(" "))

# 计算每个单词的出现次数
wordCounts = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)

# 打印每个单词的出现次数
wordCounts.pprint()

# 启动StreamingContext
ssc.start()

# 等待处理结束
ssc.awaitTermination()

在本例中，我们创建了一个本地SparkContext对象和一个StreamingContext对象，从TCP/IP套接字连接中读取流数据，并使用flatMap和reduceByKey等操作计算每个单词的出现次数。然后，我们将结果打印出来，并启动StreamingContext对象以开始处理流数据。最后，我们使用awaitTermination()方法等待处理结束。

Kafka

Kafka是一个分布式流处理平台，最初由LinkedIn开发并开源。它主要用于解决高吞吐量、低延迟的数据处理问题，以及支持实时数据管道和流式处理应用程序的开发。Kafka提供了高度可扩展的、可靠的数据管道，可以在不停机的情况下处理数千亿条消息。

Kafka的核心概念包括：

Producer：将消息发布到Kafka主题的应用程序。
Consumer：从Kafka主题中消费消息的应用程序。
Broker：Kafka集群中运行的服务器。
Topic：一个逻辑数据流，其中的消息由Producer发布，由Consumer消费。
Partition：一个Topic的分区，一个Topic可以由多个Partition组成。
Offset：每个Partition中的消息都会被分配一个唯一的偏移量，Consumer使用偏移量来追踪它们已经消费的消息。

Kafka的优点包括：

高可靠性：Kafka提供了高度可靠的数据管道，它将消息复制到多个节点，以保证消息的可靠性。
高可扩展性：Kafka的分布式设计使其能够轻松地扩展到多台服务器上。
高吞吐量：Kafka可以支持每秒数十万到数百万条消息的处理。
多语言支持：Kafka提供了多种编程语言的客户端API，包括Java、Python、C++、Ruby等。

Kafka主要用于以下场景：

数据传输：将数据从一个系统传输到另一个系统，如日志、事件、度量等。
流式处理：实时处理大规模数据集合。
消息队列：用于解耦系统中不同部分之间的通信。
日志聚合：将分布式系统的日志聚合到一个中央存储中。

以下是一个使用Python编写的生产者代码示例，它将消息发送到名为test_topic的Kafka主题中：

from kafka import KafkaProducer
import json

producer = KafkaProducer(bootstrap_servers=['localhost:9092'])

data = {'id': 1, 'name': 'Alice', 'age': 25}

producer.send('test_topic', json.dumps(data).encode('utf-8'))
producer.flush()

以下是一个使用Python编写的消费者代码示例，它从名为test_topic的Kafka主题中读取消息并将其打印出来：

from kafka import KafkaConsumer
import json

consumer = KafkaConsumer('test_topic', bootstrap_servers=['localhost:9092'],
                         value_deserializer=lambda m: json.loads(m.decode('utf-8')))

for message in consumer:
    print(message.value)

在这些代码示例中，我们使用了kafka-python库来与Kafka交互。在生产者示例中，我们首先创建了一个KafkaProducer实例，然后将数据打包成JSON格式并发送到test_topic主题中。在消费者示例中，我们创建了一个KafkaConsumer实例，并使用lambda函数将从Kafka接收到的消息解码为JSON格式。最后，我们使用for循环迭代消费者对象，打印出每个消息的值。

Flink

pache Flink是一个分布式流处理引擎，它支持流和批处理。Flink的主要特点是具有低延迟和高吞吐量的数据处理，支持高度可扩展的分布式计算，并提供了灵活的API和库来处理有状态的流处理应用程序。

Flink的核心概念包括：

DataStreams：基于无限事件流的API，它允许用户对数据流进行转换和计算。
DataSet：基于有限数据集的API，它允许用户对静态数据集进行转换和计算。
State：用于管理有状态的应用程序，并且在Flink中可以使用不同的存储后端，例如内存、RocksDB或HDFS。
Window：用于处理数据流中的时间窗口，包括滚动窗口、滑动窗口和会话窗口等。
Connector：Flink支持各种数据源和数据接收器的连接器，包括Kafka、Hadoop、Elasticsearch等。
Flink集群：Flink支持在分布式集群上运行，通过Apache Mesos、YARN或Kubernetes等资源管理器来实现资源的分配和任务的调度。

Apache Flink适用于需要流式处理和批处理能力的场景，如实时数据分析、实时推荐、欺诈检测、运营指标实时监控、金融风控等。具体来说，Flink主要有以下几个特点：

高吞吐和低延迟：Flink使用基于内存的计算和本地数据传输，可以实现非常高的吞吐量和低延迟。
支持状态管理：Flink可以通过状态管理机制支持更复杂的应用场景，如窗口计算、迭代计算等。
精确一次处理：Flink可以确保事件只会被处理一次，这在某些场景下非常重要。
数据源支持：Flink支持多种数据源，包括Kafka、HDFS、Cassandra等。
批处理和流式处理的统一：Flink可以同时支持批处理和流式处理，并且可以实现两种处理方式的无缝衔接。

比较

Apache Flink和Apache Kafka是两个不同的工具，用途也不同，因此它们之间有以下几个区别：

用途不同：Kafka是一个分布式的消息队列，主要用于高吞吐量、低延迟的数据处理；而Flink是一个流式处理框架，主要用于数据流的转换、聚合和计算。

数据处理方式不同：Kafka只是用于数据的存储和传输，它本身不进行数据的计算和处理；而Flink提供了强大的流式处理和批处理能力，可以对数据进行复杂的计算和处理。

数据处理粒度不同：Kafka以消息为基本单位进行数据传输和存储，处理的粒度较细；而Flink以数据流为基本单位进行处理，处理的粒度较粗。

数据处理方式不同：Kafka是基于发布-订阅模式实现的，通过主题来进行消息的发布和订阅；而Flink是基于数据流的编程模型，可以对数据流进行各种操作和计算。

数据处理速度不同：Kafka的数据处理速度较快，可以达到每秒处理百万级别的消息；而Flink的数据处理速度更快，可以达到毫秒级别的实时计算。

综上所述，Flink和Kafka是两个不同的工具，用途和特点也不同，具体使用哪个取决于具体的业务需求和数据处理场景。

Storm

万川

http://notego.top/2022/03/27/da-shu-ju/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源万川 !

无标签

PyTorch

深度学习编程框架

2022-05-30 编程语言

Python PyTorch numpy

Linux

开源操作系统，极客必备

2022-02-11 计算机

大数据总览

5V

起源

Hadoop

HDFS

MapReduce

Spark

组成

PySpark

MLlib

MLlib和PyTorch的区别

Streaming

Kafka

Flink

比较

Storm

你好，同行的有缘人