每日总结|9.19-初步了解大数据技术(一)

news/发布时间2024/5/16 20:04:37

拜托,这里是博客园欸,我每天写流水账,我觉得没有尊重“博客”两个字。

大数据技术的学习——————————

大数据不仅仅是数据的“大量化”,而是包含“快速化”,“多样化”和“价值化”等多重属性。大数据是由结构化和非结构化数据组成的。

大数据技术需要解决的难题:

1、海量数据如何存储?

很早以前,对于处理庞大的数据量时,采用的解决方案时使用NFS(网络文件系统)将数据分开存储。

缺点:海量数据分析方面不能够充分利用多台计算机同时进行分析。

解决思路:横向扩展-用多台节点分布式集群处理(通过将增加节点数量提高处理能力)

优点:成本相对低,易于线性扩展

缺点:

如何调度资源?

任务如何监控?

中间结果如何调度?

系统如何容错?

如何实现众多节点间的协调?

分布式计算的复杂性就体现在这五个问题上。

什么是Hadoop?

Hadoop是一个开源的可运行于大规模集群上的分布式文件系统和运行处理的框架。擅长于在廉价机器上搭建的集群上进行海量数据(结构化和非结构化)的存储与离线处理。它是一门用来处理大数据的技术,就是用来解决上述提到的分布式计算里面的五个技术难题的。

Hadoop的项目结构

已经说了它是一个框架。

Hadoop的核心是HDFS和Mapreduce,Hadoop2.0还包括YARN

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ulsteruni.cn/article/55136163.html

如若内容造成侵权/违法违规/事实不符,请联系编程大学网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

读高性能MySQL(第4版)笔记11_查询性能优化(中)

查询性能优化1. MySQL的客户端/服务器通信协议 1.1. MySQL的客户端和服务器之间的通信协议是“半双工”的 1.2. 在任何时刻,要么是由服务器向客户端发送数据,要么是由客户端向服务器发送数据,这两个动作不能同时发生 1.3. 当查询的语句很长的时候,参数max_allowed_packet就…

Python 通过 stomp 发送消息到 ActiveMQ 的代码

只需要下面简单的几行代码,我们就可以把我们本地数据发送到 ActiveMQ 上面去。 def send_mq(data):hosts = [(AMQHOST, AMQPORT)]conn = stomp.Connection(host_and_ports=hosts, auto_content_length=False)conn.connect(username=AMQUSER, passcode=AMQPASS, wait=True)conn…

Selenium python 代码运行的时候提示 no attribute find_element_by_xpath

我们有下面的一行代码,运行测时候提示没有特定的属性。 Name = kuch bhi last = test.find_element_by_xpath(//*[@id="mG61Hd"]/div[2]/div/div[2]/div[1]/div/div/div[2]/div/div[1]/div/div[1]/input) last.send_keys(Name)问题和解决 根据官方的修改记录,* Dep…

2023软件工程作业02

以五个月为一个周期的学习计划: 如果我真想学习并从事汽车自动驾驶相关的技术,那么我不应该计划现阶段学习。 因为我现在的本科学校的含金量不支持我从事这个行业,我能踏入这个行业的敲门砖应该是一个较好大学的研究生学历。 那么学习计划就转变为了考研计划。 明年11月左右…

AI系统论文:Janus(MoE)(continuing)

tag: AI system category: 系统论文abstruct all-to-all communication: (expert-centric) 让专家位于原地,数据在专家之间进行交换。 作者提出了一种”data-centric“的范式:让数据位于原地,在GPU之间移动专家。(因为专家的规模小于数据)。——Janus 主要适用于 the size…