MIT 6.824 Lecture3-GFS
Lecture 3-GFS [(289条消息) 谷歌文件系统GFS理解_小炮车的博客-CSDN博客_google文件系统gfs](https://blog.csdn.net/SwjtuPC/article/details/123652626?ops_request_misc=&request_id=&biz_id=102&utm_term=GFS PRIMARY&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-123652626.142^v47^pc_rank_34_ctr25,201^v3^add_ask&spm=1018.2226.3001.4187) 这门课程的主要内容是“大型存储”,GFS是这门课里有关如何构建大型存储系统的众多案例学习的第一篇。存储是一种关键的抽象,很多系统要么是设计的简单易用的存储接口,要么是基于底层存储进而构建。在分布式系统中,可能有各种各样重要的抽象可以应用在分布式系统中,但是实际上,简单的存储接...
CoRE-learning:Learnability with Time-Sharing Computational Resource Concerns
CoRE-learning:Learnability with Time-Sharing Computational Resource Concerns https://doi.org/10.1093/nsr/nwae204 一般认为,人工智能机器学习技术应用涉及算法、数据、算力“三要素”。经典机器学习理论关注算法与数据对学习性能的影响,推导出的机器学习泛化误差界所包含的重要项通常涉及假设类复杂度和样本复杂度,两者分别与算法和数据有关,而对“三要素”中的算力缺乏考虑,尽管现实场景中算力资源的供给分配直接影响到最终学习性能。 在近期发表于《国家科学评论》(National Science Review, NSR)的Perspective文章中,南京大学周志华教授提出了“计算资源高效学习(CoRE-learning)”理论框架,这是第一个考虑了算力资源供给调度对机器学习性能影响的学习理论框架。 CoRE理论框架: 作者定义了“机器学习吞吐率”并引入了对资源动态分配调度策略的考虑,使得算力资源的供给分配对机器学习泛化性能的影响可以被抽象地在学习理论中进行研究,不仅有助于指导设计出...
MIT 6.824 Lecture 1-Introduction
MIT 6.824: Lecture 1-Introduction Lecture 1-Introdunction 1.1为什么分布式: 连接不同物理实体 通过隔离实现安全 通过复制实现容错 并行的cpu、mem、disk、net实现扩展 1.2分布式系统: Hadoop( hdfs , yarn , MapReduce ) Spark 批处理 Storm , Flink 流处理 Hbase K/V分布式数据库 Kafka 消息队列 1.3Lab: 1-MapReduce 2-Raft:管理复制和剔除 3-k/v server 4-shard k/v service 1.4 Infrastructure-Abstraction storage :star: communications computation-MapReduce 1.5 Implementation: examples: RPC, Threads,Lock 1.6Performance: scalability-> 2 * computers-> 2 * throughput 1.7 Faul...
日本数据基础设施-调研
日本数据基础设施-调研 1)法律法规 促进数据流通与利用基本法 日本的促进数据流通与利用基本法并不是一个单独的具体法律名称,而是对日本在数据流通与利用方面进行的一系列法律和政策探索的统称。以下是一些关键点,概述了日本在这一领域的实践和政策框架: 多方协作机制 : 日本通过政府、产业界和行业协会的协作,推动数据流通与利用。政府层面成立新机构专项推进,如“数字厅”取代IT综合战略本部,统筹推进全国数字社会建设、数字化转型。 《综合数据战略》 : 数字厅作为责任部门推动实施《综合数据战略》,旨在建立一个放心高效的数据使用机制,推动数据在国内以及跨国安全、高效流通。 数据基础设施建设 : 产业层面积极建设数据基础设施、研发数据安全技术、建设数据交易市场。例如,NTT集团构建数据协作平台——全球可信数据空间,推动跨企业、跨行业、跨国界的数据利用与协作。 数据社会联盟 : 成立数据社会联盟,对产业数据空间等领域的技术标准进行规范,推进数字技术研发和数据流通领域标准及规范的建立。目前正在开发跨学科的数据协作平台DATA-EX。 数据流通利用基础 : 日本政府以及各行业组织在...
深入理解分布式系统(七)案例研究
案例研究 7.1 分布式文件系统 GFS (459条消息) 什么是簇:什么是卷_tianwailaibin的博客-CSDN博客 【MIT 6.824】学习笔记 3: GFS - 知乎 (zhihu.com) 7.2 分布式协调服务 Zookeeper 什么是ZooKeeper? - 知乎 (zhihu.com) zookeeper原理详解 - 知乎 (zhihu.com) [Zookeeper纸上谈兵——Zookeeper与CAP原则-CSDN博客](https://blog.csdn.net/qq_38194699/article/details/109016025?ops_request_misc={"request_id"%3A"171939403416800178545807"%2C"scm"%3A"20140713.130102334.pc_all."}&request_id=171939403416800178545807&biz_id=0&utm_medium=...
深入理解分布式系统(三)分布式系统基础
分布式系统基础 3.1 分区 在分布式系统中,分区是指将数据分成若干个部分,分别存储在不同的节点上,以达到提高系统性能和可扩展性的目的。分区是分布式系统中数据管理的基础。 在分区中,通常采用哈希算法对数据进行划分。具体来说,首先根据数据的某个属性进行哈希计算,得到一个哈希值,然后将这个哈希值映射到某个节点上,将对应的数据存储到这个节点上。通过这种方式,相同属性的数据会被分配到同一个节点上,从而提高数据访问的效率。 分区可以带来以下好处: 提高系统的可扩展性:由于数据被分割成多个部分,每个部分可以分别存储在不同的节点上,因此可以更容易地进行横向扩展,增加节点数量来提高系统的处理能力。 提高系统的性能:由于相同属性的数据被分配到同一个节点上,因此可以更快地访问这些数据,从而提高系统的处理效率。 提高系统的容错性:当某个节点发生故障时,只有该节点上的数据会受到影响,而其他节点上的数据仍然可以正常访问,从而提高了系统的容错性。 但是,分区也会带来一些挑战和问题,如数据的一致性和分区策略的选择等。因此,在设计分布式系统时,需要仔细考虑分区策略和数据一致性等问题,以确保系统的正确性和稳定...
深入理解分布式系统(五)分布式事务
分布式事务 5.1 什么是分布式事务 ACID: 原子性(Atomicity):一个事务被视为一个不可分割的最小工作单位,事务中的所有操作要么全部完成,要么全部撤销回滚,不允许出现部分完成的情况。 一致性(Consistency):事务开始前和结束后,数据库必须处于一致的状态,即事务执行后所得的结果必须符合预期的规定的结构和约束条件。 隔离性(Isolation):多个事务相互隔离不受干扰,每个事务只能“看到”其所执行的数据和其他事务已提交的数据,而看不到其他事务未提交的数据。 持久性(Durability):一个事务提交后,它对数据库的改变必须被永久保存到数据库中,即使出现断电等故障,其对数据库的改变也不能丢失。 分布式事务两种变体: 同一份数据需要在多个副本上更新,一个分布式事务需要更新所有的副本,如果有的节点提交了事务,有的节点回滚了事务,那么这样的结果对于用户来说是无法接受的。(可利用单主复制解决) 数据进行了分区,事务跨越多个节点,还要同时保证整体数据一致和事务的ACID属性。(常见且重点) 分布式事务通常不讨论ACID中的一致性。 想要实现持久性,只需在向客户...
深入理解分布式系统(六)时间和事件顺序
时间和事件顺序 6.1 物理时钟 机械时钟 石英时钟 原子钟:原子共振频率标准来计算 GPS 6.2 时钟同步 NTP:(430条消息) NTP详解(网络时间协议)_127.127.1.0 ntp含义_思福迪小白的博客-CSDN博客 针对NTP同步导致时间回退甚至是负数的情况–单调时钟,保证返回的时间严格单调增长 Cloudflare没用单调时钟,而是在发现时间差为负数或者0时变为一个默认值(golang没暴露单调时钟) 单调时钟的局限性:以自身所在的计算机的某个时间为起点,也就是说,来自同一个节点的单调时钟才有意义。 如何发明分布式系统中的单调时钟? 6.3 逻辑时钟 Lamport Clock Happens-Before: if a->b if a and b are in the same process, and a is before b, then a->b if a is the event that sends a message , b is the event that receives the message, then a->...
深入理解分布式系统(四)分布式共识
分布式共识 4.1 分布式共识简介 分布式共识(Distributed Consensus)是指在分布式系统中,多个节点(或进程)协同完成某个任务或达成某个决策的过程。在这个过程中,每个节点需要就该任务或决策达成一致,并且能够互相通信、协调、协作。 分布式共识的一个重要应用是在区块链技术中,用于解决双花问题(Double-spending problem)和确定哪些交易会被写入区块链。比特币等加密货币就是通过共识算法来实现去中心化的交易记录。 常见的分布式共识算法包括拜占庭将军问题(Byzantine fault tolerance, BFT)、Raft、Paxos、Proof of Work(PoW)、Proof of Stake(PoS)等。这些算法都有各自的优缺点,适用于不同的场景。例如,PoW 算法被应用在比特币等加密货币中,而 PoS 算法则被用在以太坊等区块链平台中。 4.1.1 什么是分布式共识 分布式共识是指在一个分布式系统中,多个节点之间需要就某些决策达成一致意见的过程。在这个过程中,各个节点通过相互通信和协作来达成共识,以保证系统能够正常运作并避免出现错误或冲...
P4&SRV6
B-EP2 背景:互联网变得臃肿,网络管理员迫切需要一种快速高效的网络遥测方案,能够利用采集到的实时准确的网络状态信息来快速检测和定位常见网络故障,然后需要一个有效的网络控制和管理(NC&M)方案,以实现只能及时决策以在网络路径上梳理和路由流量,以同时实现高效的利用和高质量的服务(QoS)。 采集网络信息,定位故障 有效的网络控制和管理方案 (465条消息) P4学习笔记(一)初识P4_p4接口是干嘛的_程序员学编程的博客-CSDN博客 基于P4的主动遥测 探针代替数据分组进行遥测,降低了遥测开销(因为数组分组比如INT即带内网络遥测(460条消息) 带内网络遥测INT–In-band Network Telemetry_袁冬至的博客-CSDN博客 https://www.sdnlab.com/23822.html (465条消息) Telemetry 技术概述_LeocenaY的博客-CSDN博客 ,在转发数据分组时能够在数据在网络结构流动的过程中,通过在路径中间节点插入元数据,监控系统可以通过这些元数据进行收集网络状态,但这样载荷比就大),INT之类的带...







