大咖专栏|拨云见月,专注于深度学习本身

  • 时间:
  • 浏览:1

  作为人工智能大爆炸的核心驱动,层厚学习给机器学习领域带来了前所未有的巨大影响。面对火山喷发般的数据洪流,亲戚亲戚我门我门 期望从层厚学习中获得补救现实问题的助力。

  然而前期准备却要处在大量时间精力,往往与简便补救多样化问题的目的背道而驰,本文从层厚学习的统一支持框架入手,一步步帮助亲戚亲戚我门我门 从多样化的前期工作中夺回对层厚学习你你你你这个 的专注。

  摘要

  分布式层厚学习应用往往还要用户在运行环境的多节点部署和可扩展性上投入大量时间与精力,而基于数据中心集群资源的层厚学习工作负载的统一支持框架,主要目的是实现层厚学习工作负载在数据中心资源池上的自动化部署与执行,从而帮助用户将更多注意力集中在商业逻辑和层厚学习问题你你你你这个 。

工作流程概述

  基于数据中心集群资源的层厚学习工作负载统一支持框架的构成组件与工作流程下图所示。

层厚学习工作负载的统一支持框架

  Deep Learning Harness

  ❶ 用户提交学习任务规范(或层厚学习模型)与数据集;

  ❷ 层厚学习后端服务系统按照问题类型与数据社会形态生成推荐模型;

  ❸ 为层厚学习模型自动生成TensorFlow代码;

  ❹ 基于CPU、GPU集群计算资源池对学习任务进行优化调度;

  ❺ 启用层厚学习工作负载监控分析工具;

  ❻ 载入代码与数据集,在指定资源上执行层厚学习工作负载;

  ❼ 训练过程的实时可视化监测与检查点自动保存;

  ❽ 保存任务执行结果;

  ❾ 层厚学习任务结果的分析与可视化。

  接下来,亲戚亲戚我门我门 就支持框架中的若干关键功能与实现法子依次展开讨论(如下图所示)。

支持框架的关键功能与实现法子

  CPU-GPU计算资源池

  将数据中心服务器集群中的CPU资源和各种不同类型、不同数目的GPU资源整合为逻辑上单一的计算资源池,用户也能后要花费大量精力去学习、理解不同类型计算资源的性能特点,尤其是在部署分布式层厚学习工作负载时,用户只需指定期望的计算资源类型和数量即可;甚至用户也能不指定计算资源,支持框架中的资源控制器也能根据用户工作负载的社会形态,诸如模型多样化度、训练数据量等,动态选择最佳计算资源(亲戚亲戚我门我门 会在后文中展开讨论)。

  对计算资源的池化管理也能有效地实现智能调度,提高资源利用率,保证用户对层厚学习工作负载的SLA要求。

  层厚学习任务的资源预估模型

  前文中提到根据用户工作负载社会形态在计算资源池中动态选择最佳资源,这就是因为在用户学习任务实际运行曾经,支持框架还要对任务的资源占用做出估计。或者 ,亲戚亲戚我门我门 要利用机器学习法子构建针对层厚学习任务的资源预估模型。

  模型构建法子首先是层厚神经网络层厚社会形态化的社会形态,或者 也能对模型多样化度进行量化描述;其次是层厚学习任务的资源消耗、运行时间与模型多样化度、数据规模、迭代次数等因素处在近似线性的对应关系。

  以卷积神经网络为例,亲戚亲戚我门我门 也能通过对诸如卷积层数目、卷积滤镜数目、全连接层数目、全连接层节点数目、输入图像大小、批数据大小等变量进行连续改变,从而得到一系列具有定制化社会形态的卷积神经网络。或者 在特定类型与数量的计算资源上运行哪些定制化的卷积网络学习任务,并对资源消耗、运行时间等数据进行监控记录。

  这时亲戚亲戚我门我门 就是因为获得了卷积神经网络学习任务关于模型社会形态、资源消耗与时间性能的基准数据集,或者 利用线性回归是因为曲线拟合技术来构建机器学习模型。

  在对层厚学习任务进行资源预估时,输入信息包括用户提交是因为自动生成的层厚学习任务代码、训练数据规模、与学习任务相关的参数同类批数据大小、迭代次数等,以及用户的期望运行时间。

  首先,从代码中提取层厚学习模型社会形态,形成量化社会形态描述;其次,预估模型会按照资源池中可用的计算资源类型与数量进行运行时间估计;之后 ,在满足用户关于运行时间的约束下,模型会选择能耗最小的资源配置方案作为输出。

  层厚学习任务的资源配置推荐

  基于资源预估模型,亲戚亲戚我门我门 构建后端web服务以实现详细的面向层厚学习任务的数据中心资源配置推荐机制。按照资源池中当前可用的资源类型和数量,利用机器学习模型对特定计算资源下的任务执行时间进行估计,同去将数据中心的服务器配置、网络连接与传输速率、延迟等作为经验知识,在满足用户关于运行时间的要求下,遵循能耗最小化原则,为用户提供资源配置的推荐方案。

在异构GPU资源上部署层厚学习任务

  数据中心的CPU-GPU计算资源池中,往往包含具有不同型号GPU的服务器集群,将用户的层厚学习任务部署在由异构GPU组成的服务器集群上,无疑也能更加充分地利用数据中心的当前可用资源。或者 ,是因为统统我简单地遵循通常的分布式层厚学习法子,没人 在模型参数的同步过程中,相同规模的输入数据会是因为性能较差的GPU引起性能更好的GPU的更新传输速率降低。

  或者 ,在异构GPU资源上部署分布式层厚学习任务,亲戚亲戚我门我门 首先要考虑咋样达到不同类型GPU之间的性能同步。简单来说,通过调整分配至不同GPU的批数据大小也能达到各个GPU之间参数更新的近似同步。基于资源预估模型的输出,结合自适应的批数据大小调整法子,亲戚亲戚我门我门 也能放慢找到异构GPU资源的批数据大小分配方案。

  没人 ,当亲戚亲戚我门我门 将输入数据的平均分配法子改为不均匀分配以屏蔽异构GPU之间的计算性能差异时,随之而来的曾经问题统统我:理论上亲戚亲戚我门我门 也改变了各个GPU节点上层厚学习过程的收敛性能。统统有,亲戚亲戚我门我门 也还要相应调整层厚学习模型的超参数,以保证训练任务的收敛性能不被影响。

  学习率通常是层厚模型超参数微调的首要选项,或者 亲戚亲戚我门我门 针对特定的批数据大小,利用启发式法子去寻找对当前层厚学习模型来说最相当于的学习率设置。首先使学习率以指数函数形式进行递增,观察训练阶段的精度曲线,并利用高阶曲线拟合与对数曲线拟合,以启发式法子找出学习率的优化区间或优化中值,以此作为梯度优化算法的学习率设置。

  分布式层厚学习工作负载的自动部署

  在选择了计算资源配置和相应的参数调整方案曾经,支持框架还还要实现层厚学习负载的自动化分布式部署,以形成详细的层厚学习工作流程。同类,亲戚亲戚我门我门 也能使用容器化技术,将数据中心的CPU、GPU资源以容器形式进行管理和提供,使用Horovod开源框架实现层厚学习负载的多节点部署,编写可重用自动化脚本以实现训练数据的多节点预先载入,工作负载的跨节点部署和启动,同去还包括监控分析工具的启动,以及对监控数据、检查点文件和训练结果的自动保存。

  结语

  至此,支持框架帮助用户完成了层厚学习工作负载在数据中心计算资源上的自动化部署和运行,用户就也能将更多的注意力集中在商业逻辑、数据分析与预补救、模型调试等问题上。也统统我说,用户只需关注层厚学习任务你你你你这个 ,支持框架则负责帮助用户实现工作负载在计算资源上的调度与执行。