o <Æ&iqã)@sÆddlZddlmZddlmZmZmZmZmZmZm Z m Z mZmZm Z mZmZddlmZmZmZmZddlmZddgZGd d„deƒZd de›de ›de›de ›de›d e_ d+deedeedeedeedeedeedeedededeedeedeedededededeeefd ed!ed"ef(d#d„Zdeedeedeedeedeedeedeedeededededeeefd ed!ed"edededef$d$d%„Zdeedeedeedeedeedeedeedeededededeeefd ed!ed"edededef$d&d'„Zdeedeedeedeedeedeedeedeededededeeefd ed!ed"edededed(df&d)d*„ZdS),éN)ÚTensoré) Ú OptimizerÚ_use_grad_for_differentiableÚ _get_valueÚ_dispatch_sqrtÚ_stack_if_compilingÚ_capturable_docÚ_differentiable_docÚ_foreach_docÚ _fused_docÚ _maximize_docÚ_default_to_fused_or_foreachÚParamsTÚ _view_as_real)ÚListÚOptionalÚTupleÚUnion)Ú$_get_fused_kernels_supported_devicesÚAdamWÚadamwcsžeZdZ dddddddœded eeefd eeefdeded edede ededede ef‡fdd„Z ‡fdd„Zdd„Ze ddd„ƒZ‡ZS)rçü©ñÒMbP?©gÍÌÌÌÌÌì?g+‡ÙÎ÷ï?ç:Œ0âŽyE>ç{®Gáz„?FN)ÚmaximizeÚforeachÚ capturableÚdifferentiableÚfusedÚparamsÚlrÚbetasÚepsÚweight_decayÚamsgradrrrrr c s6d|kstd|›ƒ‚t|tƒr|r| stdƒ‚d|ks#td|›ƒ‚d|dkr/dks9ntd|d›ƒ‚d|dkrEdksOntd |d›ƒ‚d|ksZtd |›ƒ‚t|||||||| | |d }tƒ ||¡|r—| rwtdƒ‚d |_tƒ‰t ‡fdd„|j Dƒƒs‘tdˆ›dƒ‚|r™tdƒ‚dSdS)NçzInvalid learning rate: úElr as a Tensor is not supported for capturable=False and foreach=TruezInvalid epsilon value: rçð?z#Invalid beta parameter at index 0: rz#Invalid beta parameter at index 1: zInvalid weight_decay value: ) r"r#r$r%r&rrrrr z)`fused` does not support `differentiable`Tc3s4|]}|dD]}|jjˆvot |¡VqqdS)r!N)ÚdeviceÚtypeÚtorchZis_floating_point)Ú.0ZpgÚp©Zfused_supported_devices©ú?s€ýþþz!AdamW.__init__..zX`fused=True` requires all the params to be floating point Tensors of supported devices: Ú.z0`fused` and `foreach` cannot be `True` together.)Ú ValueErrorÚ isinstancerÚdictÚsuperÚ__init__ÚRuntimeErrorZ_step_supports_amp_scalingrÚallÚparam_groups) Úselfr!r"r#r$r%r&rrrrr Údefaults©Ú __class__r/r1r8 sPöý ÿïzAdamW.__init__cs¾tƒ |¡|jD]&}| dd¡| dd¡| dd¡| dd¡| dd¡| dd¡q t|j ¡ƒ}t|ƒdkoEt |dd ¡}|s[|D]}tj t|d ƒtjd |d <qJdSdS)Nr&Frrrrr rÚstep©Údtype) r7Ú__setstate__r;Ú setdefaultÚlistÚstateÚvaluesÚlenr,Z is_tensorÚtensorÚfloatÚfloat32)r<rFÚgroupZstate_valuesZstep_is_tensorÚsr>r0r1rCIs" ÿþzAdamW.__setstate__c Csdd} |dD]©} | jdurq| t | ¡O} | | ¡| jjr"tdƒ‚| | j¡|j| }t|ƒdkro|ds;|drEtjdtj | j dntjd tj d |d<tj| tj d|d <tj| tj d|d<|rotj| tj d|d<| |d ¡| |d¡|drˆ| |d¡|dr•|djr•tdƒ‚|dr¨t|dtƒr¨|ds¨tdƒ‚| |d¡q| S)NFr!z'AdamW does not support sparse gradientsrrr r0)rBr*r'rAr@)Z memory_formatÚexp_avgÚ exp_avg_sqÚmax_exp_avg_sqr&rzB`requires_grad` is not supported for `step` in differentiable moderr"r()Úgradr,Ú is_complexÚappendZ is_sparser9rFrHZzerosrKr*rIZ zeros_likeZpreserve_formatZ requires_gradr5r)r<rLÚparams_with_gradÚgradsr&Úexp_avgsÚexp_avg_sqsÚmax_exp_avg_sqsÚstate_stepsÚhas_complexr.rFr0r0r1Ú_init_groupZsJ ÿÿý ÿ ÿ ÿzAdamW._init_groupcCsú| ¡d}|dur!t ¡|ƒ}Wdƒn1swY|jD]V}g}g}g}g}g}g} |d} |d\}}| |||| |||| ¡} t|||||| f| |||d|d|d|d|d|d |d |dt|ddƒt|d dƒ| dœŽq$|S)z°Perform a single optimization step. Args: closure (Callable, optional): A closure that reevaluates the model and returns the loss. Nr&r#r"r%r$rrrrr Ú grad_scaleÚ found_inf)r&Úbeta1Úbeta2r"r%r$rrrrr r\r]rZ)Z _cuda_graph_capture_health_checkr,Zenable_gradr;r[rÚgetattr)r<ÚclosureZlossrLrTrUrVrWrXrYr&r^r_rZr0r0r1r@—sb ÿ øú ìz AdamW.step)rrrrF©N)Ú__name__Ú __module__Ú__qualname__rrrJrrÚboolrr8rCr[rr@Ú __classcell__r0r0r>r1rsNù óþ ý üûúù ÷ öõô ó<=aImplements AdamW algorithm. .. math:: \begin{aligned} &\rule{110mm}{0.4pt} \\ &\textbf{input} : \gamma \text{(lr)}, \: \beta_1, \beta_2 \text{(betas)}, \: \theta_0 \text{(params)}, \: f(\theta) \text{(objective)}, \: \epsilon \text{ (epsilon)} \\ &\hspace{13mm} \lambda \text{(weight decay)}, \: \textit{amsgrad}, \: \textit{maximize} \\ &\textbf{initialize} : m_0 \leftarrow 0 \text{ (first moment)}, v_0 \leftarrow 0 \text{ ( second moment)}, \: \widehat{v_0}^{max}\leftarrow 0 \\[-1.ex] &\rule{110mm}{0.4pt} \\ &\textbf{for} \: t=1 \: \textbf{to} \: \ldots \: \textbf{do} \\ &\hspace{5mm}\textbf{if} \: \textit{maximize}: \\ &\hspace{10mm}g_t \leftarrow -\nabla_{\theta} f_t (\theta_{t-1}) \\ &\hspace{5mm}\textbf{else} \\ &\hspace{10mm}g_t \leftarrow \nabla_{\theta} f_t (\theta_{t-1}) \\ &\hspace{5mm} \theta_t \leftarrow \theta_{t-1} - \gamma \lambda \theta_{t-1} \\ &\hspace{5mm}m_t \leftarrow \beta_1 m_{t-1} + (1 - \beta_1) g_t \\ &\hspace{5mm}v_t \leftarrow \beta_2 v_{t-1} + (1-\beta_2) g^2_t \\ &\hspace{5mm}\widehat{m_t} \leftarrow m_t/\big(1-\beta_1^t \big) \\ &\hspace{5mm}\widehat{v_t} \leftarrow v_t/\big(1-\beta_2^t \big) \\ &\hspace{5mm}\textbf{if} \: amsgrad \\ &\hspace{10mm}\widehat{v_t}^{max} \leftarrow \mathrm{max}(\widehat{v_t}^{max}, \widehat{v_t}) \\ &\hspace{10mm}\theta_t \leftarrow \theta_t - \gamma \widehat{m_t}/ \big(\sqrt{\widehat{v_t}^{max}} + \epsilon \big) \\ &\hspace{5mm}\textbf{else} \\ &\hspace{10mm}\theta_t \leftarrow \theta_t - \gamma \widehat{m_t}/ \big(\sqrt{\widehat{v_t}} + \epsilon \big) \\ &\rule{110mm}{0.4pt} \\[-1.ex] &\bf{return} \: \theta_t \\[-1.ex] &\rule{110mm}{0.4pt} \\[-1.ex] \end{aligned} For further details regarding the algorithm we refer to `Decoupled Weight Decay Regularization`_. a Args: params (iterable): iterable of parameters to optimize or dicts defining parameter groups lr (float, Tensor, optional): learning rate (default: 1e-3). A tensor LR is not yet supported for all our implementations. Please use a float LR if you are not also specifying fused=True or capturable=True. betas (Tuple[float, float], optional): coefficients used for computing running averages of gradient and its square (default: (0.9, 0.999)) eps (float, optional): term added to the denominator to improve numerical stability (default: 1e-8) weight_decay (float, optional): weight decay coefficient (default: 1e-2) amsgrad (bool, optional): whether to use the AMSGrad variant of this algorithm from the paper `On the Convergence of Adam and Beyond`_ (default: False) z z¿ .. _Decoupled Weight Decay Regularization: https://arxiv.org/abs/1711.05101 .. _On the Convergence of Adam and Beyond: https://openreview.net/forum?id=ryQu7f-RZ Fr!rUrVrWrXrYrrrr r\r]rZr&r^r_r"r%r$rc Csütj ¡stdd„|Dƒƒstdƒ‚| dur.|dur.t||dd\}}|r.t|tƒr.|s.d}| dur4d} |dur:d}|rEtj ¡rEtdƒ‚| rPtj ¡rPtdƒ‚| rZtj ¡sZt }n|rdtj ¡sdt}nt}|||||||| ||||||||| ||d dS) zpFunctional API that performs AdamW algorithm computation. See :class:`~torch.optim.AdamW` for details. css|] }t|tjƒVqdSrb)r5r,r)r-Útr0r0r1r24s€zadamw..zPAPI has changed, `state_steps` argument must contain a list of singleton tensorsNF)Z use_fusedz6torch.jit.script not supported with foreach optimizersz4torch.jit.script not supported with fused optimizers)r&r^r_r"r%r$rrrr\r]rZ) r,Ú_utilsÚis_compilingr:r9rr5rÚjitÚis_scriptingÚ_fused_adamwÚ_multi_tensor_adamwÚ_single_tensor_adamw)r!rUrVrWrXrYrrrr r\r]rZr&r^r_r"r%r$rÚ_Úfuncr0r0r1rsRÿ îc Cs–|dur|dus J‚tj ¡rt|tƒsJ‚t|ƒD]-\}}|s%||n||}||}||}||}tj ¡sM|rM|jrC|jsM|j rI|j sMJdƒ‚t |¡rqt |¡}t |¡}t |¡}|rlt ||¡||<t |¡}|d7}| d||¡| |d| ¡| | ¡j||d| d|s—|rï|}d| |}d| |}||}| ¡}| ¡}|rÛ|r¼|| ¡}n||}|| t ||¡¡|| ¡|| | |¡}n | ¡|| | |¡}| ||¡nEt|ƒ}d| |}d| |}||}t|ƒ}|r"tj|||||d|| ¡| | ¡}n | ¡| | ¡}|j|||d|rHt ||¡rHt ||¡||<qdS)NzGIf capturable=True, params and state_steps must be CUDA or XLA tensors.r)Úvalue)Úout)r,rkrlr5rJÚ enumeraterirjÚis_cudaZis_xlarRZview_as_realZmul_Zlerp_Zaddcmul_ÚnegÚsqrtÚcloneZcopy_ÚmaximumZadd_Zaddcdiv_rrZview_as_complex) r!rUrVrWrXrYr\r]r&r^r_r"r%r$rrrrZÚiÚparamrQrNrOZstep_tr@Úbias_correction1Úbias_correction2Ú step_sizeZ step_size_negÚbias_correction2_sqrtrPÚdenomr0r0r1rois~ ÿÿÿÿþ þ þ€«roc sÀt|ƒdkrdStˆtƒr|stdƒ‚tj ¡s*|r*tdd„t||ƒDƒƒs*Jdƒ‚|r0Jdƒ‚|dur8|dus:J‚t ||||||g¡}| ¡D]\\}}}}}}}|r[t |¡}|ro|rht |||||ƒnt ||||ƒ|djr‚tj|tjddd dd nt |d¡|dkr–t |dˆ|¡t ||dˆ¡t |ˆ¡t |||dˆ¡~|rt ˆ|¡}t ˆ|¡}t |d¡t |d¡t |¡t |ˆ¡t |¡t |¡|}|}|ròt ||¡t |¡}nt |¡}t ||¡t || ¡t ||¡t |||¡qI‡fdd „|Dƒ}‡fdd „|Dƒ}t‡fdd „|Dƒƒ}dd „|Dƒ}|rDt ||¡t |¡}nt |¡}t ||¡t || ¡t ||||¡qIdS)Nrr(css |]\}}|jo|jVqdSrb)ru)r-r.r@r0r0r1r2üs€ ÿz&_multi_tensor_adamw..z@If capturable=True, params and state_steps must be CUDA tensors.z#_foreach ops don't support autogradr)Úcpu)r*)Úalpharcóg|] }dˆt|ƒ‘qS©r©r©r-r@)r^r0r1Ú Róz'_multi_tensor_adamw..crƒr„r…r†)r_r0r1r‡Srˆcsg|]}ˆ|d‘qS)éÿÿÿÿr0©r-Úbc)r"r0r1r‡UscSsg|]}t|ƒ‘qSr0)rrŠr0r0r1r‡Ws)rHr5rr9r,rirjr:ÚziprÚ"_group_tensors_by_device_and_dtyperGZ_foreach_negrZis_cpuÚ _foreach_add_rIZ _foreach_mul_Z_foreach_lerp_Z_foreach_addcmul_Z_foreach_powÚ _foreach_sub_Z _foreach_neg_Z _foreach_div_Z_foreach_reciprocal_Z_foreach_sqrt_Z_foreach_maximum_Z _foreach_sqrtZ_foreach_addcdiv_r)r!rUrVrWrXrYr\r]r&r^r_r"r%r$rrrrZÚgrouped_tensorsÚ device_paramsÚdevice_gradsÚdevice_exp_avgsÚdevice_exp_avg_sqsÚdevice_max_exp_avg_sqsÚdevice_state_stepsrpr|r}r~rZexp_avg_sq_sqrtr0)r^r_r"r1rnßsŒ ÿþÿ ù ¢rnÚreturnc Cs~|sdS|r tdƒ‚|dur|j|ind}|dur|j|ind}t|tƒr1t|jƒdkr1|j|ind}t ||||||g¡}| ¡D]z\\}}\\}}}}}}}d\}}|duri||vre|j|dd||<||}|dur~||vrz|j|dd||<||}|dur“||vr“|j|dd||<||}t |d¡t j||||||||| | || |||d|dur¼t ||gt |ƒ¡qBdS) Nz9Adam with fused=True does not support differentiable=Truer)NNT)Únon_blocking)r*r˜r) r&r"r^r_r%r$rr\r])r9r*r5rÚstrrrÚitemsÚtor,rŽZ _fused_adamw_rrH) r!rUrVrWrXrYr\r]r&r^r_r"r%r$rrrrZZgrad_scale_dictZfound_inf_dictZlr_dictrr*rpr‘r’r“r”r•r–Zdevice_grad_scaleZdevice_found_infr0r0r1rmgsf&ÿûñ€Ûrm)NFFNNNF) r,rZ optimizerrrrrrr r rrr rrrÚtypingrrrrZtorch.utils._foreach_utilsrÚ__all__rÚ__doc__rfrJrrornrmr0r0r0r1Úsn<J&ñðïîíÚKñÿþýüûú ÷ öõô óòñïîí ìëê éRÿþýüûúùø öõô óòñðïî ívÿþýüûúùø öõô óòñðïî í ÿþýüûúùø öõô óòñðïîíì