o <Æ&iuã)@sÆddlmZmZmZmZddlZddlmZddlmZm Z m Z mZmZm Z mZmZmZmZmZmZmZddlmZddgZGd d„deƒZd de›de›de›de›de›d e_ d+deedeedeedeedeedeedeedededeedeedeedededededeeefd ed!ed"ef(d#d„Zdeedeedeedeedeedeedeedeedededededeeefd ed!ed"ededef$d$d%„Zdeedeedeedeedeedeedeedeedededededeeefd ed!ed"ededef$d&d'„Zdeedeedeedeedeedeedeedeedededededeeefd ed!ed"ededed(df&d)d*„ZdS),é)ÚListÚOptionalÚUnionÚTupleN)ÚTensoré) Ú OptimizerÚParamsTÚ_use_grad_for_differentiableÚ _get_valueÚ_stack_if_compilingÚ_dispatch_sqrtÚ_default_to_fused_or_foreachÚ_capturable_docÚ_differentiable_docÚ_foreach_docÚ _fused_docÚ _maximize_docÚ _view_as_real)Ú$_get_fused_kernels_supported_devicesÚAdamÚadamcsžeZdZ dddddddœded eeefd eeefdeded ede edededede ef‡fdd„Z ‡fdd„Zdd„Ze ddd„ƒZ‡ZS)rçü©ñÒMbP?©gÍÌÌÌÌÌì?g+‡ÙÎ÷ï?ç:Œ0âŽyE>rFN)ÚforeachÚmaximizeÚ capturableÚdifferentiableÚfusedÚparamsÚlrÚbetasÚepsÚweight_decayÚamsgradrrrrrc s6d|kstd|›ƒ‚t|tƒr|r| stdƒ‚d|ks#td|›ƒ‚d|dkr/dks9ntd|d›ƒ‚d|dkrEdksOntd |d›ƒ‚d|ksZtd |›ƒ‚t|||||||| | |d }tƒ ||¡|r—| rwtdƒ‚d |_tƒ‰t ‡fdd„|j Dƒƒs‘tdˆ›dƒ‚|r™tdƒ‚dSdS)NçzInvalid learning rate: úElr as a Tensor is not supported for capturable=False and foreach=TruezInvalid epsilon value: rçð?z#Invalid beta parameter at index 0: rz#Invalid beta parameter at index 1: zInvalid weight_decay value: ) r!r"r#r$r%rrrrrz)`fused` does not support `differentiable`Tc3s4|]}|dD]}|jjˆvot |¡VqqdS)r N)ÚdeviceÚtypeÚtorchZis_floating_point)Ú.0ZpgÚp©Zfused_supported_devices©ú;C:\wamp64\www\opt\env\Lib\site-packages\torch/optim/adam.pyÚ 8s€þÿþz Adam.__init__..zX`fused=True` requires all the params to be floating point Tensors of supported devices: Ú.z0`fused` and `foreach` cannot be `True` together.)Ú ValueErrorÚ isinstancerÚdictÚsuperÚ__init__ÚRuntimeErrorZ_step_supports_amp_scalingrÚallÚparam_groups) Úselfr r!r"r#r$r%rrrrrÚdefaults©Ú __class__r.r0r7sB ýþ ÿðz Adam.__init__cs¾tƒ |¡|jD]&}| dd¡| dd¡| dd¡| dd¡| dd¡| dd¡q t|j ¡ƒ}t|ƒdkoEt |dd ¡}|s[|D]}tj t|d ƒtjd |d <qJdSdS)Nr%FrrrrrrÚstep©Údtype) r6Ú__setstate__r:Ú setdefaultÚlistÚstateÚvaluesÚlenr+Ú is_tensorÚtensorÚfloatÚfloat32)r;rEÚgroupZstate_valuesZstep_is_tensorÚsr=r/r0rBAs þzAdam.__setstate__cCsfd}|dD]ª} | jdur°|t | ¡O}| | ¡| jjr!tdƒ‚| | j¡|j| } t| ƒdkrp|ds:|drDtjdtj | j dntjd tj d | d<tj| tj d| d <tj| tj d| d<|drptj| tj d| d<| | d ¡| | d¡|dr‰| | d¡|dr–| djr–tdƒ‚|dr©t |d¡r©|ds©tdƒ‚| | d¡q|S)NFr zJAdam does not support sparse gradients, please consider SparseAdam insteadrrrr/)rAr)r&r@r?)Z memory_formatÚexp_avgÚ exp_avg_sqr%Úmax_exp_avg_sqrzB`requires_grad` is not supported for `step` in differentiable moderr!r')Úgradr+Ú is_complexÚappendZ is_sparser8rErGZzerosrKr)rIZ zeros_likeZpreserve_formatZ requires_gradrH)r;rLÚparams_with_gradÚgradsÚexp_avgsÚexp_avg_sqsÚmax_exp_avg_sqsÚstate_stepsÚhas_complexr-rEr/r/r0Ú_init_groupPs> ÿÿý€zAdam._init_groupc Csô| ¡d}|dur!t ¡|ƒ}Wdƒn1swY|jD]S}g}g}g}g}g}g} |d\} }| ||||||| ¡}t|||||| f|d|| ||d|d|d|d|d|d |d |dt|ddƒt|d dƒdœŽq$|S)z°Perform a single optimization step. Args: closure (Callable, optional): A closure that reevaluates the model and returns the loss. Nr"r%r!r$r#rrrrrÚ grad_scaleÚ found_inf)r%rZÚbeta1Úbeta2r!r$r#rrrrrr\r])Z _cuda_graph_capture_health_checkr+Zenable_gradr:r[rÚgetattr) r;ÚclosureZlossrLrTrUrVrWrXrYr^r_rZr/r/r0r?…s^ ÿ ù ú ìz Adam.step)rrrrF©N)Ú__name__Ú __module__Ú__qualname__r rrJrrÚboolrr7rBr[r r?Ú __classcell__r/r/r=r0rsNúôÿ þ ýüûúø ÷ öõô25aImplements Adam algorithm. .. math:: \begin{aligned} &\rule{110mm}{0.4pt} \\ &\textbf{input} : \gamma \text{ (lr)}, \beta_1, \beta_2 \text{ (betas)},\theta_0 \text{ (params)},f(\theta) \text{ (objective)} \\ &\hspace{13mm} \lambda \text{ (weight decay)}, \: \textit{amsgrad}, \:\textit{maximize} \\ &\textbf{initialize} : m_0 \leftarrow 0 \text{ ( first moment)}, v_0\leftarrow 0 \text{ (second moment)},\: \widehat{v_0}^{max}\leftarrow 0\\[-1.ex] &\rule{110mm}{0.4pt} \\ &\textbf{for} \: t=1 \: \textbf{to} \: \ldots \: \textbf{do} \\ &\hspace{5mm}\textbf{if} \: \textit{maximize}: \\ &\hspace{10mm}g_t \leftarrow -\nabla_{\theta} f_t (\theta_{t-1}) \\ &\hspace{5mm}\textbf{else} \\ &\hspace{10mm}g_t \leftarrow \nabla_{\theta} f_t (\theta_{t-1}) \\ &\hspace{5mm}\textbf{if} \: \lambda \neq 0 \\ &\hspace{10mm} g_t \leftarrow g_t + \lambda \theta_{t-1} \\ &\hspace{5mm}m_t \leftarrow \beta_1 m_{t-1} + (1 - \beta_1) g_t \\ &\hspace{5mm}v_t \leftarrow \beta_2 v_{t-1} + (1-\beta_2) g^2_t \\ &\hspace{5mm}\widehat{m_t} \leftarrow m_t/\big(1-\beta_1^t \big) \\ &\hspace{5mm}\widehat{v_t} \leftarrow v_t/\big(1-\beta_2^t \big) \\ &\hspace{5mm}\textbf{if} \: amsgrad \\ &\hspace{10mm}\widehat{v_t}^{max} \leftarrow \mathrm{max}(\widehat{v_t}^{max}, \widehat{v_t}) \\ &\hspace{10mm}\theta_t \leftarrow \theta_{t-1} - \gamma \widehat{m_t}/ \big(\sqrt{\widehat{v_t}^{max}} + \epsilon \big) \\ &\hspace{5mm}\textbf{else} \\ &\hspace{10mm}\theta_t \leftarrow \theta_{t-1} - \gamma \widehat{m_t}/ \big(\sqrt{\widehat{v_t}} + \epsilon \big) \\ &\rule{110mm}{0.4pt} \\[-1.ex] &\bf{return} \: \theta_t \\[-1.ex] &\rule{110mm}{0.4pt} \\[-1.ex] \end{aligned} For further details regarding the algorithm we refer to `Adam: A Method for Stochastic Optimization`_. a Args: params (iterable): iterable of parameters to optimize or dicts defining parameter groups lr (float, Tensor, optional): learning rate (default: 1e-3). A tensor LR is not yet supported for all our implementations. Please use a float LR if you are not also specifying fused=True or capturable=True. betas (Tuple[float, float], optional): coefficients used for computing running averages of gradient and its square (default: (0.9, 0.999)) eps (float, optional): term added to the denominator to improve numerical stability (default: 1e-8) weight_decay (float, optional): weight decay (L2 penalty) (default: 0) amsgrad (bool, optional): whether to use the AMSGrad variant of this algorithm from the paper `On the Convergence of Adam and Beyond`_ (default: False) z zÄ .. _Adam\: A Method for Stochastic Optimization: https://arxiv.org/abs/1412.6980 .. _On the Convergence of Adam and Beyond: https://openreview.net/forum?id=ryQu7f-RZ Fr rUrVrWrXrYrrrrr\r]rZr%r^r_r!r$r#rc Csü| dur|durt||dd\}}|rt|tƒr|sd}| dur"d} |dur(d}tj ¡s:tdd„|Dƒƒs:tdƒ‚|rEtj ¡rEtdƒ‚| rPtj ¡rPtdƒ‚| rZtj ¡sZt }n|rdtj ¡sdt}nt}|||||||| |||||||||| |d dS) znFunctional API that performs Adam algorithm computation. See :class:`~torch.optim.Adam` for details. NF)Z use_fusedcss|] }t|tjƒVqdSrb)r4r+r)r,Útr/r/r0r1-s€zadam..zPAPI has changed, `state_steps` argument must contain a list of singleton tensorsz6torch.jit.script not supported with foreach optimizersz4torch.jit.script not supported with fused optimizers)r%rZr^r_r!r$r#rrrr\r]) rr4rr+Ú_utilsÚis_compilingr9r8ÚjitÚis_scriptingÚ_fused_adamÚ_multi_tensor_adamÚ_single_tensor_adam)r rUrVrWrXrYrrrrr\r]rZr%r^r_r!r$r#rÚ_Úfuncr/r/r0rsL ïc Csž|dur|dus J‚tj ¡rt|tƒsJ‚t|ƒD]1\}}|s%||n||}||}||}||}tj ¡sM|rM|jrC|jsM|j rI|j sMJdƒ‚|d7}| dkr\|j || d}t |¡r€t |¡}t |¡}t |¡}|r{t ||¡||<t |¡}| |d| ¡| |¡j|| ¡d|d|s›|ró|}d| |}d||}||}| ¡}| ¡}|rß|rÀ|| ¡}n||}|| t ||¡¡|| ¡|| ||¡}n | ¡|| ||¡}| ||¡nEt|ƒ}d| |}d||}||}t|ƒ}|r&tj|||||d|| ¡| |¡}n | ¡| |¡}|j|||d|rLt ||¡rLt ||¡||<qdS)NzGIf capturable=True, params and state_steps must be CUDA or XLA tensors.rr©Úalpha)Úvalue)Úout)r+rkrlr4rJÚ enumeraterirjÚis_cudaZis_xlaÚaddrRZview_as_realZlerp_Zmul_Zaddcmul_ZconjÚnegÚsqrtÚcloneZcopy_ÚmaximumZadd_Zaddcdiv_rr Zview_as_complex) r rUrVrWrXrYr\r]r%rZr^r_r!r$r#rrrÚiÚparamrQrNrOZstep_tr?Úbias_correction1Úbias_correction2Ú step_sizeZ step_size_negÚbias_correction2_sqrtrPÚdenomr/r/r0roPsx ÿÿÿÿþ €¯roc sÒt|ƒdkrdStˆtƒr|stdƒ‚tj ¡s*|r*tdd„t||ƒDƒƒs*Jdƒ‚|dur2|dus4J‚|r:Jdƒ‚t ||||||g¡}| ¡D]\\}}}}}}}|r[t |¡}| ro|rht |||||ƒnt ||||ƒ|djr‚tj|tjddd dd nt |d¡| dkrŸ|r—tj||| d ntj||| d }t ||dˆ¡t |ˆ¡t |||dˆ¡~|rt ˆ|¡}t ˆ|¡}t |d¡t |d¡t |¡t |ˆ¡t |¡t |¡|}|}|rût ||¡t |¡}nt |¡}t ||¡t ||¡t ||¡t |||¡qI‡fdd „|Dƒ}‡fdd „|Dƒ}t‡fdd „|Dƒƒ}dd „|Dƒ}|rMt ||¡t |¡}nt |¡}t ||¡t ||¡t ||||¡qIdS)Nrr'css |]\}}|jo|jVqdSrb)rw)r,r-r?r/r/r0r1Ûs€z%_multi_tensor_adam..z@If capturable=True, params and state_steps must be CUDA tensors.z#_foreach ops don't support autogradr(Úcpu)r)rrrcóg|] }dˆt|ƒ‘qS©r©r©r,r?)r^r/r0Ú 5óz&_multi_tensor_adam..cr…r†r‡rˆ)r_r/r0r‰6rŠcsg|]}ˆ|d‘qS)éÿÿÿÿr/©r,Úbc)r!r/r0r‰8scSsg|]}t|ƒ‘qSr/)r rŒr/r/r0r‰:s)rGr4rr8r+rirjr9ÚziprÚ"_group_tensors_by_device_and_dtyperFZ_foreach_negrZis_cpuÚ _foreach_add_rIZ_foreach_addZ_foreach_lerp_Z _foreach_mul_Z_foreach_addcmul_Z_foreach_powÚ _foreach_sub_Z _foreach_neg_Z _foreach_div_Z_foreach_reciprocal_Z_foreach_sqrt_Z_foreach_maximum_Z _foreach_sqrtZ_foreach_addcdiv_r)r rUrVrWrXrYr\r]r%rZr^r_r!r$r#rrrÚgrouped_tensorsÚ device_paramsÚdevice_gradsÚdevice_exp_avgsÚdevice_exp_avg_sqsÚdevice_max_exp_avg_sqsÚdevice_state_stepsrprr€rr‚Zexp_avg_sq_sqrtr/)r^r_r!r0rnÀsŒÿÿ ù rnÚreturnc Cs~|sdS|r tdƒ‚|dur|j|ind}|dur|j|ind}t|tƒr1t|jƒdkr1|j|ind}t ||||||g¡}| ¡D]z\\}}\\}}}}}}}d\}}|duri||vre|j|dd||<||}|dur~||vrz|j|dd||<||}|dur“||vr“|j|dd||<||}t |d¡t j||||||||| || ||||d|dur¼t ||gt |ƒ¡qBdS) Nz9Adam with fused=True does not support differentiable=Truer„)NNT)Únon_blocking)r)ršr) r%r!r^r_r$r#rr\r])r8r)r4rÚstrrrÚitemsÚtor+rZ_fused_adam_r‘rG) r rUrVrWrXrYr\r]r%rZr^r_r!r$r#rrrZgrad_scale_dictZfound_inf_dictZlr_dictr’r)rpr“r”r•r–r—r˜Zdevice_grad_scaleZdevice_found_infr/r/r0rmJsf&ÿûñ€Ûrm)NFFNNNF) Útypingrrrrr+rZ optimizerrr r rrr rrrrrrrZtorch.utils._foreach_utilsrÚ__all__rÚ__doc__rfrJrrornrmr/r/r/r0Úsb<3&ñðïîíÚJòÿþýüûø ÷ öõô óòðïî íìë ê Nÿþýüûúù ÷ öõô óòñðï î pÿþýüûúù ÷ öõô óòñðï îÿþýüûúùø öõô ó òñðïîíì