o
    <Æ&i[Y  ã                #   @   sÈ  d dl Z d dl mZ ddlmZmZmZmZmZmZm	Z	m
Z
mZmZ d dlmZmZ ddgZG dd„ deƒZd	d
e
› de› de	› d e_					d$dee dee dee dee dee dee dedee dededededededededef"dd„Zdee dee dee dee dee dee dedededededededededef d d!„Zdee dee dee dee dee dee dedededededededededef d"d#„ZdS )%é    N)ÚTensoré   )
Ú	OptimizerÚ_use_grad_for_differentiableÚ
_get_valueÚ_dispatch_sqrtÚ_stack_if_compilingÚ_capturable_docÚ_differentiable_docÚ_foreach_docÚ_default_to_fused_or_foreachÚ_view_as_real)ÚListÚOptionalÚNAdamÚnadamc                
       sd   e Zd Z		dddddœd	ed
ee dedef‡ fdd„Z‡ fdd„Zdd„ Zeddd„ƒZ	‡  Z
S )r   çü©ñÒMb`?©gÍÌÌÌÌÌì?g+‡ÙÎ÷ï?ç:Œ0âŽyE>r   çü©ñÒMbp?FN)ÚforeachÚ
capturableÚdifferentiableÚdecoupled_weight_decayr   r   r   c                   sÜ   d|kst d|› ƒ‚d|kst d|› ƒ‚d|d   kr"dk s,n t d|d › ƒ‚d|d   kr8dk sBn t d|d › ƒ‚d|ksMt d	|› ƒ‚d|ksXt d
|› ƒ‚t||||||||	|
d	}tƒ  ||¡ d S )Nç        zInvalid learning rate: zInvalid epsilon value: r   ç      ð?z#Invalid beta parameter at index 0: r   z#Invalid beta parameter at index 1: zInvalid weight_decay value: zInvalid momentum_decay value: )	ÚlrÚbetasÚepsÚweight_decayÚmomentum_decayr   r   r   r   )Ú
ValueErrorÚdictÚsuperÚ__init__)ÚselfÚparamsr   r   r   r   r    r   r   r   r   Údefaults©Ú	__class__© ú<C:\wamp64\www\opt\env\Lib\site-packages\torch/optim/nadam.pyr$   
   s$   ýzNAdam.__init__c                    sê   t ƒ  |¡ | jD ]}| dd ¡ | dd¡ | dd¡ | dd¡ q	t| j ¡ ƒ}t|ƒdko9t 	|d d ¡}|sO|D ]}tj
t|d ƒtjd|d< q>t|ƒdko]t 	|d d	 ¡}|sq|D ]}tj
|d	 tjd|d	< qbd S d S )
Nr   r   Fr   r   r   Ústep©ÚdtypeÚ
mu_product)r#   Ú__setstate__Úparam_groupsÚ
setdefaultÚlistÚstateÚvaluesÚlenÚtorchZ	is_tensorÚtensorÚfloatÚfloat32)r%   r4   ÚgroupZstate_valuesZstep_is_tensorÚsZmu_product_is_tensorr(   r*   r+   r0       s"   
þzNAdam.__setstate__c                 C   s*  d}|d D ]Œ}	|	j d ur’|t |	¡O }| |	¡ |	j jr!tdƒ‚| |	j ¡ | j|	 }
t|
ƒdkrv|d r@tjdtj	|	j
dntjdtj	d	|
d
< |d rXtjdtj	|	j
dntjdtj	d	|
d< tj|	tjd|
d< tj|	tjd|
d< | |
d ¡ | |
d ¡ | |
d ¡ | |
d
 ¡ q|S )NFr&   z'NAdam does not support sparse gradientsr   r   r*   )r.   Údevicer   r-   r,   r   r/   )Zmemory_formatÚexp_avgÚ
exp_avg_sq)Úgradr7   Ú
is_complexÚappendZ	is_sparseÚRuntimeErrorr4   r6   Zzerosr:   r=   r8   ZonesZ
zeros_likeZpreserve_format)r%   r;   Úparams_with_gradÚgradsÚexp_avgsÚexp_avg_sqsÚmu_productsÚstate_stepsÚhas_complexÚpr4   r*   r*   r+   Ú_init_group1   s4   


ÿþÿþ€zNAdam._init_groupc                 C   sÖ   |   ¡  d}|dur!t ¡  |ƒ }W d  ƒ n1 sw   Y  | jD ]D}g }g }g }g }g }g }	|d \}
}|  |||||||	¡}t||||||	|
||d |d |d |d |d |d |d	 |d
 |d q$|S )z±Performs a single optimization step.

        Args:
            closure (Callable, optional): A closure that reevaluates the model
                and returns the loss.
        Nr   r   r   r    r   r   r   r   r   )Úbeta1Úbeta2r   r   r    r   r   r   r   r   rJ   )Z _cuda_graph_capture_health_checkr7   Zenable_gradr1   rL   r   )r%   ÚclosureZlossr;   rD   rE   rF   rG   rH   rI   rM   rN   rJ   r*   r*   r+   r,   T   sD   
ÿ
ðz
NAdam.step)r   r   r   r   r   F©N)Ú__name__Ú
__module__Ú__qualname__Úboolr   r$   r0   rL   r   r,   Ú__classcell__r*   r*   r(   r+   r   	   s&    ÿýÿþþý#a  Implements NAdam algorithm.

    .. math::
       \begin{aligned}
            &\rule{110mm}{0.4pt}                                                                 \\
            &\textbf{input}      : \gamma_t \text{ (lr)}, \: \beta_1,\beta_2 \text{ (betas)},
                \: \theta_0 \text{ (params)}, \: f(\theta) \text{ (objective)}                   \\
            &\hspace{13mm} \: \lambda \text{ (weight decay)}, \:\psi \text{ (momentum decay)}    \\
            &\hspace{13mm} \: \textit{decoupled\_weight\_decay}                                  \\
            &\textbf{initialize} :  m_0 \leftarrow 0 \text{ ( first moment)},
                v_0 \leftarrow 0 \text{ ( second moment)}                                 \\[-1.ex]
            &\rule{110mm}{0.4pt}                                                                 \\
            &\textbf{for} \: t=1 \: \textbf{to} \: \ldots \: \textbf{do}                         \\
            &\hspace{5mm}g_t           \leftarrow   \nabla_{\theta} f_t (\theta_{t-1})           \\
            &\hspace{5mm} \theta_t \leftarrow \theta_{t-1}                                       \\
            &\hspace{5mm} \textbf{if} \: \lambda \neq 0                                          \\
            &\hspace{10mm}\textbf{if} \: \textit{decoupled\_weight\_decay}                       \\
            &\hspace{15mm} \theta_t \leftarrow \theta_{t-1} - \gamma \lambda \theta_{t-1}                    \\
            &\hspace{10mm}\textbf{else}                                                          \\
            &\hspace{15mm} g_t \leftarrow g_t + \lambda \theta_{t-1}                             \\
            &\hspace{5mm} \mu_t \leftarrow \beta_1 \big(1 - \frac{1}{2}  0.96^{t \psi} \big)     \\
            &\hspace{5mm} \mu_{t+1} \leftarrow \beta_1 \big(1 - \frac{1}{2} 0.96^{(t+1)\psi}\big)\\
            &\hspace{5mm}m_t           \leftarrow   \beta_1 m_{t-1} + (1 - \beta_1) g_t          \\
            &\hspace{5mm}v_t           \leftarrow   \beta_2 v_{t-1} + (1-\beta_2) g^2_t          \\
            &\hspace{5mm}\widehat{m_t} \leftarrow \mu_{t+1} m_t/(1-\prod_{i=1}^{t+1}\mu_i)\\[-1.ex]
            & \hspace{11mm} + (1-\mu_t) g_t /(1-\prod_{i=1}^{t} \mu_{i})                         \\
            &\hspace{5mm}\widehat{v_t} \leftarrow   v_t/\big(1-\beta_2^t \big)                   \\
            &\hspace{5mm}\theta_t \leftarrow \theta_t - \gamma \widehat{m_t}/
                \big(\sqrt{\widehat{v_t}} + \epsilon \big)                                       \\
            &\rule{110mm}{0.4pt}                                                          \\[-1.ex]
            &\bf{return} \:  \theta_t                                                     \\[-1.ex]
            &\rule{110mm}{0.4pt}                                                          \\[-1.ex]
       \end{aligned}

    For further details regarding the algorithm we refer to `Incorporating Nesterov Momentum into Adam`_.
    a  
    Args:
        params (iterable): iterable of parameters to optimize or dicts defining
            parameter groups
        lr (float, optional): learning rate (default: 2e-3)
        betas (Tuple[float, float], optional): coefficients used for computing
            running averages of gradient and its square (default: (0.9, 0.999))
        eps (float, optional): term added to the denominator to improve
            numerical stability (default: 1e-8)
        weight_decay (float, optional): weight decay (L2 penalty) (default: 0)
        momentum_decay (float, optional): momentum momentum_decay (default: 4e-3)
        decoupled_weight_decay (bool, optional): whether to use decoupled weight
            decay as in AdamW to obtain NAdamW (default: False)
        z	
        zÏ

    .. _Incorporating Nesterov Momentum into Adam:
        https://openreview.net/forum?id=OM0jvwB8jIp57ZJjtNEZ
    .. _Decoupled Weight Decay Regularization:
        https://arxiv.org/abs/1711.05101

    Fr&   rE   rF   rG   rH   rI   r   r   r   r   rJ   rM   rN   r   r   r    r   c                C   s¨   t dd„ |D ƒƒstdƒ‚t dd„ |D ƒƒstdƒ‚|du r't| |	dd\}}|r2tj ¡ r2td	ƒ‚|r<tj ¡ s<t}nt}|| ||||||||||||||	|
d
 dS )zpFunctional API that performs NAdam algorithm computation.

    See :class:`~torch.optim.NAdam` for details.
    c                 s   ó    | ]	}t |tjƒV  qd S rP   ©Ú
isinstancer7   r   ©Ú.0Útr*   r*   r+   Ú	<genexpr>Ø   ó   € znadam.<locals>.<genexpr>zPAPI has changed, `state_steps` argument must contain a list of singleton tensorsc                 s   rV   rP   rW   rY   r*   r*   r+   r\   Û   r]   zPAPI has changed, `mu_products` argument must contain a list of singleton tensorsNF)Z	use_fusedz6torch.jit.script not supported with foreach optimizers)
rM   rN   r   r   r    r   r   r   r   rJ   )ÚallrC   r   r7   ZjitZis_scriptingÚ_multi_tensor_nadamÚ_single_tensor_nadam)r&   rE   rF   rG   rH   rI   r   r   r   r   rJ   rM   rN   r   r   r    r   Ú_Úfuncr*   r*   r+   r   ¾   s8   
ñc       
         C   s2  t | ƒD ]\}}|| }|| }|| }|| }|| }t |¡r6t |¡}t |¡}t |¡}t |¡}tj ¡ sS|rS|jrF|jrF|jsS|jrO|jrO|jsSJ dƒ‚|d7 }|r\|}nt|ƒ}d||  }|	dkr}|rv| 	d||	  ¡ n|j
||	d}|ddd||
     }|ddd|d |
     }||9 }| |d| ¡ | 	|¡j||d| d | |¡ ¡ }|s»|ré| 
|¡}|| }|| d|  d|   }|| | d|   }| ||¡ | ||¡ qt|ƒ| }| |¡ |j||| d|  dt|ƒ  d |j||| | d|  d qd S )	NzUIf capturable=True, params, mu_products, and state_steps must be CUDA or XLA tensors.r   r   ©Úalphar   ç      à?ç¸…ëQ¸î?)Úvalue)Ú	enumerater7   rA   Zview_as_realÚ_utilsÚis_compilingÚis_cudaZis_xlar   Zmul_ÚaddZlerp_Zaddcmul_ÚdivÚsqrtZaddcdiv_Zadd_)r&   rE   rF   rG   rH   rI   rM   rN   r   r   r    r   r   r   r   rJ   ÚiÚparamr@   r>   r?   r/   Zstep_tr,   Zbias_correction2ÚmuÚmu_nextÚdenomZmu_product_nextr*   r*   r+   r`   û   sj   


ÿÿÿÿÿÿþ

& Âr`   c       
   !         sB  t | ƒdkrd S |rJ dƒ‚tj ¡ s&|r&tdd„ t| ||ƒD ƒƒs&J dƒ‚t | |||||g¡}| ¡ D ]h\\}}}}}}}|rIt	||||ƒ |d j
r\tj|tjddddd	 nt |d
¡ |	dkr{|rst |d
ˆ|	  ¡ ntj|||	d	}t ||d
ˆ  ¡ t |ˆ¡ t |||d
ˆ ¡ t |¡}|rït |ˆ¡}t d|¡}t |d¡ t |d¡ t |ˆ ¡ t |ˆ¡ t d|¡}t |d¡ t |d¡ t |ˆ ¡ ~t ˆ|¡}t |d¡ t |¡ t |¡ n‡fdd„|D ƒ}‡ ‡fdd„|D ƒ}‡ ‡fdd„|D ƒ}t ||¡ t ||¡ t ||¡ ~|rrt |d¡ t |ˆ¡ t |d¡}t |¡ t ||¡ |}~t ||¡}t |ˆ¡ t |d¡ t ||¡ |}~t ||¡} t | ||¡ t || |¡ q5t‡fdd„t||ƒD ƒƒ}t‡fdd„t||ƒD ƒƒ}t ||||¡ t ||||¡ q5d S )Nr   z#_foreach ops don't support autogradc                 s   s(    | ]\}}}|j o|j o|j V  qd S rP   )rk   )rZ   rK   Úmpr,   r*   r*   r+   r\   g  s   € ÿz&_multi_tensor_nadam.<locals>.<genexpr>zNIf capturable=True, params, mu_products, and state_steps must be CUDA tensors.r   Úcpu)r=   rc   r   rf   g      à¿c                    s    g | ]}t d ˆ t|ƒ  ƒ‘qS )r   )r   r   ©rZ   r,   )rN   r*   r+   Ú
<listcomp>¤  s     z'_multi_tensor_nadam.<locals>.<listcomp>c                    s(   g | ]}ˆ d ddt |ƒˆ     ‘qS )r   re   rf   ©r   rv   ©rM   r    r*   r+   rw   ¥  s   ( c                    s,   g | ]}ˆ d ddt |ƒd ˆ     ‘qS )r   re   rf   r   rx   rv   ry   r*   r+   rw   ¦  s    $ÿc                    s,   g | ]\}}ˆ d |  d t |ƒ  d ‘qS ©r   éÿÿÿÿrx   )rZ   r/   rq   ©r   r*   r+   rw   Ó  ó     ÿc                    s,   g | ]\}}ˆ | d t |ƒ|   d ‘qS rz   rx   )rZ   r/   rr   r|   r*   r+   rw   Õ  r}   )r6   r7   ri   rj   r^   Úzipr   Z"_group_tensors_by_device_and_dtyper5   r   Zis_cpuZ_foreach_add_r8   Z_foreach_mul_Z_foreach_addZ_foreach_lerp_Z_foreach_addcmul_Z_foreach_sqrtZ_foreach_mulZ_foreach_powZ_foreach_sub_Z_foreach_neg_Z_foreach_sqrt_Z_foreach_div_Z_foreach_subZ_foreach_addcdiv_r   )!r&   rE   rF   rG   rH   rI   rM   rN   r   r   r    r   r   r   r   rJ   Zgrouped_tensorsZgrouped_paramsZgrouped_gradsZgrouped_exp_avgsZgrouped_exp_avg_sqsZgrouped_mu_productsZgrouped_state_stepsra   Zexp_avg_sq_sqrtÚexponentZmusZmu_nextsZbias_correction_sqrtrs   Zstep_size_gradsZstep_size_expavgÚ	numeratorr*   )rM   rN   r   r    r+   r_   N  sš   

ÿþÿ


ÿ
ÿÿ”r_   )FNFFF)r7   r   Z	optimizerr   r   r   r   r   r	   r
   r   r   r   Útypingr   r   Ú__all__r   Ú__doc__rT   r9   r   r`   r_   r*   r*   r*   r+   Ú<module>   sæ    0y#óòñÝDôÿþýüûø	÷
öõôòñðïî
í
=ÿþýüûùø	÷
öõôóòñ
ð
Sÿþýüûùø	÷
öõôóòñð