Ë
    Õ†i¡<  ã                   ó  — d dl mZ d dlmZmZmZ d dlZd dlmc m	Z
 d dlmZ ddlmZmZ ddlmZ ddlmZ dd	lmZ dd
lmZ ddlmZ ddlmZmZmZmZ ddlmZ ddlm Z  ddl!m"Z"m#Z#m$Z$m%Z% e G d„ de«      «       Z& G d„ deee"e«      Z'y)é    )Ú	dataclass)ÚOptionalÚTupleÚUnionN)Únné   )ÚConfigMixinÚregister_to_config)ÚConsistencyDecoderScheduler)Ú
BaseOutput)Úapply_forward_hook)Úrandn_tensoré   )ÚAttentionMixin)ÚADDED_KV_ATTENTION_PROCESSORSÚCROSS_ATTENTION_PROCESSORSÚAttnAddedKVProcessorÚAttnProcessor)Ú
ModelMixin)ÚUNet2DModelé   )ÚAutoencoderMixinÚDecoderOutputÚDiagonalGaussianDistributionÚEncoderc                   ó   — e Zd ZU dZded<   y)ÚConsistencyDecoderVAEOutputa2  
    Output of encoding method.

    Args:
        latent_dist (`DiagonalGaussianDistribution`):
            Encoded outputs of `Encoder` represented as the mean and logvar of `DiagonalGaussianDistribution`.
            `DiagonalGaussianDistribution` allows for sampling latents from the distribution.
    r   Úlatent_distN)Ú__name__Ú
__module__Ú__qualname__Ú__doc__Ú__annotations__© ó    ú/home/obispo/Crisostomo_bridge/mision_env/lib/python3.12/site-packages/diffusers/models/autoencoders/consistency_decoder_vae.pyr   r   &   s   … ñð 0Ô/r%   r   c            4       ó  ‡ — e Zd ZdZdZe	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 	 d/dedededede	edf   d	e
d
e	edf   dedededede
de	edf   de	edf   dededededededededede	edf   f0ˆ fd„«       Zd„ Ze	 d0dej                  de
d eee	e   f   fd!„«       Ze	 	 	 d1d"ej                  d#eej*                     de
d$ed eee	ej                     f   f
d%„«       Zd&ej                  d'ej                  d(ed ej                  fd)„Zd&ej                  d'ej                  d(ed ej                  fd*„Zd0dej                  de
d eee	f   fd+„Z	 	 	 d2d,ej                  d-e
de
d#eej*                     d eee	ej                     f   f
d.„Zˆ xZS )3ÚConsistencyDecoderVAEaP  
    The consistency decoder used with DALL-E 3.

    Examples:
        ```py
        >>> import torch
        >>> from diffusers import StableDiffusionPipeline, ConsistencyDecoderVAE

        >>> vae = ConsistencyDecoderVAE.from_pretrained("openai/consistency-decoder", torch_dtype=torch.float16)
        >>> pipe = StableDiffusionPipeline.from_pretrained(
        ...     "stable-diffusion-v1-5/stable-diffusion-v1-5", vae=vae, torch_dtype=torch.float16
        ... ).to("cuda")

        >>> image = pipe("horse", generator=torch.manual_seed(0)).images[0]
        >>> image
        ```
    FÚscaling_factorÚlatent_channelsÚsample_sizeÚencoder_act_fnÚencoder_block_out_channels.Úencoder_double_zÚencoder_down_block_typesÚencoder_in_channelsÚencoder_layers_per_blockÚencoder_norm_num_groupsÚencoder_out_channelsÚdecoder_add_attentionÚdecoder_block_out_channelsÚdecoder_down_block_typesÚdecoder_downsample_paddingÚdecoder_in_channelsÚdecoder_layers_per_blockÚdecoder_norm_epsÚdecoder_norm_num_groupsÚdecoder_num_train_timestepsÚdecoder_out_channelsÚdecoder_resnet_time_scale_shiftÚdecoder_time_embedding_typeÚdecoder_up_block_typesc                 ó|  •— t         ‰|   «        t        ||||||	|
|¬«      | _        t	        |||||||||||||¬«      | _        t        «       | _        | j                  |¬«       | j                  d¬«       | j                  dt        j                  g d¢«      d d d …d d f   d¬«       | j                  d	t        j                  g d
¢«      d d d …d d f   d¬«       t        j                  d|z  d|z  d«      | _        d| _        d| _        | j"                  j$                  | _        t)        | j"                  j$                  t*        t,        f«      r| j"                  j$                  d   n| j"                  j$                  }t/        |dt1        | j"                  j2                  «      dz
  z  z  «      | _        d| _        y )N)Úact_fnÚblock_out_channelsÚdouble_zÚdown_block_typesÚin_channelsÚlayers_per_blockÚnorm_num_groupsÚout_channels)Úadd_attentionrC   rE   Údownsample_paddingrF   rG   Únorm_epsrH   Únum_train_timestepsrI   Úresnet_time_scale_shiftÚtime_embedding_typeÚup_block_types)rC   F)Úforce_upcastÚmeans)gg:ßØ?g¡yüD—?g‹œl Lå²?gN3“^Š‘¿)Ú
persistentÚstds)g°4•ê§äî?g€n=´ð?grÉÀ	^è?g±r` ¥¥è?r   r   r   g      Ð?)ÚsuperÚ__init__r   Úencoderr   Údecoder_unetr   Údecoder_schedulerr
   Úregister_bufferÚtorchÚtensorr   ÚConv2dÚ
quant_convÚuse_slicingÚ
use_tilingÚconfigr+   Útile_sample_min_sizeÚ
isinstanceÚlistÚtupleÚintÚlenrC   Útile_latent_min_sizeÚtile_overlap_factor)Úselfr)   r*   r+   r,   r-   r.   r/   r0   r1   r2   r3   r4   r5   r6   r7   r8   r9   r:   r;   r<   r=   r>   r?   r@   Ú	__class__s                            €r&   rV   zConsistencyDecoderVAE.__init__I   sÄ  ø€ ôV 	‰ÑÔÜØ!Ø9Ø%Ø5Ø+Ø5Ø3Ø-ô	
ˆŒô (Ø/Ø9Ø5Ø9Ø+Ø5Ø%Ø3Ø ;Ø-Ø$CØ ;Ø1ô
ˆÔô "=Ó!>ˆÔØ×ÑÐ3MÐÔNØ×Ñ¨UÐÔ3Ø×ÑØÜL‰LÒIÓJÈ4ÒQRÐTXÐZ^ÐK^Ñ_Øð 	ô 	
ð
 	×ÑØ”E—L‘LÒ!OÓPÐQUÒWXÐZ^Ð`dÐQdÑeÐrwð 	ô 	
ô Ÿ)™) A¨Ñ$7¸¸_Ñ9LÈaÓPˆŒà ˆÔØˆŒð %)§K¡K×$;Ñ$;ˆÔ!ô ˜$Ÿ+™+×1Ñ1´D¼%°=ÔAð K‰K×#Ñ# AÒ&à—‘×(Ñ(ð 	ô
 %(¨°q¼SÀÇÁ×A_ÑA_Ó=`ÐcdÑ=dÑ7eÑ(fÓ$gˆÔ!Ø#'ˆÕ r%   c           	      ój  — t        d„ | j                  j                  «       D «       «      rt        «       }nmt        d„ | j                  j                  «       D «       «      rt	        «       }n8t        dt        t        | j                  j                  «       «      «      › «      ‚| j                  |«       y)ze
        Disables custom attention processors and sets the default attention implementation.
        c              3   ó@   K  — | ]  }|j                   t        v –— Œ y ­w©N)rk   r   ©Ú.0Úprocs     r&   ú	<genexpr>zCConsistencyDecoderVAE.set_default_attn_processor.<locals>.<genexpr>¯   s   è ø€ ÒiÀ4ˆt~‰~Ô!>Ô>Ñiùó   ‚c              3   ó@   K  — | ]  }|j                   t        v –— Œ y ­wrn   )rk   r   ro   s     r&   rr   zCConsistencyDecoderVAE.set_default_attn_processor.<locals>.<genexpr>±   s   è ø€ ÒhÀ$—‘Ô#=Ô=Ñhùrs   zOCannot call `set_default_attn_processor` when attention processors are of type N)	ÚallÚattn_processorsÚvaluesr   r   Ú
ValueErrorÚnextÚiterÚset_attn_processor)rj   Ú	processors     r&   Úset_default_attn_processorz0ConsistencyDecoderVAE.set_default_attn_processor«   s´   € ô ÑiÈ4×K_ÑK_×KfÑKfÓKhÔiÔiÜ,Ó.‰IÜÑhÈ$×J^ÑJ^×JeÑJeÓJgÔhÔhÜ%›‰IäØaÔbfÔgkÐlp÷  mAñ  mA÷  mHñ  mHó  mJó  hKó  cLð  bMð  Nóð ð 	×Ñ 	Õ*r%   ÚxÚreturn_dictÚreturnc                 óø  — | j                   rK|j                  d   | j                  kD  s|j                  d   | j                  kD  r| j                  ||¬«      S | j                  rU|j                  d   dkD  rC|j                  d«      D cg c]  }| j                  |«      ‘Œ }}t        j                  |«      }n| j                  |«      }| j                  |«      }t        |«      }|s|fS t        |¬«      S c c}w )al  
        Encode a batch of images into latents.

        Args:
            x (`torch.Tensor`): Input batch of images.
            return_dict (`bool`, *optional*, defaults to `True`):
                Whether to return a [`~models.autoencoders.consistency_decoder_vae.ConsistencyDecoderVAEOutput`]
                instead of a plain tuple.

        Returns:
                The latent representations of the encoded images. If `return_dict` is True, a
                [`~models.autoencoders.consistency_decoder_vae.ConsistencyDecoderVAEOutput`] is returned, otherwise a
                plain `tuple` is returned.
        éÿÿÿÿéþÿÿÿ)r   r   r   ©r   )r`   Úshaperb   Útiled_encoder_   ÚsplitrW   r[   Úcatr^   r   r   )rj   r~   r   Úx_sliceÚencoded_slicesÚhÚmomentsÚ	posteriors           r&   ÚencodezConsistencyDecoderVAE.encodeº   s×   € ð$ ?Š? §¡¨¡¨d×.GÑ.GÒ GÈ1Ï7É7ÐSUÉ;ÐY]×YrÑYrÒKrØ×$Ñ$ Q°KÐ$Ó@Ð@à×Ò §¡¨¡
¨Q¢ØCDÇ7Á7È1Ã:ÖN¸˜dŸl™l¨7Õ3ÐNˆNÐNÜ—	‘	˜.Ó)‰Aà—‘˜Q“ˆAà—/‘/ !Ó$ˆÜ0°Ó9ˆ	áØ<Ðä*°yÔAÐAùò Os   Â	C7ÚzÚ	generatorÚnum_inference_stepsc                 ó:  — || j                   j                  z  | j                  z
  | j                  z  }dt	        | j                   j
                  «      dz
  z  }t        j                  |d|¬«      }|j                  \  }}}}	| j                  j                  || j                  ¬«       | j                  j                  t        |d||	f||j                  |j                  ¬«      z  }
| j                  j                  D ]Š  }t!        j"                  | j                  j%                  |
|«      |gd¬«      }| j'                  ||«      j(                  d	d	…d	d…d	d	…d	d	…f   }| j                  j+                  |||
|«      j,                  }|}
ŒŒ |
}|s|fS t/        |¬
«      S )a  
        Decodes the input latent vector `z` using the consistency decoder VAE model.

        Args:
            z (torch.Tensor): The input latent vector.
            generator (Optional[torch.Generator]): The random number generator. Default is None.
            return_dict (bool): Whether to return the output as a dictionary. Default is True.
            num_inference_steps (int): The number of inference steps. Default is 2.

        Returns:
            Union[DecoderOutput, Tuple[torch.Tensor]]: The decoded output.

        r   r   Únearest)ÚmodeÚscale_factor)Údevicer   )r   Údtyper–   ©ÚdimN©Úsample)ra   r)   rR   rT   rg   rC   ÚFÚinterpolater…   rY   Úset_timestepsr–   Úinit_noise_sigmar   r—   Ú	timestepsr[   ÚconcatÚscale_model_inputrX   r›   ÚstepÚprev_sampler   )rj   r   r   r   r‘   r•   Ú
batch_sizeÚ_ÚheightÚwidthÚx_tÚtÚmodel_inputÚmodel_outputr¤   Úx_0s                   r&   ÚdecodezConsistencyDecoderVAE.decodeÝ   sy  € ð* —‘×+Ñ+Ñ+¨d¯j©jÑ8¸D¿I¹IÑEˆàœS §¡×!?Ñ!?Ó@À1ÑDÑEˆÜM‰M˜! )¸,ÔGˆà'(§w¡wÑ$ˆ
Av˜uà×Ñ×,Ñ,Ð-@ÈÏÉÐ,ÔUà×$Ñ$×5Ñ5¼Ø˜˜F EÐ*°iÀqÇwÁwÐWX×W_ÑW_ô9
ñ 
ˆð ×'Ñ'×1Ñ1ò 	ˆAÜŸ,™,¨×(>Ñ(>×(PÑ(PÐQTÐVWÓ(XÐZ[Ð'\ÐbcÔdˆKØ×,Ñ,¨[¸!Ó<×CÑCÂAÀrÈÀrÊ1ÊaÀKÑPˆLØ×0Ñ0×5Ñ5°lÀAÀsÈIÓV×bÑbˆKØ‰Cð		ð ˆáØ6ˆMä CÔ(Ð(r%   ÚaÚbÚblend_extentc                 óò   — t        |j                  d   |j                  d   |«      }t        |«      D ]A  }|d d …d d …| |z   d d …f   d||z  z
  z  |d d …d d …|d d …f   ||z  z  z   |d d …d d …|d d …f<   ŒC |S )Nr   r   ©Úminr…   Úrange)rj   r¯   r°   r±   Úys        r&   Úblend_vzConsistencyDecoderVAE.blend_v  s”   € Ü˜1Ÿ7™7 1™: q§w¡w¨q¡z°<Ó@ˆÜ|Ó$ò 	xˆAØša¢ \ M°AÑ$5²qÐ8Ñ9¸QÀÀ\ÑAQÑ=QÑRÐUVÒWXÒZ[Ð]^Ò`aÐWaÑUbÐfgÐjvÑfvÑUwÑwˆAŠa’A’qˆjŠMð	xàˆr%   c                 óò   — t        |j                  d   |j                  d   |«      }t        |«      D ]A  }|d d …d d …d d …| |z   f   d||z  z
  z  |d d …d d …d d …|f   ||z  z  z   |d d …d d …d d …|f<   ŒC |S )Nr   r   r³   )rj   r¯   r°   r±   r~   s        r&   Úblend_hzConsistencyDecoderVAE.blend_h  s”   € Ü˜1Ÿ7™7 1™: q§w¡w¨q¡z°<Ó@ˆÜ|Ó$ò 	xˆAØša¢¢A¨ }°qÑ'8Ð8Ñ9¸QÀÀ\ÑAQÑ=QÑRÐUVÒWXÒZ[Ò]^Ð`aÐWaÑUbÐfgÐjvÑfvÑUwÑwˆAŠa’’AqˆjŠMð	xàˆr%   c           
      óÔ  — t        | j                  d| j                  z
  z  «      }t        | j                  | j                  z  «      }| j                  |z
  }g }t	        d|j
                  d   |«      D ]’  }g }t	        d|j
                  d   |«      D ]`  }	|dd…dd…||| j                  z   …|	|	| j                  z   …f   }
| j                  |
«      }
| j                  |
«      }
|j                  |
«       Œb |j                  |«       Œ” g }t        |«      D ]Ÿ  \  }}g }t        |«      D ]d  \  }	}
|dkD  r| j                  ||dz
     |	   |
|«      }
|	dkD  r| j                  ||	dz
     |
|«      }
|j                  |
dd…dd…d|…d|…f   «       Œf |j                  t        j                  |d¬«      «       Œ¡ t        j                  |d¬«      }t        |«      }|s|fS t        |¬«      S )a¢  Encode a batch of images using a tiled encoder.

        When this option is enabled, the VAE will split the input tensor into tiles to compute encoding in several
        steps. This is useful to keep memory use constant regardless of image size. The end result of tiled encoding is
        different from non-tiled encoding because each tile uses a different encoder. To avoid tiling artifacts, the
        tiles overlap and are blended together to form a smooth output. You may still see tile-sized changes in the
        output, but they should be much less noticeable.

        Args:
            x (`torch.Tensor`): Input batch of images.
            return_dict (`bool`, *optional*, defaults to `True`):
                Whether or not to return a [`~models.autoencoders.consistency_decoder_vae.ConsistencyDecoderVAEOutput`]
                instead of a plain tuple.

        Returns:
            [`~models.autoencoders.consistency_decoder_vae.ConsistencyDecoderVAEOutput`] or `tuple`:
                If return_dict is True, a [`~models.autoencoders.consistency_decoder_vae.ConsistencyDecoderVAEOutput`]
                is returned, otherwise a plain `tuple` is returned.
        r   r   r   r   Nr˜   r„   )rf   rb   ri   rh   rµ   r…   rW   r^   ÚappendÚ	enumerater·   r¹   r[   rˆ   r   r   )rj   r~   r   Úoverlap_sizer±   Ú	row_limitÚrowsÚiÚrowÚjÚtileÚresult_rowsÚ
result_rowrŒ   r   s                  r&   r†   z"ConsistencyDecoderVAE.tiled_encode  sù  € ô( ˜4×4Ñ4¸¸D×<TÑ<TÑ8TÑUÓVˆÜ˜4×4Ñ4°t×7OÑ7OÑOÓPˆØ×-Ñ-°Ñ<ˆ	ð ˆÜq˜!Ÿ'™' !™* lÓ3ò 	ˆAØˆCÜ˜1˜aŸg™g a™j¨,Ó7ò !ØššA˜q 1 t×'@Ñ'@Ñ#@Ð@À!ÀaÈ$×JcÑJcÑFcÐBcÐcÑdØ—|‘| DÓ)Ø—‘ tÓ,Ø—
‘
˜4Õ ð	!ð
 K‰K˜Õð	ð ˆÜ “oò 
	=‰FˆAˆsØˆJÜ$ S›>ò F‘4ð q’5ØŸ<™<¨¨Q°©U©°A©¸¸lÓKDØq’5ØŸ<™<¨¨A°©E©
°D¸,ÓGDØ×!Ñ! $¢qª!¨Z¨i¨Z¸¸)¸Ð'CÑ"DÕEðFð ×ÑœuŸy™y¨¸Ô;Õ<ð
	=ô —)‘)˜K¨QÔ/ˆÜ0°Ó9ˆ	áØ<Ðä*°yÔAÐAr%   r›   Úsample_posteriorc                 óâ   — |}| j                  |«      j                  }|r|j                  |¬«      }n|j                  «       }| j	                  ||¬«      j                  }|s|fS t        |¬«      S )a‡  
        Args:
            sample (`torch.Tensor`): Input sample.
            sample_posterior (`bool`, *optional*, defaults to `False`):
                Whether to sample from the posterior.
            return_dict (`bool`, *optional*, defaults to `True`):
                Whether or not to return a [`DecoderOutput`] instead of a plain tuple.
            generator (`torch.Generator`, *optional*, defaults to `None`):
                Generator to use for sampling.

        Returns:
            [`DecoderOutput`] or `tuple`:
                If return_dict is True, a [`DecoderOutput`] is returned, otherwise a plain `tuple` is returned.
        )r   rš   )rŽ   r   r›   r”   r®   r   )	rj   r›   rÆ   r   r   r~   r   r   Údecs	            r&   ÚforwardzConsistencyDecoderVAE.forwardQ  sk   € ð* ˆØ—K‘K “N×.Ñ.ˆ	ÙØ× Ñ ¨9Ð Ó5‰Aà—‘Ó ˆAØk‰k˜! yˆkÓ1×8Ñ8ˆáØ6ˆMä CÔ(Ð(r%   )gÿ²{ò°PÇ?é   é    Úsilu)é€   é   é   rÏ   T)ÚDownEncoderBlock2DrÐ   rÐ   rÐ   r   r   rË   rÊ   F)i@  i€  é   rÑ   )ÚResnetDownsampleBlock2DrÒ   rÒ   rÒ   r   é   r   gñhãˆµøä>rË   rÑ   é   Úscale_shiftÚlearned)ÚResnetUpsampleBlock2Dr×   r×   r×   )T)NTr   )FTN)r   r    r!   r"   Ú_supports_group_offloadingr
   Úfloatrf   Ústrr   ÚboolrV   r}   r   r[   ÚTensorr   r   r   rŽ   r   Ú	Generatorr   r®   r·   r¹   r†   rÉ   Ú__classcell__)rk   s   @r&   r(   r(   4   sX  ø„ ñð$ "'Ðàð !(Ø ØØ$Ø6JØ!%ð5
ð $%Ø()Ø')Ø$%Ø&+Ø6Lð5
ð +,Ø#$Ø()Ø"'Ø')Ø+/Ø$%Ø/<Ø+4ð3
ñG^(àð^(ð ð^(ð ð	^(ð
 ð^(ð %*¨#¨s¨(¡Oð^(ð ð^(ð #(¨¨S¨¡/ð^(ð !ð^(ð #&ð^(ð  "%ð!^(ð" "ð#^(ð$  $ð%^(ð& %*¨#¨s¨(¡Oð'^(ð( #(¨¨S¨¡/ð)^(ð4 %(ð5^(ð6 !ð7^(ð8 #&ð9^(ð:  ð;^(ð< "%ð=^(ð> &)ð?^(ð@ "ðA^(ðB *-ðC^(ðD &)ðE^(ðF !& c¨3 h¡ôG^(ó ð^(òB+ð à37ñ BØ—‘ð BØ,0ð Bà	Ð*¨EÐ2NÑ,OÐOÑ	Pò Bó ð BðD ð 04Ø Ø#$ñ,)à<‰<ð,)ð ˜EŸO™OÑ,ð,)ð ð	,)ð
 !ð,)ð 
ˆ}˜e E§L¡LÑ1Ð1Ñ	2ò,)ó ð,)ð^˜Ÿ™ð ¨%¯,©,ð Àcð ÈeÏlÉló ð˜Ÿ™ð ¨%¯,©,ð Àcð ÈeÏlÉló ñ5B˜eŸl™lð 5B¸ð 5BÈÐOjÐlqÐOqÑIró 5Bðt "'Ø Ø/3ñ )à—‘ð )ð ð )ð ð	 )ð
 ˜EŸO™OÑ,ð )ð 
ˆ}˜e E§L¡LÑ1Ð1Ñ	2÷ )r%   r(   )(Údataclassesr   Útypingr   r   r   r[   Útorch.nn.functionalr   Ú
functionalrœ   Úconfiguration_utilsr	   r
   Ú
schedulersr   Úutilsr   Úutils.accelerate_utilsr   Úutils.torch_utilsr   Ú	attentionr   Úattention_processorr   r   r   r   Úmodeling_utilsr   Úunets.unet_2dr   Úvaer   r   r   r   r   r(   r$   r%   r&   ú<module>rí      sv   ðõ "ß )Ñ )ã ß Ð Ý ç BÝ 5Ý Ý 8Ý -Ý &÷ó õ (Ý 'ß WÓ Wð ô
0 *ó 
0ó ð
0ô})˜J¨Ð8HÈ+õ })r%   