DeepSeek-V3/inference/models/moe.py

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.distributed as dist
from .config import ModelArgs
from .linear import Linear, ColumnParallelLinear, RowParallelLinear

class Gate(nn.Module):
    def __init__(self, args: ModelArgs):
        super().__init__()
        # ... (Gate implementation)

    def forward(self, x: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
        # ... (Gate forward implementation)

class Expert(nn.Module):
    def __init__(self, dim: int, inter_dim: int):
        super().__init__()
        # ... (Expert implementation)

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        # ... (Expert forward implementation)

class MoE(nn.Module):
    def __init__(self, args: ModelArgs):
        super().__init__()
        # ... (MoE implementation)

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        # ... (MoE forward implementation)