- 우리는 토큰마다 37B개가 활성화되어 총 671B개의 매개변수를 갖는 강력한 전문가 혼합(
MoE
) 언어 모델인DeepSeek-V3
를 제시합니다. - 효율적인 추론과 비용 효율적인 학습을 달성하기 위해
DeepSeek-V3
는DeepSeek-V2
에서 철저히 검증된Multi-head Latent Attention
(MLA
) 및DeepSeekMoE
아키텍처를 채택했습니다. - 또한,
DeepSeek-V3
는 부하 분산을 위한 보조 손실 없는 전략을 개척하고 더 강력한 성능을 위해 다중 토큰 예측 학습 목표를 설정합니다. - 우리는 14.8조 개의 다양하고 고품질 토큰을 사용하여
DeepSeek-V3
를 사전 훈련한 다음, 지도식 미세 조정 및 강화 학습 단계를 거쳐 그 기능을 최대한 활용합니다. - 포괄적인 평가 결과,
DeepSeek-V3
는 다른 오픈소스 모델보다 성능이 뛰어나고 주요 폐쇄소스 모델과 비슷한 성능을 달성한 것으로 나타났습니다. DeepSeek-V3
는 뛰어난 성능을 보이는데, 전체 학습을 위해H800
GPU
시간이 278만 시간에 불과합니다.- 게다가 훈련과정이 놀라울 정도로 안정적입니다.
- 전체 훈련 과정에서 회복 불가능한 손실 급증을 경험하지 않았고, 롤백도 수행하지 않았습니다.
아키텍처: 혁신적인 부하 분산 전략 및 교육 목표
- DeepSeek-V2의 효율적인 아키텍처에 더해, 우리는 부하 분산을 위한 보조 손실 없는 전략을 개척하여 부하 분산을 촉진함으로써 발생하는 성능 저하를 최소화합니다.
- 우리는 다중 토큰 예측(MTP) 목표를 조사하고 그것이 모델 성능에 도움이 된다는 것을 증명했습니다. 또한 추론 가속을 위한 추측 디코딩에도 사용할 수 있습니다.
사전 훈련: 궁극적인 훈련 효율성을 향해
- 우리는 FP8 혼합 정밀도 훈련 프레임워크를 설계하고, 최초로 대규모 모델에서 FP8 훈련의 실행 가능성과 효과를 검증했습니다.
- 알고리즘, 프레임워크, 하드웨어의 공동 설계를 통해 노드 간 MoE 훈련에서 발생하는 통신 병목 현상을 극복하고 거의 완전한 계산-통신 중복을 달성했습니다.
이를 통해 학습 효율성이 크게 향상되고 학습 비용이 줄어들어 추가적인 오버헤드 없이 모델 크기를 더욱 확장할 수 있게 되었습니다. - 2,664M H800 GPU 시간의 경제적인 비용으로 14.8T 토큰에서 DeepSeek-V3의 사전 학습을 완료하여 현재 가장 강력한 오픈 소스 기반 모델을 생성합니다. 사전 학습 후 후속 학습 단계에는 0.1M GPU 시간만 필요합니다.
훈련 후: DeepSeek-R1의 지식 정제
- 우리는 긴 사고 사슬(CoT) 모델, 특히 DeepSeek R1 시리즈 모델 중 하나에서 추론 능력을 표준 LLM, 특히 DeepSeek-V3로 추출하는 혁신적인 방법론을 소개합니다. 우리의 파이프라인은 R1의 검증 및 반사 패턴을 DeepSeek-V3에 우아하게 통합하여 추론 성능을 현저히 개선합니다. 한편, 우리는 DeepSeek-V3의 출력 스타일과 길이에 대한 제어도 유지합니다.
Model | #Total Params | #Activated Params | Context Length | Download |
---|---|---|---|---|
DeepSeek-V3-Base | 671B | 37B | 128K | 🤗 Hugging Face |
DeepSeek-V3 | 671B | 37B | 128K | 🤗 Hugging Face |
Note
Hugging Face의 DeepSeek-V3 모델의 총 크기는 685B이며, 여기에는 671B의 기본 모델 가중치와 14B의 다중 토큰 예측(MTP) 모듈 가중치가 포함됩니다.**
최적의 성능과 유연성을 보장하기 위해, 우리는 오픈소스 커뮤니티와 하드웨어 공급업체와 협력하여 모델을 로컬에서 실행하는 여러 가지 방법을 제공했습니다. 단계별 안내는 섹션 6: How_to_Locally를 확인하세요.
더 깊이 파고들고자 하는 개발자의 경우, README_WEIGHTS.md를 탐색하여 주요 모델 가중치와 다중 토큰 예측(MTP) 모듈에 대한 자세한 내용을 살펴보는 것이 좋습니다. MTP 지원은 현재 커뮤니티 내에서 활발하게 개발 중이며, 여러분의 기여와 피드백을 환영합니다.
Benchmark (Metric) | # Shots | DeepSeek-V2 | Qwen2.5 72B | LLaMA3.1 405B | DeepSeek-V3 | |
---|---|---|---|---|---|---|
Architecture | - | MoE | Dense | Dense | MoE | |
# Activated Params | - | 21B | 72B | 405B | 37B | |
# Total Params | - | 236B | 72B | 405B | 671B | |
English | Pile-test (BPB) | - | 0.606 | 0.638 | 0.542 | 0.548 |
BBH (EM) | 3-shot | 78.8 | 79.8 | 82.9 | 87.5 | |
MMLU (Acc.) | 5-shot | 78.4 | 85.0 | 84.4 | 87.1 | |
MMLU-Redux (Acc.) | 5-shot | 75.6 | 83.2 | 81.3 | 86.2 | |
MMLU-Pro (Acc.) | 5-shot | 51.4 | 58.3 | 52.8 | 64.4 | |
DROP (F1) | 3-shot | 80.4 | 80.6 | 86.0 | 89.0 | |
ARC-Easy (Acc.) | 25-shot | 97.6 | 98.4 | 98.4 | 98.9 | |
ARC-Challenge (Acc.) | 25-shot | 92.2 | 94.5 | 95.3 | 95.3 | |
HellaSwag (Acc.) | 10-shot | 87.1 | 84.8 | 89.2 | 88.9 | |
PIQA (Acc.) | 0-shot | 83.9 | 82.6 | 85.9 | 84.7 | |
WinoGrande (Acc.) | 5-shot | 86.3 | 82.3 | 85.2 | 84.9 | |
RACE-Middle (Acc.) | 5-shot | 73.1 | 68.1 | 74.2 | 67.1 | |
RACE-High (Acc.) | 5-shot | 52.6 | 50.3 | 56.8 | 51.3 | |
TriviaQA (EM) | 5-shot | 80.0 | 71.9 | 82.7 | 82.9 | |
NaturalQuestions (EM) | 5-shot | 38.6 | 33.2 | 41.5 | 40.0 | |
AGIEval (Acc.) | 0-shot | 57.5 | 75.8 | 60.6 | 79.6 | |
Code | HumanEval (Pass@1) | 0-shot | 43.3 | 53.0 | 54.9 | 65.2 |
MBPP (Pass@1) | 3-shot | 65.0 | 72.6 | 68.4 | 75.4 | |
LiveCodeBench-Base (Pass@1) | 3-shot | 11.6 | 12.9 | 15.5 | 19.4 | |
CRUXEval-I (Acc.) | 2-shot | 52.5 | 59.1 | 58.5 | 67.3 | |
CRUXEval-O (Acc.) | 2-shot | 49.8 | 59.9 | 59.9 | 69.8 | |
Math | GSM8K (EM) | 8-shot | 81.6 | 88.3 | 83.5 | 89.3 |
MATH (EM) | 4-shot | 43.4 | 54.4 | 49.0 | 61.6 | |
MGSM (EM) | 8-shot | 63.6 | 76.2 | 69.9 | 79.8 | |
CMath (EM) | 3-shot | 78.7 | 84.5 | 77.3 | 90.7 | |
Chinese | CLUEWSC (EM) | 5-shot | 82.0 | 82.5 | 83.0 | 82.7 |
C-Eval (Acc.) | 5-shot | 81.4 | 89.2 | 72.5 | 90.1 | |
CMMLU (Acc.) | 5-shot | 84.0 | 89.5 | 73.7 | 88.8 | |
CMRC (EM) | 1-shot | 77.4 | 75.8 | 76.0 | 76.3 | |
C3 (Acc.) | 0-shot | 77.4 | 76.7 | 79.7 | 78.6 | |
CCPM (Acc.) | 0-shot | 93.0 | 88.5 | 78.6 | 92.0 | |
Multilingual | MMMLU-non-English (Acc.) | 5-shot | 64.0 | 74.8 | 73.8 | 79.4 |
Note
가장 좋은 결과는 굵은 글씨로 표시됩니다. 0.3을 넘지 않는 격차가 있는 점수는 동일한 수준으로 간주됩니다. DeepSeek-V3는 대부분 벤치마크에서 가장 좋은 성능을 달성하며, 특히 수학 및 코드 작업에서 그렇습니다. 평가에 대한 자세한 내용을 보려면 논문을 확인하세요.
Needle In A Haystack
(NIAH) 테스트의 평가 결과. DeepSeek-V3는 최대 128K까지의 모든 컨텍스트 창 길이에서 좋은 성능을 보입니다.
Benchmark (Metric) | DeepSeek V2-0506 | DeepSeek V2.5-0905 | Qwen2.5 72B-Inst. | Llama3.1 405B-Inst. | Claude-3.5-Sonnet-1022 | GPT-4o 0513 | DeepSeek V3 | |
---|---|---|---|---|---|---|---|---|
Architecture | MoE | MoE | Dense | Dense | - | - | MoE | |
# Activated Params | 21B | 21B | 72B | 405B | - | - | 37B | |
# Total Params | 236B | 236B | 72B | 405B | - | - | 671B | |
English | MMLU (EM) | 78.2 | 80.6 | 85.3 | 88.6 | 88.3 | 87.2 | 88.5 |
MMLU-Redux (EM) | 77.9 | 80.3 | 85.6 | 86.2 | 88.9 | 88.0 | 89.1 | |
MMLU-Pro (EM) | 58.5 | 66.2 | 71.6 | 73.3 | 78.0 | 72.6 | 75.9 | |
DROP (3-shot F1) | 83.0 | 87.8 | 76.7 | 88.7 | 88.3 | 83.7 | 91.6 | |
IF-Eval (Prompt Strict) | 57.7 | 80.6 | 84.1 | 86.0 | 86.5 | 84.3 | 86.1 | |
GPQA-Diamond (Pass@1) | 35.3 | 41.3 | 49.0 | 51.1 | 65.0 | 49.9 | 59.1 | |
SimpleQA (Correct) | 9.0 | 10.2 | 9.1 | 17.1 | 28.4 | 38.2 | 24.9 | |
FRAMES (Acc.) | 66.9 | 65.4 | 69.8 | 70.0 | 72.5 | 80.5 | 73.3 | |
LongBench v2 (Acc.) | 31.6 | 35.4 | 39.4 | 36.1 | 41.0 | 48.1 | 48.7 | |
Code | HumanEval-Mul (Pass@1) | 69.3 | 77.4 | 77.3 | 77.2 | 81.7 | 80.5 | 82.6 |
LiveCodeBench (Pass@1-COT) | 18.8 | 29.2 | 31.1 | 28.4 | 36.3 | 33.4 | 40.5 | |
LiveCodeBench (Pass@1) | 20.3 | 28.4 | 28.7 | 30.1 | 32.8 | 34.2 | 37.6 | |
Codeforces (Percentile) | 17.5 | 35.6 | 24.8 | 25.3 | 20.3 | 23.6 | 51.6 | |
SWE Verified (Resolved) | - | 22.6 | 23.8 | 24.5 | 50.8 | 38.8 | 42.0 | |
Aider-Edit (Acc.) | 60.3 | 71.6 | 65.4 | 63.9 | 84.2 | 72.9 | 79.7 | |
Aider-Polyglot (Acc.) | - | 18.2 | 7.6 | 5.8 | 45.3 | 16.0 | 49.6 | |
Math | AIME 2024 (Pass@1) | 4.6 | 16.7 | 23.3 | 23.3 | 16.0 | 9.3 | 39.2 |
MATH-500 (EM) | 56.3 | 74.7 | 80.0 | 73.8 | 78.3 | 74.6 | 90.2 | |
CNMO 2024 (Pass@1) | 2.8 | 10.8 | 15.9 | 6.8 | 13.1 | 10.8 | 43.2 | |
Chinese | CLUEWSC (EM) | 89.9 | 90.4 | 91.4 | 84.7 | 85.4 | 87.9 | 90.9 |
C-Eval (EM) | 78.6 | 79.5 | 86.1 | 61.5 | 76.7 | 76.0 | 86.5 | |
C-SimpleQA (Correct) | 48.5 | 54.1 | 48.4 | 50.4 | 51.3 | 59.3 | 64.8 |
Note
모든 모델은 출력 길이를 8K로 제한하는 구성에서 평가됩니다. 1000개 미만의 샘플을 포함하는 벤치마크는 다양한 온도 설정을 사용하여 여러 번 테스트하여 견고한 최종 결과를 도출합니다. DeepSeek-V3는 가장 성능이 뛰어난 오픈 소스 모델로 자리 잡았으며, 프런티어 클로즈드 소스 모델과도 경쟁력 있는 성능을 보여줍니다.
Model | Arena-Hard | AlpacaEval 2.0 |
---|---|---|
DeepSeek-V2.5-0905 | 76.2 | 50.5 |
Qwen2.5-72B-Instruct | 81.2 | 49.1 |
LLaMA-3.1 405B | 69.3 | 40.5 |
GPT-4o-0513 | 80.4 | 51.1 |
Claude-Sonnet-3.5-1022 | 85.2 | 52.0 |
DeepSeek-V3 | 85.5 | 70.0 |
Note
영어 개방형 대화 평가. AlpacaEval 2.0의 경우 길이 제어 승률을 메트릭으로 사용합니다.
DeepSeek 공식 웹사이트 chat.deepseek.com에서 DeepSeek-V3와 채팅할 수 있습니다.
DeepSeek 플랫폼에서는 OpenAI 호환 API도 제공합니다: platform.deepseek.com
DeepSeek-V3는 다음 하드웨어와 오픈 소스 커뮤니티 소프트웨어를 사용하여 로컬로 배포할 수 있습니다.
- DeepSeek-Infer 데모: FP8 및 BF16 추론을 위한 간단하고 가벼운 데모를 제공합니다.
- SGLang: BF16 및 FP8 추론 모드에서 DeepSeek-V3 모델을 완벽하게 지원하며 다중 토큰 예측도 곧 제공됩니다(sgl-project/sglang#2591).
- LMDeploy: 로컬 및 클라우드 배포를 위한 효율적인 FP8 및 BF16 추론을 지원합니다.
- TensorRT-LLM: 현재 BF16 추론과 INT4/8 양자화를 지원하며, 곧 FP8 지원도 제공될 예정입니다.
- vLLM: 텐서 병렬 처리 및 파이프라인 병렬 처리를 위한 FP8 및 BF16 모드를 갖춘 DeepSeek-V3 모델을 지원합니다.
- AMD GPU: BF16 및 FP8 모드에서 SGLang을 통해 AMD GPU에서 DeepSeek-V3 모델을 실행할 수 있습니다.
- Huawei Ascend NPU: Huawei Ascend 장치에서 DeepSeek-V3 실행을 지원합니다.
FP8 훈련은 기본적으로 프레임워크에 채택되었으므로 FP8 가중치만 제공합니다. 실험에 BF16 가중치가 필요한 경우 제공된 변환 스크립트를 사용하여 변환을 수행할 수 있습니다.
다음은 FP8 가중치를 BF16으로 변환하는 예입니다.
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
Note
Hugging Face의 Transformers는 아직 직접 지원되지 않습니다.**
Note
Python 3.10이 설치된 Linux만 해당. Mac과 Windows는 지원되지 않습니다.
종속성:
torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
먼저, DeepSeek-V3 GitHub 저장소를 복제합니다.
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
inference
폴더로 이동하여 requirements.txt
에 나열된 종속성을 설치합니다. 가장 쉬운 방법은 conda
또는 uv
와 같은 패키지 관리자를 사용하여 새 가상 환경을 만들고 종속성을 설치하는 것입니다.
cd DeepSeek-V3/inference
pip install -r requirements.txt
Hugging Face에서 모델 가중치를 다운로드하여 /path/to/DeepSeek-V3
폴더에 넣습니다.
Hugging Face 모델 가중치를 특정 형식으로 변환:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
그러면 DeepSeek-V3와 채팅할 수 있습니다:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200
또는 주어진 파일에 대한 일괄 추론:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILEILE
SGLang 은 현재 MLA 최적화, DP Attention, FP8(W8A8), FP8 KV Cache 및 Torch Compile을 지원하여 오픈 소스 프레임워크 간 최첨단 지연 시간 및 처리량 성능을 제공합니다.
특히, SGLang v0.4.1 은 NVIDIA와 AMD GPU 모두에서 DeepSeek-V3를 완벽하게 지원하여 매우 다재다능하고 견고한 솔루션입니다.
SGLang은 또한 다중 노드 텐서 병렬 처리 를 지원하여 이 모델을 여러 개의 네트워크 연결 머신에서 실행할 수 있습니다.
다중 토큰 예측(MTP)은 개발 중이며, 최적화 계획 에서 진행 상황을 추적할 수 있습니다.
SGLang 팀의 출시 지침은 다음과 같습니다. https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3
대규모 언어 모델에 맞춰진 유연하고 고성능 추론 및 제공 프레임워크인 LMDeploy 가 이제 DeepSeek-V3를 지원합니다. 오프라인 파이프라인 처리 및 온라인 배포 기능을 모두 제공하며 PyTorch 기반 워크플로와 완벽하게 통합됩니다.
LMDeploy로 DeepSeek-V3를 실행하는 방법에 대한 포괄적인 단계별 지침은 여기를 참조하세요: InternLM/lmdeploy#2960
TensorRT-LLM 은 이제 DeepSeek-V3 모델을 지원하여 BF16 및 INT4/INT8 가중치 전용과 같은 정밀도 옵션을 제공합니다. FP8에 대한 지원은 현재 진행 중이며 곧 출시될 예정입니다. 다음 링크를 통해 DeepSeek-V3 지원을 위한 TRTLLM의 사용자 지정 브랜치에 액세스하여 새로운 기능을 직접 경험할 수 있습니다. https://github.com/NVIDIA/TensorRT-LLM/tree/deepseek/examples/deepseek_v3
vLLM v0.6.6은 NVIDIA와 AMD GPU 모두에서 FP8 및 BF16 모드에 대한 DeepSeek-V3 추론을 지원합니다. 표준 기술 외에도 vLLM은 _파이프라인 병렬 처리_를 제공하여 네트워크로 연결된 여러 머신에서 이 모델을 실행할 수 있습니다. 자세한 지침은 vLLM 지침 을 참조하세요. 향상 계획 도 자유롭게 따르세요.
AMD 팀과 협력하여 SGLang을 사용하여 AMD GPU에 대한 Day-One 지원을 달성했으며 FP8 및 BF16 정밀도에 대한 완전한 호환성을 제공합니다. 자세한 지침은 SGLang 지침 을 참조하세요.
Huawei Ascend 커뮤니티의 MindIE 프레임워크는 DeepSeek-V3의 BF16 버전을 성공적으로 적용했습니다. Ascend NPU에 대한 단계별 안내는 여기 의 지침을 따르세요.
이 코드 저장소는 MIT 라이선스에 따라 라이선스가 부여됩니다. DeepSeek-V3 Base/Chat 모델의 사용은 모델 라이선스의 적용을 받습니다. DeepSeek-V3 시리즈(Base 및 Chat 포함)는 상업적 사용을 지원합니다.
@misc{deepseekai2024deepseekv3technicalreport,
title={DeepSeek-V3 Technical Report},
author={DeepSeek-AI and Aixin Liu and Bei Feng and Bing Xue and Bingxuan Wang and Bochao Wu and Chengda Lu and Chenggang Zhao and Chengqi Deng and Chenyu Zhang and Chong Ruan and Damai Dai and Daya Guo and Dejian Yang and Deli Chen and Dongjie Ji and Erhang Li and Fangyun Lin and Fucong Dai and Fuli Luo and Guangbo Hao and Guanting Chen and Guowei Li and H. Zhang and Han Bao and Hanwei Xu and Haocheng Wang and Haowei Zhang and Honghui Ding and Huajian Xin and Huazuo Gao and Hui Li and Hui Qu and J. L. Cai and Jian Liang and Jianzhong Guo and Jiaqi Ni and Jiashi Li and Jiawei Wang and Jin Chen and Jingchang Chen and Jingyang Yuan and Junjie Qiu and Junlong Li and Junxiao Song and Kai Dong and Kai Hu and Kaige Gao and Kang Guan and Kexin Huang and Kuai Yu and Lean Wang and Lecong Zhang and Lei Xu and Leyi Xia and Liang Zhao and Litong Wang and Liyue Zhang and Meng Li and Miaojun Wang and Mingchuan Zhang and Minghua Zhang and Minghui Tang and Mingming Li and Ning Tian and Panpan Huang and Peiyi Wang and Peng Zhang and Qiancheng Wang and Qihao Zhu and Qinyu Chen and Qiushi Du and R. J. Chen and R. L. Jin and Ruiqi Ge and Ruisong Zhang and Ruizhe Pan and Runji Wang and Runxin Xu and Ruoyu Zhang and Ruyi Chen and S. S. Li and Shanghao Lu and Shangyan Zhou and Shanhuang Chen and Shaoqing Wu and Shengfeng Ye and Shengfeng Ye and Shirong Ma and Shiyu Wang and Shuang Zhou and Shuiping Yu and Shunfeng Zhou and Shuting Pan and T. Wang and Tao Yun and Tian Pei and Tianyu Sun and W. L. Xiao and Wangding Zeng and Wanjia Zhao and Wei An and Wen Liu and Wenfeng Liang and Wenjun Gao and Wenqin Yu and Wentao Zhang and X. Q. Li and Xiangyue Jin and Xianzu Wang and Xiao Bi and Xiaodong Liu and Xiaohan Wang and Xiaojin Shen and Xiaokang Chen and Xiaokang Zhang and Xiaosha Chen and Xiaotao Nie and Xiaowen Sun and Xiaoxiang Wang and Xin Cheng and Xin Liu and Xin Xie and Xingchao Liu and Xingkai Yu and Xinnan Song and Xinxia Shan and Xinyi Zhou and Xinyu Yang and Xinyuan Li and Xuecheng Su and Xuheng Lin and Y. K. Li and Y. Q. Wang and Y. X. Wei and Y. X. Zhu and Yang Zhang and Yanhong Xu and Yanhong Xu and Yanping Huang and Yao Li and Yao Zhao and Yaofeng Sun and Yaohui Li and Yaohui Wang and Yi Yu and Yi Zheng and Yichao Zhang and Yifan Shi and Yiliang Xiong and Ying He and Ying Tang and Yishi Piao and Yisong Wang and Yixuan Tan and Yiyang Ma and Yiyuan Liu and Yongqiang Guo and Yu Wu and Yuan Ou and Yuchen Zhu and Yuduan Wang and Yue Gong and Yuheng Zou and Yujia He and Yukun Zha and Yunfan Xiong and Yunxian Ma and Yuting Yan and Yuxiang Luo and Yuxiang You and Yuxuan Liu and Yuyang Zhou and Z. F. Wu and Z. Z. Ren and Zehui Ren and Zhangli Sha and Zhe Fu and Zhean Xu and Zhen Huang and Zhen Zhang and Zhenda Xie and Zhengyan Zhang and Zhewen Hao and Zhibin Gou and Zhicheng Ma and Zhigang Yan and Zhihong Shao and Zhipeng Xu and Zhiyu Wu and Zhongyu Zhang and Zhuoshu Li and Zihui Gu and Zijia Zhu and Zijun Liu and Zilin Li and Ziwei Xie and Ziyang Song and Ziyi Gao and Zizheng Pan},
year={2024},
eprint={2412.19437},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.19437},
}
문의사항이 있으시면 문제를 제기하시거나 service@deepseek.com 으로 연락해 주세요.
- 도움이 되셨으면 하단의 ❤️ 공감 버튼 부탁 드립니다. 감사합니다! 😄