Stars
《How to Scale Your Model》中文翻译项目 - 智能技术文档翻译工具。专为大语言模型扩展技术书籍设计,突破长文档翻译瓶颈,完美保留数学公式、代码块格式。采用占位符机制+分层翻译策略,基于Gemini API提供高质量翻译。Python+crawl4ai技术栈,支持批量处理和增量更新。
Efficient Triton Kernels for LLM Training
AIInfra(AI 基础设施)指AI系统从底层芯片等硬件,到上层软件栈支持AI大模型训练和推理。
Best practices for training DeepSeek, Mixtral, Qwen and other MoE models using Megatron Core.
how to optimize some algorithm in cuda.
Machine Learning Engineering Open Book
Pipeline Parallelism Emulation and Visualization
a static analytical model for LLM distributed training
Zero Bubble Pipeline Parallelism
Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation
Firefly: 大模型训练工具,支持训练Qwen2.5、Qwen2、Yi1.5、Phi-3、Llama3、Gemma、MiniCPM、Yi、Deepseek、Orion、Xverse、Mixtral-8x7B、Zephyr、Mistral、Baichuan2、Llma2、Llama、Qwen、Baichuan、ChatGLM2、InternLM、Ziya2、Vicuna、Bloom等大模型
使用peft库,对chatGLM-6B/chatGLM2-6B实现4bit的QLoRA高效微调,并做lora model和base model的merge及4bit的量化(quantize)。
基于ChatGLM-6B、ChatGLM2-6B、ChatGLM3-6B模型,进行下游具体任务微调,涉及Freeze、Lora、P-tuning、全参微调等
This repo was a simple way to implement Lora to fine-tuning ChatGLM2.这个项目是用LORA微调chatglm2的简单实现。
CCL2019,“小牛杯”中文幽默计算任务的数据集及baseline
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
WebGLM: An Efficient Web-enhanced Question Answering System (KDD 2023)
Pytorch-Named-Entity-Recognition-with-BERT
An open source implementation of CLIP.
大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP