In a Training Loop 🔄

1 5 28

Michael Benayoun

michaelbenayoun

AI & ML interests

None yet

Recent Activity

updated a model 13 days ago

michaelbenayoun/dummy-rmsnorm-mlp-with-transformations

published a model 16 days ago

michaelbenayoun/dummy-rmsnorm-mlp-with-transformations

updated a model 16 days ago

michaelbenayoun/dummy-rmsnorm-mlp

View all activity

Organizations

Articles 2

Article

Scaling up BERT-like model Inference on modern CPU - Part 2

Article

Introducing Optimum: The Optimization Toolkit for Transformers at Scale

View all Articles

Collections 1

models 19

datasets 0

None public yet

Michael Benayoun

AI & ML interests

Recent Activity

Organizations

Articles 2

Scaling up BERT-like model Inference on modern CPU - Part 2

Introducing Optimum: The Optimization Toolkit for Transformers at Scale

Collections 1

PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

Reducing Activation Recomputation in Large Transformer Models

GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism

PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

Reducing Activation Recomputation in Large Transformer Models

GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism

models 19

michaelbenayoun/dummy-rmsnorm-mlp-with-transformations

michaelbenayoun/dummy-rmsnorm-mlp

michaelbenayoun/qwen3-tiny-4kv-heads-4layers-random

michaelbenayoun/rmsnorm

michaelbenayoun/qwen3-tiny-4kv-heads-8layers-random

michaelbenayoun/deepseekv3-tiny-4kv-heads-4-layers-random

michaelbenayoun/granite-tiny-4kv-heads-4layers-random

michaelbenayoun/lora-qkv-included-llama-2-tiny-4kv-heads-4layers-random

michaelbenayoun/lora-2-qkv-included-llama-2-tiny-4kv-heads-4layers-random

michaelbenayoun/llama-2-tiny-4kv-heads-4layers-random

datasets 0

Michael Benayoun

AI & ML interests

Recent Activity

Organizations

Articles 2

Scaling up BERT-like model Inference on modern CPU - Part 2

Introducing Optimum: The Optimization Toolkit for Transformers at Scale

Collections 1

models 19 Sort: Recently updated

datasets 0

models 19