Spaces:

jamtur01
/

MMaDA

Runtime error

App Files Files Community

MMaDA / venv /lib /python3.11 /site-packages /deepspeed /io /fast_file_writer.py

jamtur01

Upload folder using huggingface_hub

9c6594c verified about 1 month ago

raw

history blame contribute delete

11 kB

	# Copyright (c) Microsoft Corporation.
	# SPDX-License-Identifier: Apache-2.0

	# DeepSpeed Team

	import os
	import torch
	import time
	from dataclasses import dataclass

	from .constants import *
	from .base_file_writer import BaseFileWriter
	from .single_io_buffer import Single_IO_Buffer
	from .double_io_buffer import Double_IO_Buffer
	from deepspeed.ops.op_builder import UtilsBuilder
	from deepspeed.accelerator import get_accelerator

	from .utils import (tensor_to_bytes, bytes_to_tensor, obj_serialization_details)

	FASTIO_STAT_KEYS = [
	AIO_WRITE_SEC_KEY,
	AIO_WRITE_BYTES_KEY,
	AIO_SPEED_KEY,
	SLOW_WRITE_BYTES_KEY,
	SLOW_WRITE_SEC_KEY,
	AIO_FILL_BUFFER_COUNT_KEY,
	AIO_FILL_BUFFER_SEC_KEY,
	AIO_FILL_BUFFER_SPEED_KEY,
	SAVE_STORAGE_KEY,
	SAVE_STORAGE_BYTES_KEY,
	]


	@dataclass
	class FastFileWriterConfig:
	dnvme_handle: object
	pinned_tensor: torch.Tensor
	double_buffer: bool = True
	num_parallel_writers: int = 1
	writer_rank: int = 0
	global_rank: int = 0


	class FastFileWriter(BaseFileWriter):

	def __init__(self, file_path, config):
	super(FastFileWriter, self).__init__(file_path)
	self._aio_fd = os.open(self._file_path, flags=os.O_DIRECT \| os.O_CREAT \| os.O_WRONLY)
	self._dnvme_handle = config.dnvme_handle
	self._file_offset = 0
	io_buffer_type = Double_IO_Buffer if config.double_buffer else Single_IO_Buffer
	self._io_buffer = io_buffer_type(config.pinned_tensor, self._dnvme_handle)
	self._cast_to_byte_tensor = UtilsBuilder().load().cast_to_byte_tensor
	self._get_serialization_details = obj_serialization_details()
	self._num_parallel_writers = config.num_parallel_writers
	self._writer_rank = config.writer_rank
	self._global_rank = config.global_rank

	for k in FASTIO_STAT_KEYS:
	self._stats[k] = 0

	def write(self, buffer):
	assert self._file_offset % self._dnvme_handle.get_alignment() == 0
	buffer_num_bytes = len(buffer)
	num_written_bytes = self._write_from_tensor(bytes_to_tensor(buffer))
	assert buffer_num_bytes == num_written_bytes
	return buffer_num_bytes

	def split_index_list(self, storage_obj_list, num_splits):
	assert num_splits > 0
	split_list = [-1] * num_splits
	# t[0] is data, t[1] is data_type
	tensor_bytes_list = [len(t[0]) for t in storage_obj_list]
	print(tensor_bytes_list)
	total_bytes = sum(tensor_bytes_list)
	bytes_per_group = total_bytes / num_splits
	split_counter = 0
	tmp_size = 0
	for i in range(len(tensor_bytes_list)):
	tmp_size += tensor_bytes_list[i]
	if tmp_size > bytes_per_group:
	split_list[split_counter] = i
	tmp_size = 0
	split_counter += 1
	if split_list[num_splits - 1] == -1:
	split_list[num_splits - 1] = len(tensor_bytes_list)
	return split_list

	def save_torch_storage_object_list(self, storage_obj_list, save_size):
	assert self._file_offset % self._dnvme_handle.get_alignment() == 0
	num_bytes_written = self._save_storage_list(storage_obj_list, save_size)
	return num_bytes_written

	def close(self):
	self._fini()
	self._incr_stats(CLOSE_COUNT_KEY)

	def fileno(self):
	self._incr_stats(FILENO_COUNT_KEY)
	return INVALID_FD # self._aio_fd

	def flush(self):
	self._incr_stats(FLUSH_COUNT_KEY)

	def __del__(self):
	self._fini()
	assert self._aio_fd == INVALID_FD
	assert self._io_buffer.get_offset() == 0, \
	f'__del__ assert: pinned_offset {self._io_buffer.get_offset()} != 0'
	assert self._file_offset == self._stats[WRITE_BYTES_KEY], \
	f'__del__ assert: file_offset != write_bytes - {self._file_offset} != {self._stats[WRITE_BYTES_KEY]}'

	def _fini(self):
	if not self._io_buffer_is_empty():
	self._force_drain()
	self._io_buffer.reset()
	self._aio_fd = INVALID_FD

	def _fill_io_buffer(self, src_tensor, src_offset):
	st = time.time()
	copy_bytes = self._io_buffer.fill(src_tensor, src_offset)
	self._incr_stats(AIO_FILL_BUFFER_SEC_KEY, time.time() - st)
	self._incr_stats(AIO_FILL_BUFFER_COUNT_KEY)
	return copy_bytes

	def _drain_io_buffer(self, num_bytes):
	st = time.time()
	self._io_buffer.drain(num_bytes, self._aio_fd, self._file_offset)
	self._incr_stats(AIO_WRITE_SEC_KEY, time.time() - st)
	self._incr_stats(AIO_WRITE_BYTES_KEY, num_bytes)
	self._file_offset += num_bytes

	def _io_buffer_is_full(self):
	return self._io_buffer.is_full()

	def _io_buffer_is_empty(self):
	return self._io_buffer.is_empty()

	def _force_drain(self):
	st = time.time()
	aligned_num_bytes = self._io_buffer.get_aligned_num_bytes()
	# Important to retrieve unaligned drain bytes and tensor before doing aligned drain because of the side effects.
	# TODO: Need to eliminate this dependency
	unaligned_num_bytes = self._io_buffer.get_unaligned_num_bytes()
	unaligned_tensor = torch.narrow(self._io_buffer.get_buffer(), 0, aligned_num_bytes, unaligned_num_bytes)

	if aligned_num_bytes > 0:
	self._drain_io_buffer(aligned_num_bytes)

	self._io_buffer.complete_ongoing_drain()
	self._incr_stats(AIO_WRITE_SEC_KEY, time.time() - st)

	if unaligned_num_bytes > 0:
	self._unaligned_drain(unaligned_tensor)
	self._incr_stats(WRITE_SEC_KEY, time.time() - st)

	def _unaligned_drain(self, unaligned_tensor):
	os.close(self._aio_fd)
	st = time.time()
	fp = open(self._file_path, 'ab')
	fp.write(tensor_to_bytes(unaligned_tensor.cpu()))
	fp.close()
	self._file_offset += unaligned_tensor.numel()
	self._incr_stats(SLOW_WRITE_SEC_KEY, time.time() - st)
	self._incr_stats(SLOW_WRITE_BYTES_KEY, unaligned_tensor.numel())
	self._aio_fd = os.open(self._file_path, flags=os.O_DIRECT \| os.O_WRONLY \| os.O_APPEND)

	def _dump_state(self):
	if self._stats[AIO_WRITE_SEC_KEY] > 0:
	self._stats[AIO_SPEED_KEY] = (self._stats[AIO_WRITE_BYTES_KEY] / self._stats[AIO_WRITE_SEC_KEY] /
	(1024**3))
	if self._stats[AIO_FILL_BUFFER_SEC_KEY] > 0:
	self._stats[AIO_FILL_BUFFER_SPEED_KEY] = (self._stats[AIO_WRITE_BYTES_KEY] /
	self._stats[AIO_FILL_BUFFER_SEC_KEY] / (1024**3))
	super()._dump_state()

	def _update_write_stats(self, num_bytes, secs_latency):
	self._incr_stats(WRITE_COUNT_KEY)
	self._incr_stats(WRITE_BYTES_KEY, num_bytes)
	self._incr_stats(WRITE_SEC_KEY, secs_latency)

	def _write_from_tensor(self, buffer_tensor):
	st = time.time()
	buffer_offset = 0
	while (buffer_offset < buffer_tensor.numel()):
	num_copied_bytes = self._fill_io_buffer(buffer_tensor, buffer_offset)
	if self._io_buffer_is_full():
	self._drain_io_buffer(self._io_buffer.get_offset())
	buffer_offset += num_copied_bytes

	self._update_write_stats(buffer_offset, time.time() - st)

	return buffer_offset

	def _save_storage_list(self, obj_list, save_size):
	byte_tensor_list, byte_tensor_nbytes = self._convert_to_byte_tensors(obj_list, save_size)
	if self._num_parallel_writers > 1:
	my_byte_tensor_list = self._partition_byte_tensors(byte_tensor_list, byte_tensor_nbytes,
	self._num_parallel_writers, self._writer_rank)
	else:
	my_byte_tensor_list = byte_tensor_list

	num_object_bytes_written = 0
	for byte_tensor in my_byte_tensor_list:
	num_object_bytes_written += self._write_from_tensor(byte_tensor)

	self._incr_stats(SAVE_STORAGE_KEY, len(obj_list))
	self._incr_stats(SAVE_STORAGE_BYTES_KEY, num_object_bytes_written)
	return num_object_bytes_written

	# Convert list of storage objects into list of byte tensors of object and size bytes
	def _convert_to_byte_tensors(self, obj_list, save_size):
	tensor_list = []
	num_bytes = 0
	for storage_obj in obj_list:
	details = self._get_serialization_details(storage_obj)
	if save_size:
	tensor_list.append(
	torch.tensor(
	details.size,
	dtype=torch.int64,
	).to(get_accelerator().device_name()))
	tensor_list.append(torch.empty(0, dtype=details.dtype, device=details.obj.device).set_(details.obj))
	num_bytes += details.nbytes
	if save_size:
	num_bytes += STORAGE_OBJ_SIZE * len(obj_list)

	return self._cast_to_byte_tensor(tensor_list), num_bytes

	def _partition_byte_tensors(self, byte_tensor_list, byte_tensor_nbytes, num_ranks, my_rank):
	assert my_rank >= 0, f'Invalid for rank number to be negative: {my_rank}'
	assert num_ranks > my_rank, f'Number of ranks {num_ranks} must be greater than rank {my_rank}'

	partition_size = int(byte_tensor_nbytes // num_ranks)
	num_remainder_bytes = byte_tensor_nbytes % num_ranks
	if num_remainder_bytes == 0:
	partition_start = partition_size * my_rank
	else:
	# Spread extra bytes evenly among early ranks
	if num_remainder_bytes > my_rank:
	partition_size += 1
	partition_start = partition_size * my_rank
	else:
	# Account for allocation of extra bytes to earlier ranks
	partition_start = (partition_size * my_rank) + num_remainder_bytes

	partition_end = min(partition_start + partition_size, byte_tensor_nbytes)
	partition_tensor_list = []
	current_offset = 0
	for byte_tensor in byte_tensor_list:
	byte_tensor_end = current_offset + byte_tensor.numel()
	if current_offset < partition_end and byte_tensor_end > partition_start:
	fragment_start = max(current_offset, partition_start)
	fragment_end = min(byte_tensor_end, partition_end)
	assert fragment_start < fragment_end, \
	f'fragment start {fragment_start} should be < fragment_end {fragment_end}'

	fragment_numel = fragment_end - fragment_start
	partition_tensor_list.append(byte_tensor.narrow(0, fragment_start - current_offset, fragment_numel))

	current_offset += byte_tensor.numel()

	actual_partition_nbytes = sum([t.numel() for t in partition_tensor_list])
	assert actual_partition_nbytes == partition_size, \
	f'Incorrect partition bytes for rank {my_rank}, expected = {partition_size} actual = {actual_partition_nbytes}'

	return partition_tensor_list