Spaces:

litvinovmitch11
/

monkey_coding_dl_project

Running

App Files Files Community

litvinovmitch11 commited on 12 days ago

Commit

cd123bf

verified ·

1 Parent(s): 023f3c5

Synced repo using 'sync_with_huggingface' Github Action

Browse files

Files changed (25) hide show

config.yaml +8 -0
datasets/load_datasets.ipynb +111 -0
main.py +16 -0
notebooks/datasets_stats.ipynb +0 -0
notebooks/models.ipynb +356 -0
notebooks/train.ipynb +219 -0
poetry.lock +0 -0
pretrained/best_model.pth +3 -0
pretrained/config.json +12 -0
pretrained/vocab.json +0 -0
pyproject.toml +32 -0
requirements.txt +123 -0
src/app/__init__.py +0 -0
src/app/app.py +103 -0
src/app/config.py +39 -0
src/app/model_utils/factory.py +51 -0
src/app/model_utils/manager.py +72 -0
src/data_utils/__init__.py +0 -0
src/data_utils/config.py +58 -0
src/data_utils/dataset_generator.py +177 -0
src/data_utils/dataset_params.py +53 -0
src/data_utils/text_processor.py +75 -0
src/models/__init__.py +0 -0
src/models/models.py +137 -0
src/models/predict.py +83 -0

config.yaml ADDED Viewed

	@@ -0,0 +1,8 @@

+model_path: "./pretrained/best_model.pth"
+vocab_path: "./pretrained/vocab.json"
+config_path: "./pretrained/config.json"
+max_seq_len: 300
+server:
+  local: true
+  host: "0.0.0.0"
+  port: 7860

datasets/load_datasets.ipynb ADDED Viewed

	@@ -0,0 +1,111 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "461b224aa295437b8ddd80ccb5b5e683",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "Saving the dataset (0/4 shards):   0%|          | 0/3600000 [00:00<?, ? examples/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "1628189e590d446588f57357d7e7a035",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "Saving the dataset (0/1 shards):   0%|          | 0/400000 [00:00<?, ? examples/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "a728f34f72f64abaa31627af611e7ad3",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "Saving the dataset (0/1 shards):   0%|          | 0/25000 [00:00<?, ? examples/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "cdef5994359e4c2696bc3bb18b1086d3",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "Saving the dataset (0/1 shards):   0%|          | 0/25000 [00:00<?, ? examples/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "aaf29ef86d3c4d4fb54effb14129b039",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "Saving the dataset (0/1 shards):   0%|          | 0/50000 [00:00<?, ? examples/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "from datasets import load_dataset\n",
+    "\n",
+    "dataset_polarity = load_dataset(\"fancyzhx/amazon_polarity\")\n",
+    "dataset_polarity.save_to_disk(\"polarity\")\n",
+    "\n",
+    "dataset_imdb = load_dataset(\"stanfordnlp/imdb\")\n",
+    "dataset_imdb.save_to_disk(\"imdb\")"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "monkey-coding-dl-project-rj23F0vJ-py3.12",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.12.5"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

main.py ADDED Viewed

	@@ -0,0 +1,16 @@

+import warnings
+for warn in [UserWarning, FutureWarning]: warnings.filterwarnings("ignore", category = warn)
+from src.app.app import App
+from src.app.config import AppConfig
+def main():
+    config = AppConfig.from_yaml("config.yaml")
+    app = App(config)
+    app.launch()
+if __name__ == "__main__":
+    main()

notebooks/datasets_stats.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff

notebooks/models.ipynb ADDED Viewed

	@@ -0,0 +1,356 @@

+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "id": "9bfb61e1",
+   "metadata": {},
+   "source": [
+    "# Сравниваем модели и сохраняем в `src/models/pretrained`"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "f0574ac3",
+   "metadata": {},
+   "source": [
+    "- Импорты\n",
+    "- Константы\n",
+    "- Считывание датасетов"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "5a237c5c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "import time\n",
+    "import torch\n",
+    "import warnings\n",
+    "import numpy as np\n",
+    "import pandas as pd\n",
+    "import torch.nn as nn\n",
+    "import torch.optim as optim\n",
+    "from torch.utils.data import DataLoader, TensorDataset\n",
+    "from sklearn.metrics import accuracy_score, precision_recall_fscore_support\n",
+    "for warn in [UserWarning, FutureWarning]: warnings.filterwarnings(\"ignore\", category = warn)\n",
+    "\n",
+    "from src.data_utils.config import DatasetConfig\n",
+    "from src.data_utils.dataset_params import DatasetName\n",
+    "from src.data_utils.dataset_generator import DatasetGenerator\n",
+    "from src.models.models import TransformerClassifier, CustomMambaClassifier, LSTMClassifier\n",
+    "\n",
+    "MAX_SEQ_LEN = 300\n",
+    "EMBEDDING_DIM = 128\n",
+    "BATCH_SIZE = 32\n",
+    "LEARNING_RATE = 1e-4\n",
+    "NUM_EPOCHS = 5  # для быстрого сравнения моделей\n",
+    "NUM_CLASSES = 2\n",
+    "\n",
+    "SAVE_DIR = \"../pretrained_comparison\"\n",
+    "os.makedirs(SAVE_DIR, exist_ok=True)\n",
+    "DEVICE = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n",
+    "\n",
+    "config = DatasetConfig(\n",
+    "    load_from_disk=True,\n",
+    "    path_to_data=\"../datasets\"\n",
+    ")\n",
+    "\n",
+    "generator = DatasetGenerator(DatasetName.IMDB, config=config)\n",
+    "(X_train, y_train), (X_val, y_val), (X_test, y_test) = generator.generate_dataset()\n",
+    "VOCAB_SIZE = len(generator.vocab)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "5b95192d",
+   "metadata": {},
+   "source": [
+    "Вспомогательные функции для трейна/валидации/теста"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "b2a4534c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "\n",
+    "def train_and_evaluate(model, train_loader, val_loader, optimizer, criterion, num_epochs, device, model_name, save_path):\n",
+    "    best_val_f1 = 0.0\n",
+    "    history = {'train_loss': [], 'val_loss': [], 'val_accuracy': [], 'val_f1': []}\n",
+    "    \n",
+    "    print(f\"--- Начало обучения модели: {model_name} на устройстве {device} ---\")\n",
+    "\n",
+    "    for epoch in range(num_epochs):\n",
+    "        model.train()\n",
+    "        start_time = time.time()\n",
+    "        total_train_loss = 0\n",
+    "\n",
+    "        for batch_X, batch_y in train_loader:\n",
+    "            batch_X, batch_y = batch_X.to(device), batch_y.to(device)\n",
+    "            optimizer.zero_grad()\n",
+    "            outputs = model(batch_X)\n",
+    "            loss = criterion(outputs, batch_y)\n",
+    "            loss.backward()\n",
+    "            optimizer.step()\n",
+    "            total_train_loss += loss.item()\n",
+    "        \n",
+    "        avg_train_loss = total_train_loss / len(train_loader)\n",
+    "        history['train_loss'].append(avg_train_loss)\n",
+    "\n",
+    "        model.eval()\n",
+    "        total_val_loss = 0\n",
+    "        all_preds = []\n",
+    "        all_labels = []\n",
+    "\n",
+    "        with torch.no_grad():\n",
+    "            for batch_X, batch_y in val_loader:\n",
+    "                batch_X, batch_y = batch_X.to(device), batch_y.to(device)\n",
+    "                outputs = model(batch_X)\n",
+    "                loss = criterion(outputs, batch_y)\n",
+    "                total_val_loss += loss.item()\n",
+    "                \n",
+    "                _, predicted = torch.max(outputs.data, 1)\n",
+    "                all_preds.extend(predicted.cpu().numpy())\n",
+    "                all_labels.extend(batch_y.cpu().numpy())\n",
+    "        \n",
+    "        avg_val_loss = total_val_loss / len(val_loader)\n",
+    "        \n",
+    "        accuracy = accuracy_score(all_labels, all_preds)\n",
+    "        precision, recall, f1, _ = precision_recall_fscore_support(all_labels, all_preds, average='binary')\n",
+    "        \n",
+    "        history['val_loss'].append(avg_val_loss)\n",
+    "        history['val_accuracy'].append(accuracy)\n",
+    "        history['val_f1'].append(f1)\n",
+    "\n",
+    "        epoch_time = time.time() - start_time\n",
+    "        print(f\"Эпоха {epoch+1}/{num_epochs} | Время: {epoch_time:.2f}с | Train Loss: {avg_train_loss:.4f} | \"\n",
+    "              f\"Val Loss: {avg_val_loss:.4f} | Val Acc: {accuracy:.4f} | Val F1: {f1:.4f}\")\n",
+    "\n",
+    "        if f1 > best_val_f1:\n",
+    "            best_val_f1 = f1\n",
+    "            torch.save(model.state_dict(), save_path)\n",
+    "            print(f\"  -> Модель сохранена, новый лучший Val F1: {best_val_f1:.4f}\")\n",
+    "            \n",
+    "    print(f\"--- Обучение модели {model_name} завершено ---\")\n",
+    "    return history\n",
+    "\n",
+    "def evaluate_on_test(model, test_loader, device, criterion):\n",
+    "    model.eval()\n",
+    "    total_test_loss = 0\n",
+    "    all_preds = []\n",
+    "    all_labels = []\n",
+    "\n",
+    "    with torch.no_grad():\n",
+    "        for batch_X, batch_y in test_loader:\n",
+    "            batch_X, batch_y = batch_X.to(device), batch_y.to(device)\n",
+    "            outputs = model(batch_X)\n",
+    "            loss = criterion(outputs, batch_y)\n",
+    "            total_test_loss += loss.item()\n",
+    "            \n",
+    "            _, predicted = torch.max(outputs.data, 1)\n",
+    "            all_preds.extend(predicted.cpu().numpy())\n",
+    "            all_labels.extend(batch_y.cpu().numpy())\n",
+    "            \n",
+    "    avg_test_loss = total_test_loss / len(test_loader)\n",
+    "        \n",
+    "    accuracy = accuracy_score(all_labels, all_preds)\n",
+    "    precision, recall, f1, _ = precision_recall_fscore_support(all_labels, all_preds, average='binary')\n",
+    "    \n",
+    "    return {'loss': avg_test_loss, 'accuracy': accuracy, 'precision': precision, 'recall': recall, 'f1_score': f1}"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "1be50523",
+   "metadata": {},
+   "source": [
+    "Создание даталоадера"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "cccc5bea",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def create_dataloader(X, y, batch_size, shuffle=True):\n",
+    "    X_tensor = torch.as_tensor(X, dtype=torch.long)\n",
+    "    y_tensor = torch.as_tensor(y, dtype=torch.long)\n",
+    "    dataset = TensorDataset(X_tensor, y_tensor)\n",
+    "    return DataLoader(dataset, batch_size=batch_size, shuffle=shuffle)\n",
+    "\n",
+    "train_loader = create_dataloader(X_train, y_train, BATCH_SIZE)\n",
+    "val_loader = create_dataloader(X_val, y_val, BATCH_SIZE, shuffle=False)\n",
+    "test_loader = create_dataloader(X_test, y_test, BATCH_SIZE, shuffle=False)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "4938b9f3",
+   "metadata": {},
+   "source": [
+    "Сравнения моделей\n",
+    "\n",
+    "Смотрим первые 5 эпох чтобы выбрать лучшую модель, с которой будем играться дальше"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "0244aafa",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "--- Начало обучения модели: CustomMamba на устройстве cuda ---\n",
+      "Эпоха 1/5 | Время: 337.85с | Train Loss: 0.6768 | Val Loss: 0.6168 | Val Acc: 0.6592 | Val F1: 0.5937\n",
+      "  -> Модель сохранена, новый лучший Val F1: 0.5937\n",
+      "Эпоха 2/5 | Время: 345.54с | Train Loss: 0.5266 | Val Loss: 0.4964 | Val Acc: 0.7580 | Val F1: 0.7552\n",
+      "  -> Модель сохранена, новый лучший Val F1: 0.7552\n",
+      "Эпоха 3/5 | Время: 343.23с | Train Loss: 0.4329 | Val Loss: 0.4586 | Val Acc: 0.7812 | Val F1: 0.7830\n",
+      "  -> Модель сохранена, новый лучший Val F1: 0.7830\n",
+      "Эпоха 4/5 | Время: 342.62с | Train Loss: 0.3730 | Val Loss: 0.4596 | Val Acc: 0.7928 | Val F1: 0.8056\n",
+      "  -> Модель сохранена, новый лучший Val F1: 0.8056\n",
+      "Эпоха 5/5 | Время: 340.21с | Train Loss: 0.3127 | Val Loss: 0.4469 | Val Acc: 0.7996 | Val F1: 0.8124\n",
+      "  -> Модель сохранена, новый лучший Val F1: 0.8124\n",
+      "--- Обучение модели CustomMamba завершено ---\n",
+      "--- Оценка лучшей модели CustomMamba на тестовых данных ---\n",
+      "Результаты для CustomMamba: {'loss': 0.44949763529239944, 'accuracy': 0.8062, 'precision': 0.778874269005848, 'recall': 0.8541082164328657, 'f1_score': 0.8147581724335691}\n",
+      "------------------------------------------------------------\n",
+      "--- Начало обучения модели: Lib_LSTM на устройстве cuda ---\n",
+      "Эпоха 1/5 | Время: 5.09с | Train Loss: 0.6930 | Val Loss: 0.6922 | Val Acc: 0.5170 | Val F1: 0.4221\n",
+      "  -> Модель сохранена, новый лучший Val F1: 0.4221\n",
+      "Эпоха 2/5 | Время: 5.03с | Train Loss: 0.6911 | Val Loss: 0.6899 | Val Acc: 0.5324 | Val F1: 0.4880\n",
+      "  -> Модель сохранена, новый лучший Val F1: 0.4880\n",
+      "Эпоха 3/5 | Время: 5.03с | Train Loss: 0.6864 | Val Loss: 0.6837 | Val Acc: 0.5530 | Val F1: 0.5605\n",
+      "  -> Модель сохранена, новый лучший Val F1: 0.5605\n",
+      "Эпоха 4/5 | Время: 5.03с | Train Loss: 0.6740 | Val Loss: 0.6589 | Val Acc: 0.6096 | Val F1: 0.6208\n",
+      "  -> Модель сохранена, новый лучший Val F1: 0.6208\n",
+      "Эпоха 5/5 | Время: 5.04с | Train Loss: 0.6489 | Val Loss: 0.6501 | Val Acc: 0.6498 | Val F1: 0.6460\n",
+      "  -> Модель сохранена, новый лучший Val F1: 0.6460\n",
+      "--- Обучение модели Lib_LSTM завершено ---\n",
+      "--- Оценка лучшей модели Lib_LSTM на тестовых данных ---\n",
+      "Результаты для Lib_LSTM: {'loss': 0.6330309821541902, 'accuracy': 0.6644, 'precision': 0.6724356268467708, 'recall': 0.6384769539078157, 'f1_score': 0.655016447368421}\n",
+      "------------------------------------------------------------\n",
+      "--- Начало обучения модели: Lib_Transformer на устройстве cuda ---\n",
+      "Эпоха 1/5 | Время: 4.28с | Train Loss: 0.6712 | Val Loss: 0.6773 | Val Acc: 0.5292 | Val F1: 0.1729\n",
+      "  -> Модель сохранена, новый лучший Val F1: 0.1729\n",
+      "Эпоха 2/5 | Время: 4.14с | Train Loss: 0.5753 | Val Loss: 0.5631 | Val Acc: 0.7308 | Val F1: 0.7701\n",
+      "  -> Модель сохранена, новый лучший Val F1: 0.7701\n",
+      "Эпоха 3/5 | Время: 4.17с | Train Loss: 0.4836 | Val Loss: 0.5106 | Val Acc: 0.7622 | Val F1: 0.7830\n",
+      "  -> Модель сохранена, новый лучший Val F1: 0.7830\n",
+      "Эпоха 4/5 | Время: 4.16с | Train Loss: 0.4399 | Val Loss: 0.4880 | Val Acc: 0.7814 | Val F1: 0.7763\n",
+      "Эпоха 5/5 | Время: 4.13с | Train Loss: 0.4014 | Val Loss: 0.4611 | Val Acc: 0.7946 | Val F1: 0.8078\n",
+      "  -> Модель сохранена, новый лучший Val F1: 0.8078\n",
+      "--- Обучение модели Lib_Transformer завершено ---\n",
+      "--- Оценка лучшей модели Lib_Transformer на тестовых данных ---\n",
+      "Результаты для Lib_Transformer: {'loss': 0.4671077333438169, 'accuracy': 0.7938, 'precision': 0.7661818181818182, 'recall': 0.8444889779559118, 'f1_score': 0.8034318398474738}\n",
+      "------------------------------------------------------------\n",
+      "\n",
+      "\n",
+      "--- Итоговая таблица сравнения моделей на тестовых данных ---\n",
+      "                     loss  accuracy  precision    recall  f1_score\n",
+      "CustomMamba      0.449498    0.8062   0.778874  0.854108  0.814758\n",
+      "Lib_LSTM         0.633031    0.6644   0.672436  0.638477  0.655016\n",
+      "Lib_Transformer  0.467108    0.7938   0.766182  0.844489  0.803432\n"
+     ]
+    }
+   ],
+   "source": [
+    "model_configs = {\n",
+    "    \"CustomMamba\": {\n",
+    "        \"class\": CustomMambaClassifier,\n",
+    "        \"params\": {'vocab_size': VOCAB_SIZE, 'd_model': EMBEDDING_DIM, 'd_state': 8, \n",
+    "                   'd_conv': 4, 'num_layers': 2, 'num_classes': NUM_CLASSES},\n",
+    "    },\n",
+    "\n",
+    "    \"Lib_LSTM\": {\n",
+    "        \"class\": LSTMClassifier,\n",
+    "        \"params\": {'vocab_size': VOCAB_SIZE, 'embed_dim': EMBEDDING_DIM, 'hidden_dim': 128, \n",
+    "                   'num_layers': 2, 'num_classes': NUM_CLASSES, 'dropout': 0.5},\n",
+    "    },\n",
+    "    \"Lib_Transformer\": {\n",
+    "        \"class\": TransformerClassifier,\n",
+    "        \"params\": {'vocab_size': VOCAB_SIZE, 'embed_dim': EMBEDDING_DIM, 'num_heads': 4, \n",
+    "                   'num_layers': 2, 'num_classes': NUM_CLASSES, 'max_seq_len': MAX_SEQ_LEN},\n",
+    "    },\n",
+    "}\n",
+    "\n",
+    "results = {}\n",
+    "for model_name, config in model_configs.items():\n",
+    "\n",
+    "    model_path = os.path.join(SAVE_DIR, f\"best_model_{model_name.lower()}.pth\")\n",
+    "    \n",
+    "    model = config['class'](**config['params']).to(DEVICE)\n",
+    "    optimizer = optim.Adam(model.parameters(), lr=LEARNING_RATE)\n",
+    "    criterion = nn.CrossEntropyLoss()\n",
+    "    \n",
+    "    train_and_evaluate(\n",
+    "        model=model, train_loader=train_loader, val_loader=val_loader,\n",
+    "        optimizer=optimizer, criterion=criterion, num_epochs=NUM_EPOCHS,\n",
+    "        device=DEVICE, model_name=model_name, save_path=model_path\n",
+    "    )\n",
+    "    \n",
+    "    print(f\"--- Оценка лучшей модели {model_name} на тестовых данных ---\")\n",
+    "    if os.path.exists(model_path):\n",
+    "        best_model = config['class'](**config['params']).to(DEVICE)\n",
+    "        best_model.load_state_dict(torch.load(model_path))\n",
+    "        test_metrics = evaluate_on_test(best_model, test_loader, DEVICE, criterion)\n",
+    "        results[model_name] = test_metrics\n",
+    "        print(f\"Результаты для {model_name}: {test_metrics}\")\n",
+    "    else:\n",
+    "        print(f\"Файл лучшей модели для {model_name} не найден. Пропускаем оценку.\")\n",
+    "\n",
+    "    print(\"-\" * 60)\n",
+    "    \n",
+    "if results:\n",
+    "    results_df = pd.DataFrame(results).T\n",
+    "    print(\"\\n\\n--- Итоговая таблица сравнения моделей на тестовых данных ---\")\n",
+    "    print(results_df.to_string())\n",
+    "else:\n",
+    "    print(\"Не удалось получить результаты ни для одной модели.\")\n"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "404db766",
+   "metadata": {},
+   "source": [
+    "По результатам видно, что LSTM и Transformer обучаются быстро, но Mamba обучается хорошо. Дальнейшие шаги следующие \n",
+    " - Пробуем сравнить Transformer и Mamba более детально, играем с гиперпараметрами\n",
+    " - LSTM проигрывает Transformer и по времени, и по качеству, поэтому в следующий этап сравнения не пойдет\n",
+    " \n",
+    "Цель следующего иследования: найти идеальный баланс между временем и качеством. Поставим больше эпох, меньший lr для обоих моделей, увеличим датасет (в текущем сетапе было 10'000 сэмплов на трейн и по 5'000 на валидацию/тест)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "monkey-coding-dl-project-rj23F0vJ-py3.12",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.12.5"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

notebooks/train.ipynb ADDED Viewed

	@@ -0,0 +1,219 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import warnings\n",
+    "for warn in [UserWarning, FutureWarning]: warnings.filterwarnings(\"ignore\", category = warn)\n",
+    "\n",
+    "import os\n",
+    "import time\n",
+    "import json\n",
+    "import torch\n",
+    "import torch.nn as nn\n",
+    "import torch.optim as optim\n",
+    "\n",
+    "from torch.utils.data import DataLoader, TensorDataset\n",
+    "\n",
+    "# Импортируем классы моделей из нашего файла\n",
+    "from src.models.models import TransformerClassifier, MambaClassifier, LSTMClassifier\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "MODEL_TO_TRAIN = 'Transformer' \n",
+    "\n",
+    "# Гиперпараметры данных и модели\n",
+    "MAX_SEQ_LEN = 300\n",
+    "EMBEDDING_DIM = 128\n",
+    "BATCH_SIZE = 32\n",
+    "LEARNING_RATE = 1e-4\n",
+    "NUM_EPOCHS = 5 # Увеличим для лучшего результата\n",
+    "\n",
+    "# Пути для сохранения артефактов\n",
+    "SAVE_DIR = \"../pretrained\"\n",
+    "os.makedirs(SAVE_DIR, exist_ok=True)\n",
+    "MODEL_SAVE_PATH = os.path.join(SAVE_DIR, \"best_model.pth\")\n",
+    "VOCAB_SAVE_PATH = os.path.join(SAVE_DIR, \"vocab.json\")\n",
+    "CONFIG_SAVE_PATH = os.path.join(SAVE_DIR, \"config.json\")\n",
+    "DEVICE = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from src.data_utils.dataset_generator import DatasetGenerator\n",
+    "from src.data_utils.dataset_params import DatasetName\n",
+    "\n",
+    "generator = DatasetGenerator(DatasetName.IMDB)\n",
+    "(X_train, y_train), (X_val, y_val), (X_test, y_test) = generator.generate_dataset()\n",
+    "X_train, y_train, X_val, y_val, X_test, y_test = X_train[:1000], y_train[:1000], X_val[:100], y_val[:100], X_test[:100], y_test[:100]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def create_dataloader(X, y, batch_size):\n",
+    "    dataset = TensorDataset(torch.tensor(X, dtype=torch.long), torch.tensor(y, dtype=torch.long))\n",
+    "    return DataLoader(dataset, batch_size=batch_size, shuffle=True)\n",
+    "train_loader = create_dataloader(X_train, y_train, BATCH_SIZE)\n",
+    "val_loader = create_dataloader(X_val, y_val, BATCH_SIZE)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model_params = {}\n",
+    "if MODEL_TO_TRAIN == 'Transformer':\n",
+    "    model_params = {'vocab_size': len(generator.vocab), 'embed_dim': EMBEDDING_DIM, 'num_heads': 4, 'num_layers': 2, 'num_classes': 2, 'max_seq_len': MAX_SEQ_LEN}\n",
+    "    model = TransformerClassifier(**model_params)\n",
+    "elif MODEL_TO_TRAIN == 'Mamba':\n",
+    "    model_params = {'vocab_size': len(generator.vocab), 'embed_dim': EMBEDDING_DIM, 'mamba_d_state': 16, 'mamba_d_conv': 4, 'mamba_expand': 2, 'num_classes': 2}\n",
+    "    model = MambaClassifier(**model_params)\n",
+    "elif MODEL_TO_TRAIN == 'LSTM':\n",
+    "    model_params = {'vocab_size': len(generator.vocab), 'embed_dim': EMBEDDING_DIM, 'hidden_dim': 256, 'num_layers': 2, 'num_classes': 2, 'dropout': 0.5}\n",
+    "    model = LSTMClassifier(**model_params)\n",
+    "else:\n",
+    "    raise ValueError(\"Неизвестный тип модели. Выберите 'Transformer', 'Mamba' или 'LSTM'\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "--- Начало обучения модели: Transformer ---\n",
+      "Эпоха 1/5 | Время: 17.06с | Train Loss: 0.7023 | Val Loss: 0.7095 | Val Acc: 0.4000\n",
+      "  -> Модель сохранена, новая лучшая Val Loss: 0.7095\n",
+      "Эпоха 2/5 | Время: 16.40с | Train Loss: 0.6682 | Val Loss: 0.6937 | Val Acc: 0.4800\n",
+      "  -> Модель сохранена, новая лучшая Val Loss: 0.6937\n",
+      "Эпоха 3/5 | Время: 16.13с | Train Loss: 0.6471 | Val Loss: 0.7075 | Val Acc: 0.4100\n",
+      "Эпоха 4/5 | Время: 16.36с | Train Loss: 0.6283 | Val Loss: 0.6917 | Val Acc: 0.5300\n",
+      "  -> Модель сохранена, новая лучшая Val Loss: 0.6917\n",
+      "Эпоха 5/5 | Время: 16.39с | Train Loss: 0.6050 | Val Loss: 0.6871 | Val Acc: 0.5300\n",
+      "  -> Модель сохранена, новая лучшая Val Loss: 0.6871\n"
+     ]
+    }
+   ],
+   "source": [
+    "model.to(DEVICE)\n",
+    "optimizer = optim.Adam(model.parameters(), lr=LEARNING_RATE)\n",
+    "criterion = nn.CrossEntropyLoss()\n",
+    "\n",
+    "best_val_loss = float('inf')\n",
+    "print(f\"--- Начало обучения модели: {MODEL_TO_TRAIN} ---\")\n",
+    "for epoch in range(NUM_EPOCHS):\n",
+    "    model.train()\n",
+    "    start_time = time.time()\n",
+    "    total_train_loss = 0\n",
+    "\n",
+    "    for batch_X, batch_y in train_loader:\n",
+    "        batch_X, batch_y = batch_X.to(DEVICE), batch_y.to(DEVICE)\n",
+    "        optimizer.zero_grad()\n",
+    "        outputs = model(batch_X)\n",
+    "        loss = criterion(outputs, batch_y)\n",
+    "        loss.backward()\n",
+    "        optimizer.step()\n",
+    "        total_train_loss += loss.item()\n",
+    "    avg_train_loss = total_train_loss / len(train_loader)\n",
+    "    \n",
+    "    model.eval()\n",
+    "    total_val_loss, correct_val, total_val = 0, 0, 0\n",
+    "    with torch.no_grad():\n",
+    "        for batch_X, batch_y in val_loader:\n",
+    "            batch_X, batch_y = batch_X.to(DEVICE), batch_y.to(DEVICE)\n",
+    "            outputs = model(batch_X)\n",
+    "            loss = criterion(outputs, batch_y)\n",
+    "            total_val_loss += loss.item()\n",
+    "            _, predicted = torch.max(outputs.data, 1)\n",
+    "            total_val += batch_y.size(0)\n",
+    "            correct_val += (predicted == batch_y).sum().item()\n",
+    "    avg_val_loss = total_val_loss / len(val_loader)\n",
+    "    val_accuracy = correct_val / total_val\n",
+    "\n",
+    "    epoch_time = time.time() - start_time\n",
+    "    print(f\"Эпоха {epoch+1}/{NUM_EPOCHS} | Время: {epoch_time:.2f}с | Train Loss: {avg_train_loss:.4f} | Val Loss: {avg_val_loss:.4f} | Val Acc: {val_accuracy:.4f}\")\n",
+    "    \n",
+    "    if avg_val_loss < best_val_loss:\n",
+    "        best_val_loss = avg_val_loss\n",
+    "        torch.save(model.state_dict(), MODEL_SAVE_PATH)\n",
+    "        print(f\"  -> Модель сохранена, новая лучшая Val Loss: {best_val_loss:.4f}\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Конфигурация модели сохранена в: ../pretrained/config.json\n"
+     ]
+    }
+   ],
+   "source": [
+    "with open(VOCAB_SAVE_PATH, 'w', encoding='utf-8') as f:\n",
+    "    json.dump(generator.vocab, f, ensure_ascii=False, indent=4)\n",
+    "\n",
+    "config = {\n",
+    "    \"model_type\": MODEL_TO_TRAIN,\n",
+    "    \"max_seq_len\": MAX_SEQ_LEN,\n",
+    "    \"model_params\": model_params,\n",
+    "}\n",
+    "with open(CONFIG_SAVE_PATH, 'w', encoding='utf-8') as f:\n",
+    "    json.dump(config, f, ensure_ascii=False, indent=4)\n",
+    "print(f\"Конфигурация модели сохранена в: {CONFIG_SAVE_PATH}\")\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "monkey-coding-dl-project-OWiM8ypK-py3.12",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.12.3"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

poetry.lock ADDED Viewed

The diff for this file is too large to render. See raw diff

pretrained/best_model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7636cf4c7205b64df4b91b2a23620d443de468a91211e074760e64adb24751ba
+size 37445685

pretrained/config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "model_type": "Transformer",
+    "max_seq_len": 300,
+    "model_params": {
+        "vocab_size": 69715,
+        "embed_dim": 128,
+        "num_heads": 4,
+        "num_layers": 2,
+        "num_classes": 2,
+        "max_seq_len": 300
+    }
+}

pretrained/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

pyproject.toml ADDED Viewed

	@@ -0,0 +1,32 @@

+[tool.poetry]
+name = "monkey-coding-dl-project"
+version = "0.1.0"
+description = "HSE DL spring 2025 project"
+authors = [
+    "Michael Litvinov",
+    "Kamil Gabidullin",
+]
+readme = "README.md"
+packages = [
+    { include = "src" },
+]
+[tool.poetry.dependencies]
+python = "^3.12"
+datasets = "3.6.0"
+matplotlib = "3.10.3"
+nltk = "3.9.1"
+numpy = "2.3.0"
+pandas = "2.3.0"
+scikit-learn = "1.7.0"
+seaborn = "0.13.2"
+torch = "2.7.1"
+transformers = "4.52.4"
+jupyter = "^1.1.1"
+ipykernel = "^6.29.5"
+gradio = "^5.33.2"
+[build-system]
+requires = ["poetry-core"]
+build-backend = "poetry.core.masonry.api"

requirements.txt ADDED Viewed

	@@ -0,0 +1,123 @@

+argcomplete==3.1.4
+attrs==23.2.0
+Automat==22.10.0
+Babel==2.10.3
+bcc==0.29.1
+bcrypt==3.2.2
+blinker==1.7.0
+boto3==1.34.46
+botocore==1.34.46
+build==1.0.3
+CacheControl==0.14.0
+certifi==2023.11.17
+cffi==1.17.1
+chardet==5.2.0
+cleo==2.1.0
+click==8.1.6
+cloud-init==24.4.1
+colorama==0.4.6
+command-not-found==0.3
+configobj==5.0.8
+constantly==23.10.4
+cpplint==2.0.0
+crashtest==0.4.1
+cryptography==41.0.7
+dbus-python==1.3.2
+distlib==0.3.9
+distro==1.9.0
+distro-info==1.7+build1
+docopt==0.6.2
+dulwich==0.21.6
+fastimport==0.9.14
+fastjsonschema==2.19.0
+filelock==3.17.0
+gyp==0.1
+h11==0.16.0
+httplib2==0.20.4
+hyperlink==21.0.0
+idna==3.6
+importlib-metadata==4.12.0
+incremental==22.10.0
+iniconfig==2.0.0
+installer==0.7.0
+jaraco.classes==3.2.1
+jeepney==0.8.0
+Jinja2==3.1.2
+jmespath==1.0.1
+jsonpatch==1.32
+jsonpointer==2.0
+jsonschema==4.10.3
+keyring==24.3.1
+launchpadlib==1.11.0
+lazr.restfulclient==0.14.6
+lazr.uri==1.0.6
+lockfile==0.12.2
+markdown-it-py==3.0.0
+MarkupSafe==2.1.5
+mdurl==0.1.2
+more-itertools==10.2.0
+msgpack==1.0.3
+netaddr==0.8.0
+netifaces==0.11.0
+numpy==2.2.2
+oauthlib==3.2.2
+packaging==24.0
+pexpect==4.9.0
+pipenv==2024.4.1
+pipx==1.4.3
+pkginfo==1.9.6
+platformdirs==4.3.6
+pluggy==1.5.0
+poetry-core==1.9.0
+psutil==5.9.8
+ptyprocess==0.7.0
+pyasn1==0.4.8
+pyasn1-modules==0.2.8
+pycparser==2.22
+Pygments==2.17.2
+PyGObject==3.48.2
+PyHamcrest==2.1.0
+PyJWT==2.7.0
+pylev==1.4.0
+pyOpenSSL==23.2.0
+pyparsing==3.1.1
+pyproject_hooks==1.0.0
+pyrsistent==0.20.0
+pyserial==3.5
+pytest==8.3.4
+python-apt==2.7.7+ubuntu4
+python-dateutil==2.8.2
+python-debian==0.1.49+ubuntu2
+python-magic==0.4.27
+pytz==2024.1
+PyYAML==6.0.1
+requests==2.31.0
+requests-toolbelt==1.0.0
+rich==13.7.1
+s3transfer==0.10.1
+SecretStorage==3.3.3
+service-identity==24.1.0
+setuptools==68.1.2
+shellingham==1.5.4
+six==1.16.0
+sniffio==1.3.1
+sos==4.8.2
+ssh-import-id==5.11
+systemd-python==235
+toml==0.10.2
+tomlkit==0.12.4
+trove-classifiers==2024.1.31
+Twisted==24.3.0
+typing_extensions==4.14.0
+ubuntu-drivers-common==0.0.0
+ubuntu-pro-client==8001
+ufw==0.36.2
+unattended-upgrades==0.1
+urllib3==2.0.7
+userpath==1.9.1
+virtualenv==20.29.2
+wadllib==1.3.6
+wheel==0.42.0
+xkit==0.0.0
+zipp==1.0.0
+zope.interface==6.1

src/app/__init__.py ADDED Viewed

File without changes

src/app/app.py ADDED Viewed

	@@ -0,0 +1,103 @@

+import gradio as gr
+import json
+import torch
+from typing import Optional
+from src.app.config import AppConfig
+from src.data_utils.config import TextProcessorConfig
+from src.data_utils.text_processor import TextProcessor
+class App:
+    def __init__(self, config: AppConfig):
+        self.config = config
+        self.model: Optional[torch.nn.Module] = None
+        self.text_processor: Optional[TextProcessor] = None
+        self._load_model()
+        self._load_text_processor()
+    def _load_model(self):
+        """
+        Load model with params from config
+        """
+        with open(self.config.config_path, 'r') as f:
+            config = json.load(f)
+        model_type = config['model_type']
+        model_classes = {
+            'Transformer': 'TransformerClassifier',
+            'LSTM': 'LSTMClassifier',
+            'Mamba': 'MambaClassifier'
+        }
+        if model_type not in model_classes:
+            raise ValueError(f"Unknown model type: {model_type}")
+        module = __import__(f'src.models.models', fromlist=[model_classes[model_type]])
+        model_class = getattr(module, model_classes[model_type])
+        self.model = model_class(**config['model_params'])
+        self.model.load_state_dict(torch.load(self.config.model_path))
+        self.model.eval()
+    def _load_text_processor(self):
+        with open(self.config.vocab_path, 'r') as f:
+            vocab = json.load(f)
+        processor_config = TextProcessorConfig(
+            max_seq_len=self.config.max_seq_len,
+            lowercase=True,
+            remove_punct=False
+        )
+        self.text_processor = TextProcessor(
+            vocab=vocab,
+            config=processor_config
+        )
+    def predict(self, text: str) -> dict:
+        """
+        Evaluating the tone of the text
+        """
+        if not text.strip():
+            return {"Negative": 0.5, "Positive": 0.5}
+        input_tensor = self.text_processor.text_to_tensor(text).unsqueeze(0)
+        with torch.no_grad():
+            output = self.model(input_tensor)
+            proba = torch.softmax(output, dim=1)[0].tolist()
+        return {"Negative": proba[0], "Positive": proba[1]}
+    def launch(self):
+        """
+        Launch interface
+        """
+        interface = gr.Interface(
+            fn=self.predict,
+            inputs=gr.Textbox(label="Enter your text"),
+            outputs=gr.Label(label="Result"),
+            title="Evaluating the tone of the text",
+            examples=["Very good! Increadble! So fantastic",
+                    "Thw worst thing in the world!"]
+        )
+        if self.config.local:
+            interface.launch(
+                server_name=self.config.host,
+                server_port=self.config.port
+            )
+        else:
+            interface.launch(
+                share=True
+            )

src/app/config.py ADDED Viewed

	@@ -0,0 +1,39 @@

+import yaml
+from dataclasses import dataclass
+@dataclass
+class AppConfig:
+    model_path: str
+    vocab_path: str
+    config_path: str
+    max_seq_len: int = 300
+    local: bool = True
+    host: str = "0.0.0.0"
+    port: int = 7860
+    @classmethod
+    def from_yaml(cls, config_path: str) -> 'AppConfig':
+        """
+        AppConfig from path string
+        Args:
+            config_path: path string
+        Returns:
+            AppConfig object
+        """
+        with open(config_path, 'r') as f:
+            config_data = yaml.safe_load(f)
+        return cls(
+            model_path=config_data['model_path'],
+            vocab_path=config_data['vocab_path'],
+            config_path=config_data['config_path'],
+            max_seq_len=int(config_data['max_seq_len']),
+            local=config_data.get('server', {}).get('local', True),
+            host=config_data.get('server', {}).get('host', "0.0.0.0"),
+            port=config_data.get('server', {}).get('port', 7860)
+        )

src/app/model_utils/factory.py ADDED Viewed

	@@ -0,0 +1,51 @@

+import torch
+from pathlib import Path
+from typing import Dict, Any, Optional
+from src.models.models import TransformerClassifier, MambaClassifier, LSTMClassifier
+class ModelFactory:
+    """
+    Factory class for creating and loading models
+    """
+    @staticmethod
+    def create_model(
+        model_type: str,
+        model_params: Dict[str, Any],
+        state_dict_path: Optional[Path] = None
+    ) -> torch.nn.Module:
+        """
+        Create and load a model from configuration
+        Args:
+            model_type: Type of model ('Transformer', 'Mamba', 'LSTM')
+            model_params: Dictionary of model parameters
+            state_dict_path: Path to saved state dictionary
+        Returns:
+            Initialized PyTorch model
+        Raises:
+            ValueError: If model_type is unknown
+        """
+        model_classes = {
+            "Transformer": TransformerClassifier,
+            "Mamba": MambaClassifier,
+            "LSTM": LSTMClassifier
+        }
+        if model_type not in model_classes:
+            raise ValueError(f"Unknown model type: {model_type}")
+        model = model_classes[model_type](**model_params)
+        if state_dict_path:
+            state_dict = torch.load(state_dict_path, map_location="cpu")
+            model.load_state_dict(state_dict)
+        model.eval()
+        return model

src/app/model_utils/manager.py ADDED Viewed

	@@ -0,0 +1,72 @@

+import json
+import torch
+from pathlib import Path
+from typing import Dict, Any
+from src.app.model_utils.factory import ModelFactory
+class ModelManager:
+    """
+    Manages model loading and inference operations
+    Args:
+        model_dir: Directory containing model artifacts
+    """
+    def __init__(self, model_dir: str = "../pretrained") -> None:
+        self.model_dir = Path(model_dir)
+        self.loaded_models: Dict[str, Any] = {}
+        self._load_model_artifacts()
+    def _load_model_artifacts(self) -> None:
+        """
+        Load model configuration and vocabulary
+        """
+        with open(self.model_dir / "config.json", "r") as f:
+            self.config = json.load(f)
+        with open(self.model_dir / "vocab.json", "r") as f:
+            self.vocab = json.load(f)
+        self.idx_to_label = {0: "Negative", 1: "Positive"}
+    def get_model(self) -> torch.nn.Module:
+        """
+        Get the loaded model (cached for performance)
+        Returns:
+            Loaded PyTorch model in evaluation mode
+        """
+        model_type = self.config["model_type"]
+        if model_type not in self.loaded_models:
+            model = ModelFactory.create_model(
+                model_type=model_type,
+                model_params=self.config["model_params"],
+                state_dict_path=self.model_dir / "best_model.pth"
+            )
+            self.loaded_models[model_type] = model
+        return self.loaded_models[model_type]
+    def get_vocab(self) -> Dict[str, int]:
+        """
+        Get vocabulary mapping
+        """
+        return self.vocab
+    def get_config(self) -> Dict[str, Any]:
+        """
+        Get model configuration
+        """
+        return self.config

src/data_utils/__init__.py ADDED Viewed

File without changes

src/data_utils/config.py ADDED Viewed

	@@ -0,0 +1,58 @@

+from dataclasses import dataclass
+@dataclass
+class DatasetConfig:
+    """
+    Configuration class for dataset generation parameters
+    Attributes:
+        embedding_dim: Dimension for embedding layer output
+        train_size: Number of samples in training set
+        val_size: Number of samples in validation set
+        test_size: Number of samples in test set
+        random_state: Random seed for reproducibility
+        min_word_freq: Minimum word frequency to include in vocabulary
+        load_from_disk: Load dataset from local dir. If false download from huggin face
+        path_to_data: Path to local dataset data
+        max_seq_len: Maximum sequence length (will be padded/truncated to this)
+        lowercase: Whether to convert text to lowercase
+        remove_punct: Whether to remove punctuation
+        pad_token: Padding token
+        unk_token: Unknown token
+    """
+    embedding_dim: int = 64
+    train_size: int = 10000
+    val_size: int = 5000
+    test_size: int = 5000
+    random_state: int = 42
+    min_word_freq: int = 1
+    load_from_disk: bool = False
+    path_to_data: str = "./datasets"
+    max_seq_len: int = 300
+    lowercase: bool = True
+    remove_punct: bool = False
+    pad_token: str = "<PAD>"
+    unk_token: str = "<UNK>"
+@dataclass
+class TextProcessorConfig:
+    """
+    Configuration class for text processor parameters (params should be equal dataset config)
+    Attributes:
+        max_seq_len: Maximum sequence length (will be padded/truncated to this)
+        lowercase: Whether to convert text to lowercase
+        remove_punct: Whether to remove punctuation
+        pad_token: Padding token
+        unk_token: Unknown token
+    """
+    max_seq_len: int = 300
+    lowercase: bool = True
+    remove_punct: bool = False
+    pad_token: str = "<PAD>"
+    unk_token: str = "<UNK>"

src/data_utils/dataset_generator.py ADDED Viewed

	@@ -0,0 +1,177 @@

+from collections import Counter
+from typing import Dict, Tuple, List
+import pandas as pd
+import torch
+from datasets import load_dataset, load_from_disk
+from sklearn.model_selection import train_test_split
+import src.data_utils.dataset_params as dataset_params
+from src.data_utils.config import DatasetConfig, TextProcessorConfig
+from src.data_utils.text_processor import TextProcessor
+class DatasetGenerator:
+    """
+    Main dataset generator class
+    Provides methods to load, build vocabulary, convert text datasets
+    into tensor format suitable for deep learning models.
+    Args:
+        dataset_name: Name of dataset from DatasetName enum
+        config: Configuration object with preprocessing parameters
+        device: Torch device to place tensors on (cpu/cuda)
+    """
+    def __init__(
+        self,
+        dataset_name: dataset_params.DatasetName,
+        config: DatasetConfig = DatasetConfig(),
+        device: torch.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    ):
+        self.dataset_params = dataset_params.get_dataset_params_by_name(dataset_name=dataset_name)
+        self.config = config
+        self.device = device
+        self.text_processor = TextProcessor(
+            vocab=None,
+            config=TextProcessorConfig(
+                max_seq_len=self.config.max_seq_len,
+                lowercase=self.config.lowercase,
+                remove_punct=self.config.remove_punct,
+                pad_token=self.config.pad_token,
+                unk_token=self.config.unk_token,
+            )
+        )
+        self.vocab = None
+        self.id2word = None
+        self.embedding_layer = None
+    def load_raw_data(self) -> Tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame]:
+        """
+        Load raw dataset from source
+        Returns:
+            Tuple of (train_df, val_df, test_df) DataFrames
+        """
+        if self.config.load_from_disk:
+            dataset = load_from_disk(f"{self.config.path_to_data}/{self.dataset_params.local_path}")
+        else:
+            dataset = load_dataset(self.dataset_params.hugging_face_name)
+        train_df = pd.DataFrame(dataset["train"])
+        test_df = pd.DataFrame(dataset["test"])
+        val_df, test_df = train_test_split(
+            test_df,
+            test_size=0.5,
+            random_state=self.config.random_state,
+            stratify=test_df[self.dataset_params.label_col_name]
+        )
+        # Sample configured sizes
+        train_df = train_df.sample(n=self.config.train_size, random_state=self.config.random_state)
+        val_df = val_df.sample(n=self.config.val_size, random_state=self.config.random_state)
+        test_df = test_df.sample(n=self.config.test_size, random_state=self.config.random_state)
+        return train_df, val_df, test_df
+    def build_vocabulary(self, tokenized_texts: List[List[str]]) -> Tuple[Dict[str, int], Dict[int, str]]:
+        """
+        Build vocabulary from tokenized texts
+        Args:
+            tokenized_texts: List of tokenized texts
+        Returns:
+            Tuple of (word_to_id, id_to_word) mappings
+        """
+        all_tokens = [token for tokens in tokenized_texts for token in tokens]
+        word_counts = Counter(all_tokens)
+        filtered_words = [word for word, count in word_counts.items()
+                         if count >= self.config.min_word_freq]
+        word_to_id = {self.config.pad_token: 0, self.config.unk_token: 1}
+        id_to_word = {0: self.config.pad_token, 1: self.config.unk_token}
+        for idx, word in enumerate(filtered_words, start=2):
+            word_to_id[word] = idx
+            id_to_word[idx] = word
+        self.text_processor.vocab = word_to_id
+        return word_to_id, id_to_word
+    def generate_dataset(self) -> Tuple[
+        Tuple[torch.Tensor, torch.Tensor],
+        Tuple[torch.Tensor, torch.Tensor],
+        Tuple[torch.Tensor, torch.Tensor]
+    ]:
+        """
+        Main method to generate the full dataset
+        Returns:
+            Tuple containing:
+            - (train_features, train_labels)
+            - (val_features, val_labels)
+            - (test_features, test_labels)
+            - embedding_layer
+        """
+        train_df, val_df, test_df = self.load_raw_data()
+        train_texts = train_df[self.dataset_params.content_col_name].tolist()
+        train_tokens = [self.text_processor.preprocess_text(text) for text in train_texts]
+        self.vocab, self.id2word = self.build_vocabulary(train_tokens)
+        X_train = torch.stack([self.text_processor.text_to_tensor(text) for text in train_texts])
+        val_texts = val_df[self.dataset_params.content_col_name].tolist()
+        X_val = torch.stack([self.text_processor.text_to_tensor(text) for text in val_texts])
+        test_texts = test_df[self.dataset_params.content_col_name].tolist()
+        X_test = torch.stack([self.text_processor.text_to_tensor(text) for text in test_texts])
+        y_train = torch.tensor(train_df[self.dataset_params.label_col_name].values, dtype=torch.long)
+        y_val = torch.tensor(val_df[self.dataset_params.label_col_name].values, dtype=torch.long)
+        y_test = torch.tensor(test_df[self.dataset_params.label_col_name].values, dtype=torch.long)
+        return (X_train, y_train), (X_val, y_val), (X_test, y_test)
+    def get_vocabulary(self) -> Tuple[Dict[str, int], Dict[int, str]]:
+        """
+        Get vocabulary mappings
+        Returns:
+            Tuple of (word_to_id, id_to_word) dictionaries
+        """
+        return self.vocab, self.id2word
+    def get_config(self) -> DatasetConfig:
+        """
+        Get current configuration
+        Returns:
+            DatasetConfig object
+        """
+        return self.config
+    def get_text_processor(self) -> TextProcessor:
+        """
+        Get the text processor for inference usage
+        Returns:
+            TextProcessor object
+        """
+        return self.text_processor

src/data_utils/dataset_params.py ADDED Viewed

	@@ -0,0 +1,53 @@

+import enum
+class DatasetName(enum.Enum):
+    """
+    Supported dataset names enumeration
+    """
+    IMDB = "imdb"
+    POLARITY = "polarity"
+class DatasetParams:
+    """
+    Abstarct class for dataset
+    """
+    hugging_face_name = ""
+    content_col_name = ""
+    label_col_name = ""
+    local_path = ""
+def get_dataset_params_by_name(dataset_name: DatasetName) -> DatasetParams:
+    if dataset_name == DatasetName.IMDB:
+        return ImbdParams()
+    if dataset_name == DatasetName.POLARITY:
+        return PolarityParams()
+    raise ValueError(f"Unsupported dataset: {dataset_name}")
+class ImbdParams(DatasetParams):
+    """
+    IMDB dataset params class
+    """
+    hugging_face_name = "stanfordnlp/imdb"
+    content_col_name = "text"
+    label_col_name = "label"
+    local_path = "imdb"
+class PolarityParams(DatasetParams):
+    """
+    POLARITY dataset params class
+    """
+    hugging_face_name = "fancyzhx/amazon_polarity"
+    content_col_name = "content"
+    label_col_name = "label"
+    local_path = "polarity"

src/data_utils/text_processor.py ADDED Viewed

	@@ -0,0 +1,75 @@

+from typing import List, Dict
+import nltk
+import torch
+from nltk.tokenize import word_tokenize
+from src.data_utils.config import TextProcessorConfig
+class TextProcessor:
+    """
+    Main text preprocessor class
+    Args:
+        vocab: Vocabulary dictionary
+        config: Configuration object
+    """
+    def __init__(self, vocab: Dict[str, int], config: TextProcessorConfig):
+        self.vocab = vocab
+        self.config = config
+        self._ensure_nltk_downloaded()
+    def _ensure_nltk_downloaded(self):
+        try:
+            word_tokenize("test")
+        except LookupError:
+            nltk.download("punkt")
+    def preprocess_text(self, text: str) -> List[str]:
+        """
+        Tokenize and preprocess single text string
+        Args:
+            text: Your text
+        Returns:
+            List of preprocessed tokens
+        """
+        if self.config.lowercase:
+            text = text.lower()
+        tokens = word_tokenize(text)
+        if self.config.remove_punct:
+            tokens = [t for t in tokens if t.isalpha()]
+        return tokens
+    def text_to_tensor(self, text: str) -> torch.Tensor:
+        """
+        Convert raw text to tensor
+        Args:
+            text: Your text
+        Returns:
+            Tensor of your text
+        """
+        tokens = self.preprocess_text(text)
+        ids = [self.vocab.get(token, self.vocab[self.config.unk_token]) for token in tokens]
+        # Pad or truncate
+        if len(ids) < self.config.max_seq_len:
+            ids = ids + [self.vocab[self.config.pad_token]] * (self.config.max_seq_len - len(ids))
+        else:
+            ids = ids[:self.config.max_seq_len]
+        return torch.tensor(ids, dtype=torch.long)

src/models/__init__.py ADDED Viewed

File without changes

src/models/models.py ADDED Viewed

	@@ -0,0 +1,137 @@

+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+class TransformerClassifier(nn.Module):
+    def __init__(self, vocab_size, embed_dim, num_heads, num_layers, num_classes, max_seq_len):
+        super(TransformerClassifier, self).__init__()
+        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0)
+        self.pos_encoder = nn.Parameter(torch.zeros(1, max_seq_len, embed_dim))
+        encoder_layers = nn.TransformerEncoderLayer(d_model=embed_dim, nhead=num_heads, batch_first=True, dim_feedforward=embed_dim*4)
+        self.transformer_encoder = nn.TransformerEncoder(encoder_layers, num_layers=num_layers)
+        self.fc = nn.Linear(embed_dim, num_classes)
+    def forward(self, x):
+        padding_mask = (x == 0)
+        x = self.embedding(x) + self.pos_encoder
+        x = self.transformer_encoder(x, src_key_padding_mask=padding_mask)
+        x = x.mean(dim=1)
+        x = self.fc(x)
+        return x
+class LSTMClassifier(nn.Module):
+    def __init__(self, vocab_size, embed_dim, hidden_dim, num_layers, num_classes, dropout):
+        super(LSTMClassifier, self).__init__()
+        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0)
+        self.lstm = nn.LSTM(
+            input_size=embed_dim, hidden_size=hidden_dim, num_layers=num_layers,
+            batch_first=True, bidirectional=True, dropout=dropout if num_layers > 1 else 0
+        )
+        self.fc = nn.Linear(hidden_dim * 2, num_classes)
+        self.dropout = nn.Dropout(dropout)
+    def forward(self, x):
+        embedded = self.dropout(self.embedding(x))
+        _, (hidden, cell) = self.lstm(embedded)
+        hidden_cat = torch.cat((hidden[-2,:,:], hidden[-1,:,:]), dim=1)
+        output = self.fc(self.dropout(hidden_cat))
+        return output
+class SimpleMambaBlock(nn.Module):
+    """
+    Логика: Проекция -> 1D Свертка -> Активация -> Селективный SSM -> Выходная проекция
+    """
+    def __init__(self, d_model, d_state, d_conv, expand=2):
+        super().__init__()
+        self.d_model = d_model
+        self.d_state = d_state
+        self.d_conv = d_conv
+        self.expand = expand
+        d_inner = int(self.expand * self.d_model)
+        self.in_proj = nn.Linear(d_model, d_inner * 2, bias=False)
+        self.conv1d = nn.Conv1d(
+            in_channels=d_inner, out_channels=d_inner,
+            kernel_size=d_conv, padding=d_conv - 1,
+            groups=d_inner, bias=True
+        )
+        self.x_proj = nn.Linear(d_inner, self.d_state + self.d_state + 1, bias=False)
+        self.dt_proj = nn.Linear(1, d_inner, bias=True)
+        A = torch.arange(1, d_state + 1, dtype=torch.float32).repeat(d_inner, 1)
+        self.A_log = nn.Parameter(torch.log(A))
+        self.D = nn.Parameter(torch.ones(d_inner))
+        self.out_proj = nn.Linear(d_inner, d_model, bias=False)
+    def forward(self, x):
+        B, L, D = x.shape
+        xz = self.in_proj(x)
+        x, z = xz.chunk(2, dim=-1)
+        x = x.transpose(1, 2)
+        x = self.conv1d(x)[:, :, :L]
+        x = x.transpose(1, 2)
+        x = F.silu(x)
+        y = self.ssm(x)
+        y = y * F.silu(z)
+        y = self.out_proj(y)
+        return y
+    def ssm(self, x):
+        batch_size, seq_len, d_inner = x.shape
+        A = -torch.exp(self.A_log.float())
+        D = self.D.float()
+        x_dbl = self.x_proj(x)
+        delta, B_param, C_param = torch.split(x_dbl, [1, self.d_state, self.d_state], dim=-1)
+        delta = F.softplus(self.dt_proj(delta))
+        h = torch.zeros(batch_size, d_inner, self.d_state, device=x.device)
+        ys = []
+        for i in range(seq_len):
+            delta_i = delta[:, i, :]
+            A_i = torch.exp(delta_i.unsqueeze(-1) * A)
+            B_i = delta_i.unsqueeze(-1) * B_param[:, i, :].unsqueeze(1)
+            h = A_i * h + B_i * x[:, i, :].unsqueeze(-1)
+            y_i = (h @ C_param[:, i, :].unsqueeze(-1)).squeeze(-1)
+            ys.append(y_i)
+        y = torch.stack(ys, dim=1)
+        y = y + x * D
+        return y
+class CustomMambaClassifier(nn.Module):
+    def __init__(self, vocab_size, d_model, d_state, d_conv, num_layers, num_classes):
+        super().__init__()
+        self.embedding = nn.Embedding(vocab_size, d_model, padding_idx=0)
+        self.layers = nn.ModuleList(
+            [SimpleMambaBlock(d_model, d_state, d_conv) for _ in range(num_layers)]
+        )
+        self.fc = nn.Linear(d_model, num_classes)
+    def forward(self, x):
+        x = self.embedding(x)
+        for layer in self.layers:
+            x = layer(x)
+        pooled_output = x.mean(dim=1)
+        return self.fc(pooled_output)

src/models/predict.py ADDED Viewed

	@@ -0,0 +1,83 @@

+import json
+import torch
+from nltk.tokenize import word_tokenize
+import argparse
+from src.models.models import TransformerClassifier, MambaClassifier, LSTMClassifier
+SAVE_DIR = "pretrained"
+MODEL_PATH = f"{SAVE_DIR}/best_model.pth"
+CONFIG_PATH = f"{SAVE_DIR}/config.json"
+VOCAB_PATH = f"{SAVE_DIR}/vocab.json"
+ID_TO_LABEL = {0: "Negative", 1: "Positive"}
+def load_artifacts():
+    with open(CONFIG_PATH, 'r') as f:
+        config = json.load(f)
+    with open(VOCAB_PATH, 'r') as f:
+        vocab = json.load(f)
+    model_type = config['model_type']
+    model_params = config['model_params']
+    if model_type == 'Transformer':
+        model = TransformerClassifier(**model_params)
+    elif model_type == 'Mamba':
+        model = MambaClassifier(**model_params)
+    elif model_type == 'LSTM':
+        model = LSTMClassifier(**model_params)
+    else:
+        raise ValueError("Неизвестный тип модели в файле конфигурации.")
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    model.load_state_dict(torch.load(MODEL_PATH, map_location=device))
+    model.to(device)
+    model.eval()
+    return model, vocab, config, device
+def preprocess_text(text, vocab, max_len):
+    tokens = word_tokenize(text.lower())
+    ids = [vocab.get(token, vocab['<UNK>']) for token in tokens]
+    if len(ids) < max_len:
+        ids.extend([vocab['<PAD>']] * (max_len - len(ids)))
+    else:
+        ids = ids[:max_len]
+    return torch.tensor(ids).unsqueeze(0)
+def predict(text, model, vocab, config, device):
+    input_tensor = preprocess_text(text, vocab, config['max_seq_len'])
+    input_tensor = input_tensor.to(device)
+    with torch.no_grad():
+        outputs = model(input_tensor)
+        probabilities = torch.softmax(outputs, dim=1)
+        prediction_id = torch.argmax(probabilities, dim=1).item()
+    predicted_label = ID_TO_LABEL[prediction_id]
+    confidence = probabilities[0][prediction_id].item()
+    return predicted_label, confidence
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Предсказать тональность текста с помощью обученной модели.")
+    parser.add_argument("text", type=str, help="Текст для анализа (в кавычках).")
+    args = parser.parse_args()
+    print("Загрузка модели и артефактов...")
+    try:
+        loaded_model, loaded_vocab, loaded_config, device = load_artifacts()
+        print(f"Модель '{loaded_config['model_type']}' успешно загружена на устройство {device}.")
+    except FileNotFoundError:
+        print("\nОШИБКА: Файлы модели не найдены!")
+        print("Сначала запустите скрипт train.py для обучения и сохранения модели.")
+        exit()
+    label, conf = predict(args.text, loaded_model, loaded_vocab, loaded_config, device)
+    print("\n--- Результат предсказания ---")
+    print(f"Текст: '{args.text}'")
+    print(f"Тональность: {label}")
+    print(f"Уверенность: {conf:.2%}")