перед переделкой переводчика -vosk models и все упоминания в проекте

2026-01-10 01:50:16 +03:00
parent fd373d83f3
commit 3818f0ad22
9 changed files with 38 additions and 166 deletions
--- a/app/audio/local_stt.py
+++ b/app/audio/local_stt.py
@@ -1,147 +0,0 @@
-"""
-Local offline Speech-to-Text module using Vosk.
-Used for simple command detection (like "stop") without internet.
-"""
-
-# Модуль локального распознавания речи (Vosk).
-# Работает полностью оффлайн (без интернета).
-# Используется, когда нужно распознать простые команды (например, "стоп" во время будильника),
-# чтобы не тратить трафик и время на обращение к облаку.
-
-import os
-import sys
-import json
-import pyaudio
-from vosk import Model, KaldiRecognizer
-from config import VOSK_MODEL_PATH, SAMPLE_RATE
-
-
-class LocalRecognizer:
-    """Класс для работы с Vosk."""
-
-    def __init__(self):
-        self.model = None
-        self.rec = None
-        self.pa = None
-        self.stream = None
-
-    def initialize(self):
-        """Загрузка модели Vosk."""
-        if not os.path.exists(VOSK_MODEL_PATH):
-            print(f"❌ Ошибка: Vosk модель не найдена по пути {VOSK_MODEL_PATH}")
-            return False
-
-        print("📦 Инициализация локального STT (Vosk)...")
-
-        # Трюк для подавления вывода логов Vosk в консоль (он очень шумный)
-        try:
-            null_fd = os.open(os.devnull, os.O_WRONLY)
-            old_stderr = os.dup(2)
-            sys.stderr.flush()
-            os.dup2(null_fd, 2)
-            os.close(null_fd)
-
-            # Сама загрузка модели
-            self.model = Model(str(VOSK_MODEL_PATH))
-
-            # Возвращаем stderr обратно
-            os.dup2(old_stderr, 2)
-            os.close(old_stderr)
-        except Exception as e:
-            print(f"Error initializing Vosk: {e}")
-            return False
-
-        self.rec = KaldiRecognizer(self.model, SAMPLE_RATE)
-        self.pa = pyaudio.PyAudio()
-        return True
-
-    def listen_for_keywords(self, keywords: list, timeout: float = 10.0) -> str:
-        """
-        Слушает микрофон заданное время и проверяет наличие ключевых слов.
-
-        Args:
-            keywords: Список слов, которые мы ждем (например, ["стоп", "хватит"]).
-            timeout: Сколько секунд слушать.
-
-        Returns:
-            Найденное слово или пустую строку.
-        """
-        if not self.model:
-            if not self.initialize():
-                return ""
-
-        # Открываем поток микрофона
-        try:
-            stream = self.pa.open(
-                format=pyaudio.paInt16,
-                channels=1,
-                rate=SAMPLE_RATE,
-                input=True,
-                frames_per_buffer=4096,
-            )
-            stream.start_stream()
-        except Exception as e:
-            print(f"❌ Ошибка микрофона: {e}")
-            return ""
-
-        import time
-
-        start_time = time.time()
-
-        print(f"👂 Локальное слушание ожидает: {keywords}")
-
-        detected_text = ""
-
-        try:
-            while time.time() - start_time < timeout:
-                data = stream.read(4096, exception_on_overflow=False)
-
-                # Vosk обрабатывает аудио чанками
-                if self.rec.AcceptWaveform(data):
-                    # Полный результат
-                    res = json.loads(self.rec.Result())
-                    text = res.get("text", "")
-                    if text:
-                        print(f"📝 Локально: {text}")
-                        # Проверяем, есть ли ключевое слово в распознанном тексте
-                        for kw in keywords:
-                            if kw in text:
-                                detected_text = text
-                                break
-                else:
-                    # Частичный результат (быстрее, чем полный)
-                    res = json.loads(self.rec.PartialResult())
-                    partial = res.get("partial", "")
-                    if partial:
-                        for kw in keywords:
-                            if kw in partial:
-                                detected_text = partial
-                                break
-
-                if detected_text:
-                    break
-        finally:
-            stream.stop_stream()
-            stream.close()
-
-        return detected_text
-
-    def cleanup(self):
-        if self.pa:
-            self.pa.terminate()
-
-
-# Глобальный экземпляр
-_local_recognizer = None
-
-
-def get_local_recognizer():
-    global _local_recognizer
-    if _local_recognizer is None:
-        _local_recognizer = LocalRecognizer()
-    return _local_recognizer
-
-
-def listen_for_keywords(keywords: list, timeout: float = 5.0) -> str:
-    """Внешняя функция для поиска ключевых слов."""
-    return get_local_recognizer().listen_for_keywords(keywords, timeout)
--- a/app/audio/tts.py
+++ b/app/audio/tts.py
@@ -133,9 +133,19 @@ class TextToSpeech:
            model = self._load_model("ru")
            speaker = self.speaker_ru

-        # Проверка наличия спикера в модели (защита от ошибок конфига)
-        if hasattr(model, "speakers") and speaker not in model.speakers:
-            if model.speakers:
+        # Проверка наличия спикера в модели (защита от ошибок конфига).
+        # Для русского языка сохраняем мужской голос по умолчанию.
+        if hasattr(model, "speakers") and model.speakers:
+            if language == "ru":
+                male_speakers = ("eugene", "aidar")
+                if speaker not in model.speakers or speaker not in male_speakers:
+                    for candidate in male_speakers:
+                        if candidate in model.speakers:
+                            speaker = candidate
+                            break
+                    else:
+                        speaker = model.speakers[0]
+            elif speaker not in model.speakers:
                speaker = model.speakers[0]

        # Разбиваем текст на куски
--- a/app/audio/wakeword.py
+++ b/app/audio/wakeword.py
@@ -21,6 +21,8 @@ class WakeWordDetector:
        self.audio_stream = None
        self.pa = None
        self._stream_closed = True  # Флаг состояния потока (закрыт/открыт)
+        self._last_hit_ts = 0.0
+        self._hit_streak = 0

    def initialize(self):
        """Инициализация Porcupine и PyAudio."""
@@ -118,6 +120,8 @@ class WakeWordDetector:
        Returns:
            True, если фраза обнаружена прямо сейчас.
        """
+        import time
+
        if not self.porcupine:
            self.initialize()

@@ -131,8 +135,17 @@ class WakeWordDetector:

            keyword_index = self.porcupine.process(pcm)
            if keyword_index >= 0:
-                print("🛑 Wake word обнаружен во время ответа!")
-                return True
+                now = time.time()
+                if now - self._last_hit_ts < 0.6:
+                    self._hit_streak += 1
+                else:
+                    self._hit_streak = 1
+                self._last_hit_ts = now
+
+                if self._hit_streak >= 2:
+                    self._hit_streak = 0
+                    print("🛑 Wake word подтвержден во время ответа!")
+                    return True
            return False
        except Exception:
            return False