Голосові команди, які працюють без Google і Alexa
Куди ми готуємось: голос → текст → AI → голос назад, без виходу за межі домашнього сервера. Чесно про те, що вже працює, а що ще на черзі.
Це для тих, кого вже трохи бентежить, що Siri чує дитячий плач, а Google слухає нашу пошту. І хто хоче нормальний голосовий діалог з AI без передачі запису у Big Tech.
Що болить
Ми звикли диктувати замість друкувати. Це швидше, зручніше і часом — єдиний спосіб (за кермом, на кухні, з дитиною на руках).
Але є три речі, що муляють:
Перша — голос йде у Big Tech. Коли ми диктуємо Siri “лист дружині про лікарню”, цей звуковий запис проходить через сервери Apple. Коли кажемо Google Assistant “запиши зустріч з юристом” — він йде у датацентр Google. Це не питання “теоретично можуть передавати” — це факт за умовами користування, які ми всі підписали, не читаючи.
Друга — наша мова часто страждає. Більшість голосових систем оптимізовані під англійську. Інші мови — українська, польська, чеська, інші менш поширені — є, але працюють слабше: розпізнають гірше, акценти не розуміють, специфічні терміни плутають. Англомовним користувачам це менш помітно; решті — щодня.
Третя — це лише введення, не співрозмовник. Siri/Google переважно “розпізнають голос → шукають у Google” або “розпізнають голос → виконують команду”. Це не розмова з AI, який нас знає. Це асистент, який нас слухає, але не розуміє.
Домашня лабораторія дає інший варіант: голос → текст → AI → голос назад, і все це на нашому домашньому сервері, не виходячи за межі квартири.
Куди ми готуємось — і що вже працює
Скажу одразу: повний setup у мене ще на черзі, не daily-driver. Є частини, які вже працюють, і є частини, які тестую або планую. Розпишу чесно, де ми зараз.
Що вже працює щодня:
- Telegram-бот, який приймає голосові повідомлення і повертає текстом. Простий, відкритий, написаний за пару годин (як я писав у першому пості серії). Користуюсь регулярно — швидко записати ідею, нагадування, чорнетку листа. Голос обробляється на моєму сервері, не йде у Telegram-сервіси.
- Доступ до Claude через web-інтерфейс з телефону (з попереднього посту). Можу друкувати запитання, отримувати відповіді. Це не голос, але це фундамент, на який голос ляже.
Що тестую / готую:
- Повний голосовий діалог з AI (голос-у → відповідь голосом-назад). Технічно вже зібрано, але доводжу нюанси: затримка, якість синтезованого голосу, інтеграція з телефоном через зручний інтерфейс, надійність.
- Wake word (“Привіт, [імʼя]”) замість натискання кнопки. Це окрема історія, поки що тримаю через явну кнопку — щоб сервер не “слухав постійно”.
Що залишається попереду:
- Стабільність “як Siri” — без перезавантажень, без затримок, з нормальним голосом
- Інтеграція з рутиною сім’ї (не тільки моєю)
- Документація достатньо проста, щоб дружина могла користуватись без мого пояснення
Якщо у вас з’являться конкретні питання про окрему частину цього setup — краще про це окремою розмовою, бо тут багато ситуативних рішень.
Чому це не Siri і не Google
Дві ключові відмінності — концептуальні, незалежно від того, скільки відсотків setup ми вже зібрали:
1. Голос не йде нікуди стороннє. Я диктую → сервер слухає → сервер відповідає. Між цими кроками — нічого. Жодного “обробляємо голос для покращення якості”. Жодного “анонімного запису для тренування моделі”.
2. AI знає мене. Це не “запиши зустріч” → “зустріч записана”. Це повноцінний Claude з памʼяттю про мої проєкти, моїх клієнтів, мою сімʼю. Можна запитати: “Який наступний крок по проекту з Олександром?” — і він відповість конкретно, бо знає, хто це і що ми робимо.
Це зовсім інший рівень корисності. Не голосовий ввід — голосовий співрозмовник, який нас знає.
Якість, на яку треба чесно дивитись
Розпізнавання голосу (мова → текст). Сучасні open-source моделі (Whisper) працюють дуже добре. English — фактично perfect. Менш поширені мови (українська, польська, чеська і подібні) — теж добре, але імена і прізвища треба інколи виправляти, технічна термінологія приймається з вкрапленням англійської. Усе це покращується від моделі до моделі.
Синтез голосу (текст → голос). Тут поки що середньо. Голос виходить зрозумілий, але механічний — це не дзвінкий жіночий голос Siri. Більше нагадує “Google Translate п’ять років тому”. Для функціональних відповідей — досить. Для довгих текстів — швидше прочитати очима.
Висновок: введення працює дуже добре, вивід — на середньому рівні. Для більшості з нас цього досить, бо ми все одно швидше читаємо, ніж слухаємо. Якщо нам критично потрібен “приємний голос” — поки що такий setup не дотягне до Apple/Google.
Сценарії, де такий setup стає корисним
Розкажу, де воно реально стає у нагоді (для мене — для Telegram-варіанта вже зараз, для повного — у міру готовності):
1. Кухня / ранкова рутина. Руки зайняті, треба додати у завдання, нагадати, перевірити. Тиснемо кнопку мікрофону на телефоні, диктуємо, отримуємо коротку відповідь. Зручніше, ніж шукати і друкувати.
2. За кермом. Не для розмов з AI про філософію — це небезпечно. А для коротких “додай зустріч”, “нагадай завтра подзвонити”, “запиши ідею” — ідеально. Голос не йде у Google Drive.
3. Прогулянка з дитиною. У нас є хвилини, коли руки зайняті колискою, але голова вільна. Можна проговорити ідею, отримати швидкий зворотний звʼязок, зберегти у нотатки.
4. У ванній (так, серйозно). Звучить дивно, але це найкращий час для думок. Кладемо телефон на полицю, говоримо, отримуємо відповіді через гучномовець. Голос НЕ йде в Apple/Google, а просто на наш сервер у сусідній кімнаті.
Спільна риса — це сценарії, де руки зайняті, але голова вільна. Не “замінити клавіатуру”, а доповнити її там, де вона недоступна.
Як це поставити (загальний контур)
Не буду давати конкретні команди — це окремий гайд. Загальна логіка така:
- На сервері ставимо три Docker-контейнери: розпізнавання голосу, “клей” між ними і AI, синтез голосу
- Розпізнавання — це Whisper (відкритий, безкоштовний)
- Синтез — це Piper (відкритий, безкоштовний, з голосами для багатьох мов)
- На телефон — браузер з закладкою на сервер, або проста web-сторінка “тисни кнопку — говори”
- Все підключаємо до нашого Claude чи іншого AI, який уже стоїть на сервері
Орієнтовно: 1-2 вечори налаштування, потім кілька вечорів на доведення (особливо зручний інтерфейс на телефоні). Один раз зробив — далі працює само.
Детальний покроковий гайд — окремим постом, коли мій повний setup буде стабільним і я зможу описати все з конкретними цифрами. Якщо хочеться разом пройти налаштування на конкретно вашому сценарії, можна разовою discovery-розмовою.
Обмеження, які варто знати
Що ця штука не вирішує:
- Залежить від нашого сервера. Якщо він вимкнений / завис — голосу немає. На відміну від Siri, який “завжди працює”. Треба налаштувати, щоб сервер перезапускався автоматично — окрема дрібниця
- Латентність 2-4 секунди. Між тим, як ми сказали, і тим, як AI відповів — пауза. Siri швидша на пів секунди. Для дорослої людини це ОК, для дитини — помітно
- Потребує Wi-Fi або Tailscale. Без приватної мережі — не працює. У літаку без Wi-Fi теж не працюватиме (хоча тут і Siri не дуже)
- Голос вивід механічний. Не той рівень, що Siri/Alexa. Для функціональних команд — досить. Для довгих діалогів — швидше читати очима
Усе це може покращитись з часом — open source швидко наздоганяє. Але на сьогодні треба знати, у що ми вступаємо.
Що буде далі
Тепер у нас є початок голосового діалогу з AI, що не шпигує. У наступному пості — як зробити, щоб той самий сервер обслуговував не тільки нас, а й всю сімʼю: окремі акаунти для дітей, дружини, спільні папки для фото, фільми без YouTube-алгоритмів.
Скажу одразу — як і з голосом, у мене це ще наполовину налаштовано. Розкажу куди йду і що з цього вже працює, без прикрашання.
Часті помилки
- Намагаємось замінити Siri/Google повністю. Не треба. У них є ніша (швидкі команди, музика, виклики). У домашнього голосового AI — інша ніша (довші діалоги, наша приватність, наша мова, наш AI з пам’яттю). Користуємось обома, кожним за призначенням
- Чекаємо ідеального голосу. Поки що локальний синтез — на середньому рівні. Те, що є — досить для роботи, не досить для аудіокниги. Не блокуємось на цьому
- Запускаємо все це на телефоні, замість сервера. Телефон гріється, батарея сідає, моделі великі. Сервер — стоїть, працює. Усі важкі речі — на ньому
- Ставимо Whisper напряму у систему, не через Docker. Через місяць все плутається. Як я вже писав — звикаємо до Docker одразу
- Не пробуємо взагалі, бо “це ж технічно”. Поставити Whisper у Docker — 5 хв і одна команда. Простий Telegram-бот з voice-to-text — пара годин. Інтеграція з телефоном — окремий вечір. Це менше, ніж налаштувати новий принтер
Маєте подібний проект і хочете обговорити?
30-хвилинна розмова — без презентацій, без обов'язків.
Discovery Call →