Голосові команди, які працюють без Google і Alexa

Це для тих, кого вже трохи бентежить, що Siri чує дитячий плач, а Google слухає нашу пошту. І хто хоче нормальний голосовий діалог з AI без передачі запису у Big Tech.

Що болить

Ми звикли диктувати замість друкувати. Це швидше, зручніше і часом — єдиний спосіб (за кермом, на кухні, з дитиною на руках).

Але є три речі, що муляють:

Перша — голос йде у Big Tech. Коли ми диктуємо Siri “лист дружині про лікарню”, цей звуковий запис проходить через сервери Apple. Коли кажемо Google Assistant “запиши зустріч з юристом” — він йде у датацентр Google. Це не питання “теоретично можуть передавати” — це факт за умовами користування, які ми всі підписали, не читаючи.

Друга — наша мова часто страждає. Більшість голосових систем оптимізовані під англійську. Інші мови — українська, польська, чеська, інші менш поширені — є, але працюють слабше: розпізнають гірше, акценти не розуміють, специфічні терміни плутають. Англомовним користувачам це менш помітно; решті — щодня.

Третя — це лише введення, не співрозмовник. Siri/Google переважно “розпізнають голос → шукають у Google” або “розпізнають голос → виконують команду”. Це не розмова з AI, який нас знає. Це асистент, який нас слухає, але не розуміє.

Домашня лабораторія дає інший варіант: голос → текст → AI → голос назад, і все це на нашому домашньому сервері, не виходячи за межі квартири.

Куди ми готуємось — і що вже працює

Скажу одразу: повний setup у мене ще на черзі, не daily-driver. Є частини, які вже працюють, і є частини, які тестую або планую. Розпишу чесно, де ми зараз.

Що вже працює щодня:

Telegram-бот, який приймає голосові повідомлення і повертає текстом. Простий, відкритий, написаний за пару годин (як я писав у першому пості серії). Користуюсь регулярно — швидко записати ідею, нагадування, чорнетку листа. Голос обробляється на моєму сервері, не йде у Telegram-сервіси.
Доступ до Claude через web-інтерфейс з телефону (з попереднього посту). Можу друкувати запитання, отримувати відповіді. Це не голос, але це фундамент, на який голос ляже.

Що тестую / готую:

Повний голосовий діалог з AI (голос-у → відповідь голосом-назад). Технічно вже зібрано, але доводжу нюанси: затримка, якість синтезованого голосу, інтеграція з телефоном через зручний інтерфейс, надійність.
Wake word (“Привіт, [імʼя]”) замість натискання кнопки. Це окрема історія, поки що тримаю через явну кнопку — щоб сервер не “слухав постійно”.

Що залишається попереду:

Стабільність “як Siri” — без перезавантажень, без затримок, з нормальним голосом
Інтеграція з рутиною сім’ї (не тільки моєю)
Документація достатньо проста, щоб дружина могла користуватись без мого пояснення

Якщо у вас з’являться конкретні питання про окрему частину цього setup — краще про це окремою розмовою, бо тут багато ситуативних рішень.

Чому це не Siri і не Google

Дві ключові відмінності — концептуальні, незалежно від того, скільки відсотків setup ми вже зібрали:

1. Голос не йде нікуди стороннє. Я диктую → сервер слухає → сервер відповідає. Між цими кроками — нічого. Жодного “обробляємо голос для покращення якості”. Жодного “анонімного запису для тренування моделі”.

2. AI знає мене. Це не “запиши зустріч” → “зустріч записана”. Це повноцінний Claude з памʼяттю про мої проєкти, моїх клієнтів, мою сімʼю. Можна запитати: “Який наступний крок по проекту з Олександром?” — і він відповість конкретно, бо знає, хто це і що ми робимо.

Це зовсім інший рівень корисності. Не голосовий ввід — голосовий співрозмовник, який нас знає.

Якість, на яку треба чесно дивитись

Розпізнавання голосу (мова → текст). Сучасні open-source моделі (Whisper) працюють дуже добре. English — фактично perfect. Менш поширені мови (українська, польська, чеська і подібні) — теж добре, але імена і прізвища треба інколи виправляти, технічна термінологія приймається з вкрапленням англійської. Усе це покращується від моделі до моделі.

Синтез голосу (текст → голос). Тут поки що середньо. Голос виходить зрозумілий, але механічний — це не дзвінкий жіночий голос Siri. Більше нагадує “Google Translate п’ять років тому”. Для функціональних відповідей — досить. Для довгих текстів — швидше прочитати очима.

Висновок: введення працює дуже добре, вивід — на середньому рівні. Для більшості з нас цього досить, бо ми все одно швидше читаємо, ніж слухаємо. Якщо нам критично потрібен “приємний голос” — поки що такий setup не дотягне до Apple/Google.

Сценарії, де такий setup стає корисним

Розкажу, де воно реально стає у нагоді (для мене — для Telegram-варіанта вже зараз, для повного — у міру готовності):

1. Кухня / ранкова рутина. Руки зайняті, треба додати у завдання, нагадати, перевірити. Тиснемо кнопку мікрофону на телефоні, диктуємо, отримуємо коротку відповідь. Зручніше, ніж шукати і друкувати.

2. За кермом. Не для розмов з AI про філософію — це небезпечно. А для коротких “додай зустріч”, “нагадай завтра подзвонити”, “запиши ідею” — ідеально. Голос не йде у Google Drive.

3. Прогулянка з дитиною. У нас є хвилини, коли руки зайняті колискою, але голова вільна. Можна проговорити ідею, отримати швидкий зворотний звʼязок, зберегти у нотатки.

4. У ванній (так, серйозно). Звучить дивно, але це найкращий час для думок. Кладемо телефон на полицю, говоримо, отримуємо відповіді через гучномовець. Голос НЕ йде в Apple/Google, а просто на наш сервер у сусідній кімнаті.

Спільна риса — це сценарії, де руки зайняті, але голова вільна. Не “замінити клавіатуру”, а доповнити її там, де вона недоступна.

Як це поставити (загальний контур)

Не буду давати конкретні команди — це окремий гайд. Загальна логіка така:

На сервері ставимо три Docker-контейнери: розпізнавання голосу, “клей” між ними і AI, синтез голосу
Розпізнавання — це Whisper (відкритий, безкоштовний)
Синтез — це Piper (відкритий, безкоштовний, з голосами для багатьох мов)
На телефон — браузер з закладкою на сервер, або проста web-сторінка “тисни кнопку — говори”
Все підключаємо до нашого Claude чи іншого AI, який уже стоїть на сервері

Орієнтовно: 1-2 вечори налаштування, потім кілька вечорів на доведення (особливо зручний інтерфейс на телефоні). Один раз зробив — далі працює само.

Детальний покроковий гайд — окремим постом, коли мій повний setup буде стабільним і я зможу описати все з конкретними цифрами. Якщо хочеться разом пройти налаштування на конкретно вашому сценарії, можна разовою discovery-розмовою.

Обмеження, які варто знати

Що ця штука не вирішує:

Залежить від нашого сервера. Якщо він вимкнений / завис — голосу немає. На відміну від Siri, який “завжди працює”. Треба налаштувати, щоб сервер перезапускався автоматично — окрема дрібниця
Латентність 2-4 секунди. Між тим, як ми сказали, і тим, як AI відповів — пауза. Siri швидша на пів секунди. Для дорослої людини це ОК, для дитини — помітно
Потребує Wi-Fi або Tailscale. Без приватної мережі — не працює. У літаку без Wi-Fi теж не працюватиме (хоча тут і Siri не дуже)
Голос вивід механічний. Не той рівень, що Siri/Alexa. Для функціональних команд — досить. Для довгих діалогів — швидше читати очима

Усе це може покращитись з часом — open source швидко наздоганяє. Але на сьогодні треба знати, у що ми вступаємо.

Що буде далі

Тепер у нас є початок голосового діалогу з AI, що не шпигує. У наступному пості — як зробити, щоб той самий сервер обслуговував не тільки нас, а й всю сімʼю: окремі акаунти для дітей, дружини, спільні папки для фото, фільми без YouTube-алгоритмів.

Скажу одразу — як і з голосом, у мене це ще наполовину налаштовано. Розкажу куди йду і що з цього вже працює, без прикрашання.

Часті помилки

Намагаємось замінити Siri/Google повністю. Не треба. У них є ніша (швидкі команди, музика, виклики). У домашнього голосового AI — інша ніша (довші діалоги, наша приватність, наша мова, наш AI з пам’яттю). Користуємось обома, кожним за призначенням
Чекаємо ідеального голосу. Поки що локальний синтез — на середньому рівні. Те, що є — досить для роботи, не досить для аудіокниги. Не блокуємось на цьому
Запускаємо все це на телефоні, замість сервера. Телефон гріється, батарея сідає, моделі великі. Сервер — стоїть, працює. Усі важкі речі — на ньому
Ставимо Whisper напряму у систему, не через Docker. Через місяць все плутається. Як я вже писав — звикаємо до Docker одразу
Не пробуємо взагалі, бо “це ж технічно”. Поставити Whisper у Docker — 5 хв і одна команда. Простий Telegram-бот з voice-to-text — пара годин. Інтеграція з телефоном — окремий вечір. Це менше, ніж налаштувати новий принтер