Πώς θα φτιάξεις voice agent στο κινητό (Android & iOS)

Ένας «voice agent» είναι ένας ψηφιακός βοηθός που ακούει τι λες, το μετατρέπει σε κείμενο (STT – Speech-to-Text), παίρνει απάντηση από ένα μοντέλο/υπηρεσία και τη γυρίζει πίσω σε ομιλία (TTS – Text-to-Speech). Μπορεί να κάνει και πράξεις στη συσκευή σου (π.χ. να στείλει μήνυμα, να βάλει υπενθύμιση, να ανοίξει φώτα), μέσω αυτοματισμών. Παρακάτω στήνουμε μια πρακτική λύση χωρίς κώδικα και μία πιο προχωρημένη με API — και για Android και για iOS.

Πώς δουλεύει (αρχιτεκτονική σε 1 λεπτό)

STT (Speech-to-Text): Η εφαρμογή καταγράφει τη φωνή και τη μετατρέπει σε κείμενο. Μπορεί να είναι στο κινητό (π.χ. iOS Dictation, Android Voice Typing) ή στο cloud.
Agent/LLM: Στέλνουμε το κείμενο σε ένα «μοντέλο» που καταλαβαίνει και απαντά (π.χ. γεννήτριες κειμένου). Προαιρετικά, ο agent εκτελεί και ενέργειες (calendar, SMS, smart home).
TTS (Text-to-Speech): Η απάντηση γυρνάει σε ομιλία και ακούγεται από το κινητό.
Automations: Στο τέλος, τρέχουν μικρά «flows» (Shortcuts/Tasker/IFTTT) για να γίνει κάτι πρακτικό.

iOS — no-code agent με Shortcuts (2 τρόποι)

Τρόπος Α: Full on-device (γρήγορος & ιδιωτικός)

Χωρίς κανένα εξωτερικό API — απλώς υπαγόρευση → εντολές → απάντηση με φωνή.

Άνοιξε Shortcuts → φτιάξε νέο Shortcut «Voice Agent».
Πρόσθεσε δράση Dictate Text (Ελληνικά) με επιλογή Stop Listening on Pause.
Πρόσθεσε Ask for Input (προαιρετικό) για διόρθωση/επιβεβαίωση.
Χρησιμοποίησε If μπλοκ για να «πιάσεις» λέξεις-κλειδιά και να τρέξεις ενέργειες (π.χ. Add New Event, Send Message, Set a Reminder).
Κλείσε με Speak Text για να ακούσεις το αποτέλεσμα («Έβαλα ραντεβού αύριο στις 10»).
Στήσε πρόσβαση: Siri phrase («Hey Siri, agent»), Back Tap (Ρυθμίσεις → Προσβασιμότητα → Άγγιγμα → Πίσω μέρος), ή Home Screen widget.

Τι κερδίζεις: Ταχύτητα, ιδιωτικότητα (δε φεύγουν δεδομένα). Τι χάνεις: «Νοημοσύνη» ανοικτού διαλόγου — κάνεις κυρίως αυτοματισμούς συσκευής.

Τρόπος Β: Shortcuts + web agent (πιο έξυπνες απαντήσεις)

Εδώ, τα λόγια σου γίνονται κείμενο στο iPhone, στέλνονται σε έναν agent στο cloud και γυρίζει απάντηση που διαβάζεται δυνατά.

Στο Shortcut: Dictate Text → αποθηκεύεις το input σε μεταβλητή UserQuery.
Πρόσθεσε Get Contents of URL, μέθοδο POST, σε δικό σου endpoint (π.χ. σε ένα απλό webhook/n8n/Make/Cloudflare Worker) που μιλάει με όποιο LLM θες.

Στο σώμα του POST στείλε JSON:

{
  "user": "ios-shortcut",
  "query": "<UserQuery>",
  "context": "Σύντομες, προφορικές απαντήσεις. Γλώσσα: Ελληνικά."
}

Πάρε την απάντηση (π.χ. πεδίο reply) και βάλε Speak Text.
Πρόσθεσε Run Shortcut ή άλλες δράσεις για να εκτελεστούν εντολές (π.χ. «στείλε SMS στον Κώστα: θα αργήσω 10′»).

Συμβουλή: Μην βάζεις API keys κατευθείαν στο Shortcut. Πέρνα τα μέσω δικού σου backend/worker και φύλαξέ τα εκεί.

Android — no-code agent με Routines/Tasker

Τρόπος Α: Google Assistant Routine (εύκολο)

Φτιάξε ρουτίνα που ξεκινάει με φράση (π.χ. «Agent time») και ρωτάει «Τι θέλεις;». Το voice input γίνεται κείμενο από τον Assistant. Κατόπιν:

Στις ενέργειες της ρουτίνας βάλε π.χ. Send a message, Next calendar event, Open app.
Για «έξυπνη» απάντηση, κάλεσε Webhooks (IFTTT/Make/n8n) που στέλνει το κείμενο σε agent και επιστρέφει Notification με την απάντηση. Μπορείς να τη διαβάσεις με Text-to-Speech (π.χ. μέσω Tasker).

Τρόπος Β: Tasker (+ AutoVoice) για custom agent

Ο πιο ευέλικτος δρόμος. Το Tasker «ακούει», στέλνει το κείμενο σε agent μέσω HTTP Request και μιλάει πίσω με TTS.

Εγκατέστησε Tasker (και προαιρετικά AutoVoice για custom hotword).
Δημιούργησε Profile π.χ. Event → AutoVoice Recognized ή Tasker → Voice Command (ή Quick Settings Tile).
Στο Task:
- HTTP Request (POST) προς τον agent/webhook με το αναγνωρισμένο κείμενο.
- Πάρε απόκριση (JSON field reply).
- Say (TTS) για να ακουστεί η απάντηση. Επίλεξε TTS engine (Google Speech Services ή τρίτο).
Πρόσθεσε κλάδους: αν το κείμενο ξεκινά «Στείλε», τρέξε Send SMS κ.λπ.

Σημείωση: Συνεχής ακρόαση/«πάντα on» hotword από τρίτες εφαρμογές περιορίζεται από το Android για μπαταρία/ιδιωτικότητα. Ρύθμισε «push-to-talk» (εικονίδιο/Tile) ή αξιοποίησε τον Assistant ως επίσημο listener.

Προχωρημένο: agent με API & φυσική φωνή

Αν θες «πραγματική» συζήτηση (memory, εργαλεία, προσαρμοσμένοι ρόλοι), στήσε ένα μικρό backend που μιλάει με το LLM της επιλογής σου και επιστρέφει σύντομες, προφορικές απαντήσεις.

Ενδεικτικό flow

Συσκευή: STT → παίρνεις user_text.
Backend: δέχεται user_text, προσθέτει system prompt («Μίλα λιτά, 1-2 προτάσεις, Ελληνικά») και στέλνει στο LLM.
Backend: επιστρέφει reply + (προαιρετικά) actions (π.χ. {"type":"reminder","when":"2025-09-12T10:00","title":"Οδοντίατρος"}).
Συσκευή: εκφωνεί το reply με TTS και εκτελεί τα actions μέσω Shortcuts/Tasker.

Παράδειγμα JSON που στέλνει η συσκευή

{
  "user": "android-tasker",
  "query": "Θύμισέ μου ραντεβού οδοντίατρο την Παρασκευή στις 10",
  "locale": "el-GR",
  "capabilities": ["reminders","sms","calendar"]
}

ΤΤS & STT επιλογές

STT on-device: iOS Dictation, Android Voice Typing, open-source (Whisper.cpp, Vosk) για ιδιωτικότητα.
TTS: Ενσωματωμένες φωνές συστήματος (iOS/Android) ή τρίτες υπηρεσίες με πιο φυσικές φωνές. Στόχευσε μικρές, καθαρές απαντήσεις για φυσικότητα.

Καλές πρακτικές

Μην εκθέτεις API keys σε Shortcuts/Tasker. Χρησιμοποίησε δικό σου endpoint με έλεγχο.
Κράτα logs μόνο όσο χρειάζεται. Μάσκαρε προσωπικά δεδομένα.
Πρόσθεσε «stop words»/ασφαλιστικές δικλείδες για επικίνδυνες εντολές (π.χ. SMS σε πολλούς, έξοδα).

Hotword/ενεργοποίηση: τι επιτρέπεται

iOS: δεν επιτρέπει σε εφαρμογές τρίτων διαρκή ακρόαση στο παρασκήνιο. Άρα: «Hey Siri» → φράση για Shortcut, ή Back Tap/Widget/Action Button (σε iPhone με κουμπί). Για hands-free, προτίμησε Siri-phrase που τρέχει το Shortcut σου.

Android: επιτρέπει περισσότερα σενάρια, αλλά η συνεχής ακρόαση έχει περιορισμούς. Ο πιο σταθερός δρόμος είναι ο επίσημος Assistant («Hey Google» → Routine), ή Tasker με κουμπί/Tile, ή AutoVoice για custom hotword με επίγνωση μπαταρίας/αδειών.

Παραδείγματα χρήσης

Εργασία

«Σύνοψέ μου αυτό το email σε δύο προτάσεις και βάλ’ το στο clipboard.» — Το agent παίρνει το κείμενο (επικόλληση/διαμοιρασμός), επιστρέφει συνοπτική απάντηση και ο αυτοματισμός το αντιγράφει για άμεση χρήση.

Σπίτι

«Πρόσθεσε γάλα και μήλα στη λίστα σούπερ μάρκετ και άνοιξε τα φώτα στο σαλόνι.» — Το agent αναγνωρίζει δύο ενέργειες: ενημερώνει λίστα (Notes/Reminders/Home Assistant) και στέλνει εντολή στο smart hub.

Οδήγηση

«Στείλε στον Γιάννη ότι φτάνω σε 20 λεπτά και βάλε πλοήγηση στο σπίτι.» — Ο agent δημιουργεί SMS και ανοίγει πλοήγηση στον χάρτη. Η απάντηση ακούγεται από TTS.

Έτοιμες online υπηρεσίες/εφαρμογές

Shortcuts (iOS): ο επίσημος «εγκέφαλος» αυτοματισμών της Apple. Συνδυάζεται με Dictation/Speak Text.
Tasker (Android): πανίσχυρο εργαλείο αυτοματισμών. Με AutoVoice προσθέτεις φωνή/hotword.
IFTTT / Make / n8n: χαμηλού κόστους «κόλλες» για webhooks — ιδανικές για να μεσολαβούν ανάμεσα στο κινητό και τον agent/LLM.
Voice access / Accessibility επιλογές: δίνουν hands-free χειρισμό αν χρειάζεται (π.χ. ενεργοποίηση συγκεκριμένου Shortcut/Task).
Έτοιμες chat εφαρμογές με φωνή: αν δεν θες DIY, πολλές εφαρμογές προσφέρουν voice chat και «πατάνε» πάνω σε ισχυρά TTS/STT. Συνήθως όμως δεν δίνουν ελεύθερους αυτοματισμούς στη συσκευή.

Ιδιωτικότητα & κόστος

On-device STT/TTS: καλύτερη ιδιωτικότητα, μηδενικό μεταβλητό κόστος.
Cloud agent: χρέωση ανά χρήση. Βάλε όρια/«budget», κράτα απαντήσεις σύντομες και συμπίεσε περιττά context.
Δεδομένα: απόφυγε να στέλνεις ευαίσθητες πληροφορίες. Χρησιμοποίησε ψευδωνυμοποίηση όπου μπορείς.