Tag

Speech Recognition

10 posts

Mar 25, 2026

A curated index of 100+ voice technology tools accessible to Linux desktop users, from real-time dictation to dev frameworks.

Mar 25, 2026

A curated resource list of multimodal AI models with native audio support — models that process audio tokens, not just transcribe.

Mar 25, 2026

Comparing 8 STT models on a 27-minute podcast. Local Whisper wins on word accuracy, but cloud APIs dominate punctuation.

Mar 25, 2026

A short curated list of the best Whisper fine-tuning resources: tutorials, notebooks, and managed compute examples.

Mar 25, 2026

Evaluating whether fine-tuning Whisper improves transcription accuracy. Spoiler: it depends on model size and use case.

Mar 25, 2026

A script for fine-tuning OpenAI's Whisper speech recognition models using Modal's serverless GPU infrastructure.

Mar 25, 2026

A voice-controlled Linux virtual keyboard using Deepgram's Flux turn-taking STT API, built in Rust.

Mar 25, 2026

A GUI tool for collecting audio training data for ASR fine-tuning, with LLM-generated prompts and Hugging Face integration.

Mar 25, 2026

A desktop transcription app that sends audio directly to multimodal AI models for single-pass transcription and formatting.

Mar 25, 2026

A local voice typing app for Linux/Wayland using NVIDIA's Parakeet model. No cloud, no GPU, built-in punctuation.