Blog

Page 6 of 11 · 130 posts total

Mar 25, 2026

Whisper fine-tuning resources I keep coming back to

A short curated list of the best Whisper fine-tuning resources: tutorials, notebooks, and managed compute examples.

AI Open Source Whisper Speech Recognition

Mar 25, 2026

Does fine-tuning Whisper actually improve accuracy?

Evaluating whether fine-tuning Whisper improves transcription accuracy. Spoiler: it depends on model size and use case.

Projects AI Open Source Whisper

Mar 25, 2026

Fine-tuning Whisper on Modal's serverless GPUs

A script for fine-tuning OpenAI's Whisper speech recognition models using Modal's serverless GPU infrastructure.

Projects AI Open Source Whisper

Mar 25, 2026

Deepgram voice keyboard: a Linux virtual keyboard powered by Deepgram Flux

A voice-controlled Linux virtual keyboard using Deepgram's Flux turn-taking STT API, built in Rust.

Projects AI Open Source Speech Recognition

Mar 25, 2026

ASR Training Data Collector: a GUI for gathering speech recognition training data

A GUI tool for collecting audio training data for ASR fine-tuning, with LLM-generated prompts and Hugging Face integration.

Projects AI Open Source Speech Recognition

Mar 25, 2026

Cloud ASR MCP: multi-backend transcription via multimodal LLMs

An MCP server for audio transcription using multimodal LLMs like Gemini, GPT-4o Audio, and Voxtral — not traditional ASR.

Projects AI Open Source MCP

Mar 25, 2026

Gemini Transcription MCP: audio transcription as an MCP tool

An MCP server that brings Gemini-powered audio transcription directly into Claude Code and Claude Desktop.

Projects AI Open Source MCP

Mar 25, 2026

AI Transcription Notepad: multimodal cloud transcription for desktop

A desktop transcription app that sends audio directly to multimodal AI models for single-pass transcription and formatting.

Projects AI Open Source Speech Recognition

Mar 25, 2026

Parakeet Dictation: on-device voice typing for Linux that actually works

A local voice typing app for Linux/Wayland using NVIDIA's Parakeet model. No cloud, no GPU, built-in punctuation.

Projects AI Open Source Speech Recognition

Mar 25, 2026

Comparing Hebrew text-to-speech providers in 2025

A snapshot comparing Hebrew TTS quality across six providers, including voice cloning experiments via Replicate.

Projects AI Open Source TTS

Mar 25, 2026

End of day worklog: voice-driven daily retrospectives with AI

A concept for capturing end-of-day work progress via voice memos, processing them with Gemini AI, and delivering morning briefings.

Projects AI Productivity Automation

Mar 25, 2026

Peace in the Middle East: a multi-agent geopolitical experiment

An experiment using AI agents to simulate geopolitical dialogue between state actors, non-state actors, and civil society in the Middle East.

Projects AI Open Source Agentic AI