Disponible para nuevas oportunidades

Daniel Grao
Developer &
Infra Engineer

Construyo software robusto y automatizo infraestructura. Apasionado por los sistemas Linux, el backend con Python y las arquitecturas que escalan.

13+
Servicios en producción
5+
Años programando
Café consumido

Quién soy

Soy Daniel Grao, desarrollador con especial interés en backend, infraestructura y automatización. Me gusta entender los sistemas de arriba a abajo — desde el kernel hasta la API.

Diseño y mantengo un homelab con Proxmox VE corriendo más de una docena de servicios en contenedores LXC: reverse proxy, media server, automatizaciones, VPN, encoding de video con DRM y más.

Cuando no estoy programando, aprendo cómo funciona lo que no debería funcionar.

📍 Ubicación España
🎓 Estudios Ing. Informática
💼 Situación Abierto a ofertas
🌐 Idiomas ES · CA · EN
⚙️ Stack fav. Python · Linux · Docker

Trayectoria

Experiencia profesional y proyectos relevantes en orden cronológico.

UDL — TFG 2025 — 2026
Development of a Catalan-Focused OCR
TFG en colaboración con UDL. Sistema HTR para catalán con TrOCR (ViT + transfer learning). Dataset sintético propio (1.1M imágenes), corpus real K-12 propio (CatK12HW-actions, 5.467 líneas). 13 experimentos: ablation estudios, curriculum learning, augmentación GAN con VATr. Mejor resultado: 1.69% CER en escritura real (0.13% en sintético). 68× mejor que transfer desde francés.
PyTorch TrOCR HuggingFace EasyOCR VATr OpenCV Salamandra-7B Android/Kotlin
Universitat de Lleida 2022 — presente
Proyecto Personal — UDL Calendar API
API y scraper de la plataforma Sakai (LMS de la UDL) para extraer el calendario académico y exponerlo como servicio REST con base de datos MySQL.
Node.js Express MySQL nginx Docker

Lo que he construido

Proyectos propios en producción — todos corriendo 24/7 en mi homelab.

🔤
TFG · Junio 2026
Development of a Catalan-Focused OCR
Sistema HTR para catalán basado en transfer learning con TrOCR (Vision Transformer, Microsoft). Partiendo de cero datos en catalán: generación de un dataset sintético de 1.1M imágenes desde fuentes literarias de dominio público, recolección del primer corpus real K-12 (CatK12HW-actions, 5.467 líneas de 215 alumnos), e investigación de curriculum learning y augmentación por transferencia de estilo con VATr (GAN). 13 experimentos. Pipeline completo: OpenCV → EasyOCR → TrOCR → Salamandra-7B. Integración en app Android educativa para que alumnos K-12 aprendan pensamiento computacional escribiendo instrucciones de robótica a mano.
1.69%
CER real (VATr)
0.13%
CER sintético (S2)
97.50%
Seq. Accuracy (S2)
68×
vs modelo francés
5.467
líneas corpus real
🎬
Stream Relay Engine
Sistema de relay de streams DRM (Movistar+, DAZN) con Chrome headless + Widevine CDM, captura x11grab, transcodificación VAAPI y distribución MPEG-TS a múltiples clientes simultáneos.
🏠
Homelab Infrastructure
Infraestructura completa sobre Proxmox VE con 13 servicios en LXC: reverse proxy con TLS automático (Traefik), DNS/AdBlock (AdGuard), VPN (WireGuard), media server (Jellyfin), monitorización (Netdata) y más.
📅
UDL Calendar API
Scraper y API REST para la plataforma Sakai de la Universitat de Lleida. Permite consultar horarios, tareas y eventos académicos de forma programática.
🤖
Automation Stack
Capa de automatización del homelab con n8n/scripts: notificaciones, backups programados, renovación de tokens, monitorización de servicios y alertas proactivas.
📱
SMS Gateway
Pasarela SMS propia para envío y recepción de mensajes programáticamente. API REST con webhook de entrada para integraciones con automatizaciones.
🔒
Self-hosted VPN
VPN propia con WireGuard (wg-easy) para acceso seguro remoto a todos los servicios del homelab. Sin depender de proveedores externos.
🎙️
ASR Benchmark — Español
Pipeline de benchmarking de reconocimiento de voz para español conversacional. Compara Deepgram Nova-3, Whisper y AWS Transcribe en términos de WER, latencia y coste por hora de audio.
✍️
H-Cat-R Synthetic Dataset Generator
Generador modular de escritura manuscrita sintética en catalán. Valida fuentes por inspección de character map + test PIL, descarga texto de fuentes de dominio público (Wikisource, Arxiu Nacional) y renderiza pares imagen-etiqueta. Produjo S1 (1.14M imágenes, 4 fuentes) y S2 (898K imágenes + 18 texturas + augmentación). Agnóstico al idioma — usado también para generar datos franceses.

Stack técnico

Tecnologías que uso en el día a día.

Backend
Python FastAPI asyncio Node.js Express REST API
Infraestructura
Linux Proxmox VE LXC Docker systemd Bash
Networking
Traefik nginx WireGuard AdGuard DNS Let's Encrypt ACME / TLS
Herramientas
Git Playwright FFmpeg MySQL n8n Netdata
ML / AI
PyTorch TrOCR HuggingFace EasyOCR OpenCV Whisper Transfer Learning ViT
Lenguajes
Python JavaScript Bash Kotlin SQL

Formación

🎓
Grado en Ingeniería Informática
Universitat de Lleida — Escola Politècnica Superior
2022 — 2026
TFG: "Development of a Catalan-Focused OCR" — sistema HTR para catalán con TrOCR, 13 experimentos, corpus real propio (CatK12HW-actions), augmentación GAN con VATr. Mejor resultado: 1.69% CER en escritura real de alumnos K-12. Director: Vitor Luiz Da Silva Verbel.

¿Hablamos?

Estoy abierto a oportunidades, colaboraciones o simplemente a una buena conversación técnica. No dudes en escribirme.