XLS-R 1B Adapter Fine-tuned for Scots

This model is a fine-tuned version of facebook/wav2vec2-xls-r-1b on the Mozilla Common Voice Spontaneous Speech dataset for Scots (sco).

Training

Base model: facebook/wav2vec2-xls-r-1b
Fine-tuning method: Attention adapter layers (adapter_attn_dim=256)
Dataset: Mozilla Common Voice Spontaneous Speech

Usage

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch

processor = Wav2Vec2Processor.from_pretrained("vitthalbhandari/xlsr-1b-aft-all-sco")
model = Wav2Vec2ForCTC.from_pretrained("vitthalbhandari/xlsr-1b-aft-all-sco")

# Transcribe audio
inputs = processor(audio_array, sampling_rate=16000, return_tensors="pt")
with torch.no_grad():
    logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

Downloads last month: 75

Safetensors

Model size

1.0B params

Tensor type

F32