Whisper Small — Қазақ тілі (Толық датасет)

OpenAI Whisper-small моделін қазақ тілінде толық датасетте оқытылған нұсқасы.

Модель туралы

Оқыту параметрлері

Параметр Мән
Epoch 3
Batch size 8
Learning rate 1e-5
GPU NVIDIA RTX A5000
Оқыту уақыты 4 сағат 43 минут

Пайдалану

Pipeline арқылы

from transformers import pipeline

pipe = pipeline(
    "automatic-speech-recognition",
    model="Musa505/kazakh-tts",
    generate_kwargs={"language": "kk"}
)

result = pipe("audio.wav")
print(result["text"])

Төмен деңгейде

import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor

model = WhisperForConditionalGeneration.from_pretrained("Musa505/kazakh-tts")
processor = WhisperProcessor.from_pretrained("Musa505/kazakh-tts")
model.eval().cuda()

inputs = processor(audio_array, sampling_rate=16000, return_tensors="pt")
inputs = {k: v.cuda() for k, v in inputs.items()}

with torch.no_grad():
    predicted_ids = model.generate(**inputs, language="kk")

text = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print(text)

Нәтижелер

Epoch Eval Loss
1 0.1019
2 0.0817
3 0.0776

Лицензия

Apache 2.0

Downloads last month
3
Safetensors
Model size
0.2B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train Musa505/kazakh-tts