Whisper Small — Қазақ тілі (Толық датасет)

OpenAI Whisper-small моделін қазақ тілінде толық датасетте оқытылған нұсқасы.

Модель туралы

Базалық модель: openai/whisper-small
Датасет: farabi-lab/kazakh-stt
Train сэмплдары: 142,266
Val сэмплдары: 30,493
Eval Loss: 0.0776
Тіл: Қазақша (kk)

Оқыту параметрлері

Параметр	Мән
Epoch	3
Batch size	8
Learning rate	1e-5
GPU	NVIDIA RTX A5000
Оқыту уақыты	4 сағат 43 минут

Пайдалану

Pipeline арқылы

from transformers import pipeline

pipe = pipeline(
    "automatic-speech-recognition",
    model="Musa505/kazakh-tts",
    generate_kwargs={"language": "kk"}
)

result = pipe("audio.wav")
print(result["text"])

Төмен деңгейде

import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor

model = WhisperForConditionalGeneration.from_pretrained("Musa505/kazakh-tts")
processor = WhisperProcessor.from_pretrained("Musa505/kazakh-tts")
model.eval().cuda()

inputs = processor(audio_array, sampling_rate=16000, return_tensors="pt")
inputs = {k: v.cuda() for k, v in inputs.items()}

with torch.no_grad():
    predicted_ids = model.generate(**inputs, language="kk")

text = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print(text)

Нәтижелер

Epoch	Eval Loss
1	0.1019
2	0.0817
3	0.0776

Лицензия

Apache 2.0

Downloads last month: 3

Safetensors

Model size

0.2B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Musa505
/

kazakh-tts