transcribe_long

Process audio longer than 30 seconds in chunks.

Speech-to-text transcription using a native R 'torch' implementation
of 'OpenAI' 'Whisper' model <https://github.com/openai/whisper>. Supports
multiple model sizes from tiny (39M parameters) to large-v3 (1.5B parameters)
with integrated download from 'HuggingFace' <https://huggingface.co/> via the
'hfhub' package. Provides automatic speech recognition with optional language
detection and translation to English. Audio preprocessing, mel spectrogram
computation, and transformer-based encoder-decoder inference are all
implemented in R using the 'torch' package.

Troy Hernandez

whisper

Native R 'torch' Implementation of 'OpenAI' 'Whisper'

cornball.ai 

OpenAI 

transcribe_long function

<dl><dt>file</dt>
<dd>Audio file</dd>
<dt>model</dt>
<dd>WhisperModel</dd>
<dt>tokenizer</dt>
<dd>Tokenizer</dd>
<dt>config</dt>
<dd>Model config</dd>
<dt>language</dt>
<dd>Language</dd>
<dt>task</dt>
<dd>Task</dd>
<dt>device</dt>
<dd>Device</dd>
<dt>dtype</dt>
<dd>Dtype</dd>
<dt>verbose</dt>
<dd>Verbose</dd></dl>

Arguments

Transcribe Long Audio — transcribe_long

<dl>

<dt>file</dt>
<dd>Audio file</dd>


<dt>model</dt>
<dd>WhisperModel</dd>


<dt>tokenizer</dt>
<dd>Tokenizer</dd>


<dt>config</dt>
<dd>Model config</dd>


<dt>language</dt>
<dd>Language</dd>


<dt>task</dt>
<dd>Task</dd>


<dt>device</dt>
<dd>Device</dd>


<dt>dtype</dt>
<dd>Dtype</dd>


<dt>verbose</dt>
<dd>Verbose</dd>

</dl>

transcribe_long: Transcribe Long Audio

Description

Usage

Value

Arguments