pre_tokenizer_byte_level

<p>Byte level pre tokenizer</p>
<p>Byte level pre tokenizer</p>

Interfaces with the 'Hugging Face' tokenizers library to provide implementations
of today's most used tokenizers such as the 'Byte-Pair Encoding' algorithm
<https://huggingface.co/docs/tokenizers/index>. It's extremely fast for both
training new vocabularies and tokenizing texts.

Daniel Falbel

Fast Text Tokenization

pre_tokenizer_byte_level function

<p><code>tok::tok_pre_tokenizer</code> -&gt; <code>tok_pre_tokenizer_whitespace</code></p>

Super class


<div class="section" id="public-methods">
<h3>Public methods</h3><p></p><p><ul>
<li><p><a href="/link/pre_tokenizer_byte_level%24new()?package=tok&version=0.2.0" data-mini-rdoc="tok::pre_tokenizer_byte_level$new()"><code>pre_tokenizer_byte_level$new()</code></a></p></li>
<li><p><a href="/link/pre_tokenizer_byte_level%24clone()?package=tok&version=0.2.0" data-mini-rdoc="tok::pre_tokenizer_byte_level$clone()"><code>pre_tokenizer_byte_level$clone()</code></a></p></li>
</ul></p><p></p></div><p><hr>
<a id="method-tok_pre_tokenizer_whitespace-new"></a></p><div class="section" id="method-new-">
<h3>Method <code>new()</code></h3>
<p>Initializes the bytelevel tokenizer</p><div class="section" id="usage">
<h4>Usage</h4>
<p><div class="r"></div></p><pre><code>pre_tokenizer_byte_level$new(add_prefix_space = TRUE, use_regex = TRUE)</code></pre><p></p></div><p></p>
</div><p></p><p><div class="section" id="arguments">
<h4>Arguments</h4>
<p><div class="arguments"></div></p><dl>
<dt><code>add_prefix_space</code></dt>
<dd><p>Whether to add a space to the first word</p></dd></dl></div></p><p>
<dt><code>use_regex</code></dt>
<dd><p>Set this to False to prevent this pre_tokenizer from using
the GPT2 specific regexp for spliting on whitespace.</p></dd></p><p>
</p><p></p>
<p></p><p></p><p><hr>
<a id="method-tok_pre_tokenizer_whitespace-clone"></a></p><div class="section" id="method-clone-">
<h3>Method <code>clone()</code></h3>
<p>The objects of this class are cloneable with this method.</p><div class="section" id="usage">
<h4>Usage</h4>
<p><div class="r"></div></p><pre><code>pre_tokenizer_byte_level$clone(deep = FALSE)</code></pre><p></p></div><p></p>
</div><p></p><p><div class="section" id="arguments">
<h4>Arguments</h4>
<p><div class="arguments"></div></p><dl>
<dt><code>deep</code></dt>
<dd><p>Whether to make a deep clone.</p></dd></dl></div></p><p>
</p><p></p>
<p></p><p>
</p>

Methods

Byte level pre tokenizer — pre_tokenizer_byte_level


<div class='section' id='public-methods'>
<h3>Public methods</h3>

<ul>
<li><p><a href='#method-tok_pre_tokenizer_whitespace-new'><code>pre_tokenizer_byte_level$new()</code></a></p></li>
<li><p><a href='#method-tok_pre_tokenizer_whitespace-clone'><code>pre_tokenizer_byte_level$clone()</code></a></p></li>
</ul>

</div><p><hr>
<a id="method-tok_pre_tokenizer_whitespace-new"></a></p><div class='section' id='method-new-'>
<h3>Method <code>new()</code></h3>
<p>Initializes the bytelevel tokenizer</p><div class='section' id='usage'>
<h4>Usage</h4>
<p><div class="r"></p><pre><code>pre_tokenizer_byte_level$new(add_prefix_space = TRUE, use_regex = TRUE)</code></pre><p></div></p>
</div>

<div class='section' id='arguments'>
<h4>Arguments</h4>
<p><div class="arguments"></p><dl>
<dt><code>add_prefix_space</code></dt>
<dd><p>Whether to add a space to the first word</p></dd>


<dt><code>use_regex</code></dt>
<dd><p>Set this to False to prevent this pre_tokenizer from using
the GPT2 specific regexp for spliting on whitespace.</p></dd>


</dl><p></div></p>
</div>

</div><p><hr>
<a id="method-tok_pre_tokenizer_whitespace-clone"></a></p><div class='section' id='method-clone-'>
<h3>Method <code>clone()</code></h3>
<p>The objects of this class are cloneable with this method.</p><div class='section' id='usage'>
<h4>Usage</h4>
<p><div class="r"></p><pre><code>pre_tokenizer_byte_level$clone(deep = FALSE)</code></pre><p></div></p>
</div>

<div class='section' id='arguments'>
<h4>Arguments</h4>
<p><div class="arguments"></p><dl>
<dt><code>deep</code></dt>
<dd><p>Whether to make a deep clone.</p></dd>


</dl><p></div></p>
</div>

</div>


pre_tokenizer_byte_level: Byte level pre tokenizer

Description

Arguments

Super class

Methods

Public methods

Method `new()`

Usage

Arguments

Method `clone()`

Usage

Arguments

Details

See Also

Description

Arguments

Super class

Methods

Public methods

Method new()

Usage

Arguments

Method clone()

Usage

Arguments

Details

See Also

Method `new()`

Method `clone()`