Apresentação

O LexPorBR-Infantil é um léxico de palavras do português brasileiro desenvolvido a partir de legendas de filmes e séries infantis e familiares. Ele foi computado a partir de mais de 130M de palavras token, 190K palavras type e contém 44 colunas de informações lexicais, ortográficas e fonológicas. Todas informações descritas no artigo abaixo.

LexPorBR-Infantil - Artigo STIL2019

Consulta online

Para pesquisas simples, o link abaixo disponibiliza a versão "clean" do LexPorBR-Infantil para consulta online em ShinyR. As consultas podem ser realizadas a partir da PESQUISA POR PALAVRA através de uma lista de palavras ou da PESQUISA POR CRITÉRIO através do refinamento de critérios de seleção das palavras. A consulta realizada pode der baixada em formado .csv para ser manipulada no Excel ou R.

LexPorBR-Infantil - Consulta online

Downloads

Para pesquisas complexas, sugere-se que seja realizado o download completo da versão "clean" e manipulado no Excel ou R. A versão "clean" possui apenas as palavras atestadas em algum dicionário. A versão "raw" possui todas as palavras da base de dados original de legendas "base". O Script R para a criação do corpus também é disponibilizado abaixo, podendo ser adaptado para outras necessidades.

* LexPorBR-Infantil - Clean *

LexPorBR-Infantil - Raw
LexPorBR-Infantil - Base
LexPorBR-Infantil - Script R

Créditos

Gustavo Estivalet (UFPB/LAPROL)
Nathan Hartmann (USCP/ICMC)
Vanessa Maquiafavel (SpeechTera)
Katerina Lukasova (UFABC/CMCC)
Maria Carthery-Goulart (UFABC/CMCC)
Sandra Aluísio (USP/ICMC)