Léxico do Português Brasileiro Infantil | LexPorBR-Infantil
Apresentação
O LexPorBR-Infantil é um léxico de palavras do português brasileiro desenvolvido a partir de legendas de filmes e séries infantis e familiares. Ele foi computado a partir de mais de 130M de palavras token, 190K palavras type e contém 44 colunas de informações lexicais, ortográficas e fonológicas. Todas informações descritas no artigo abaixo.LexPorBR-Infantil - Artigo STIL2019
Consulta online
Para pesquisas simples, o link abaixo disponibiliza a versão "clean" do LexPorBR-Infantil para consulta online em ShinyR. As consultas podem ser realizadas a partir da PESQUISA POR PALAVRA através de uma lista de palavras ou da PESQUISA POR CRITÉRIO através do refinamento de critérios de seleção das palavras. A consulta realizada pode der baixada em formado .csv para ser manipulada no Excel ou R.LexPorBR-Infantil - Consulta online
Downloads
Para pesquisas complexas, sugere-se que seja realizado o download completo da versão "clean" e manipulado no Excel ou R. A versão "clean" possui apenas as palavras atestadas em algum dicionário. A versão "raw" possui todas as palavras da base de dados original de legendas "base". O Script R para a criação do corpus também é disponibilizado abaixo, podendo ser adaptado para outras necessidades.* LexPorBR-Infantil - Clean *
LexPorBR-Infantil - Raw
LexPorBR-Infantil - Base
LexPorBR-Infantil - Script R
Créditos
Gustavo Estivalet (UFPB/LAPROL)Nathan Hartmann (USCP/ICMC)
Vanessa Maquiafavel (SpeechTera)
Katerina Lukasova (UFABC/CMCC)
Maria Carthery-Goulart (UFABC/CMCC)
Sandra Aluísio (USP/ICMC)
