Atualizações

24/12/2019 - migração e implementação de todas as páginas do Léxico do Português Brasileiro - Alfa: www.lexicodoportuguês.com. Atualizações e testes de funcionamento de togas as páginas.

01/03/2019 - devido ao grando número de acessos, sobregarca no servido de hospedagem gratuíto http://www.biz.nf e limitações do mesmo de a) espaço em disco de 250 MB, b) 1 banco de dados MySQL, c) banco de dados de até 100 MB, e, d) 5000 MB de tranfência de dados, foi adquirido um Plano S de website do servidor de host HostGator. Período de manutentção do Léxico do Português Brasileiro - Alfa: www.lexicodoportuguês.com.

20/09/2015 - escritura e disponibilização do Manual do Léxico do Português Brasileiro - Alfa 2 em português brasileiro e escritura e disponibilização do Brazilain Portuguese Lexicon - Alpha 2 Manual em inglês. Tradução e implementação de todas as páginas e informações do Léxico do Português Brasileiro em inglês (Brazilian Portuguese Lexicon). Implementação do Google Tradutor em todas as páginas do Léxico do Português Brasileiro para a tradução do site para as diversas línguas disponibilizadas no Google Tradutor. Sugere-se que os recursos do Google Tradutor sejam utilizados a partir das páginas em inglês do Brazilian Portuguese Lexicon, porque se for utilizado em português, tendo em vista que os resultados das pesquisas no corpus também são em português, o Google Tradutor vai traduzir também os resultados em português encontrados.

21/03/2015 - desenvolvimento da página Linguística Estatística com diversas ferramentas e recursos em linha abertos, grauítos em HTML/PHP para análise linguística e estatística: F1, F2, F', minF', teste de Hartley, normalização entre 0-1, inverter palavra, distância de Hamming, distância de Levenshtein, vizinhos ortográficos (Coltheart's N), média das distâncias de Levenshtein, entropia relativa, frequência de palavras, distribuição Zipf, etc. Preparação de um manuscrito do Brazilian Portuguese Lexicon - Alpha para submissão na revista científica internacional PLOSONE.

25/03/2014 - aquisição do domínio para o Léxico do Português Brasileiro: www.lexicodoportuguês.com através do HostGator. Configuração do DNS do domínio para redirecionamento para o http://portugueselexicon.co.nf. Inauguração do novo domínio do Léxico do Português Brasileiro: www.lexicodoportuguês.com.

23/03/2014 - complementação das demais páginas do Léxico do Português Brasileiro - Alfa: 1) disponibilização dos arquivos para download, como corpus, listas, convenções, scripts, etc., 2) organização das ferramentas, programas, demais corpora, e literatura em linguística, estatística, e psicolinguística, 3) descrição das atualizações do desenvolvimento do Léxico do Português Brasileiro, 4) descrição dos créditos, informações, autores, origem do corpus, programas utilizados, etc.

21/03/2014 - nos resultados da geração de psudopalavras, inserimos quatro colunas com dados sobre as pseudopalavras: 1) categoria gramatical da pseudopalavra de acordo com a categoria definida pelo usuário, 2) frequência da pseudopalavra calculada a partir da soma das frequências dos bigramas ou trigramas que compõem a pseudopalavra, 3) log10 desta frequência calculada da pseudopalavra e 4) número de letras, calculada a partir da forma final gerada pelo motor. Tradução da página principal do Léxico do Português Brasileiro (index.php), contendo as pesquisas simples e complexa para o inglês.

20/03/2014 - o motor de geração de pseudopalavras randômico gera pseudopalavras de forma aleatória. O usuário deve inserir quatro campos: 1) número de letras das pseudopalavras a serem geradas, 2) número de pseudopalavras a serem geradas, 3) categoria gramatical que estas pseudopalavras devem pertencer (todas, adj, adv, gram, nom, num, ver) e 4) tipo de critério para a construção das pseudopalavras (bigramas ou trigramas). O motor constrói as pseudopalavras nos dois sentidos, da esquerda para a direita e da direita para a esquerda, começando com um bigrama ou trigrama do tipo "#xx" ou "xx#", que define as fronteiras das pseudopalavras, em seguida, de acordo com o número de letras ele vai concatenando bigramas ou trigramas que dividam o máximo de informação ortográfica do bigrama ou trigrama anterior (1 letra para os bigramas e 2 letras para os trigramas). Os resultados das pseudopalavras são apresentados em duas colunas, uma com a formação das palavras da esquerda para a direita e outra da direita para a esquerda.

18/03/2014 - desenvolvimento e implementação de dois motores de geração de pseudopalavras do português brasileiro: 1) randômico e 2) ocorrências. Utilizando-se os dados de bigramas e trigramas, realizamos a computação total do número dos bigramas e trigramas nas diferentes categorias gramaticais, a freqência total e a frequência de cada bigrama e trigrama de acordo à posição na palavra. Sendo assim, obtivemos duas novas tabelas no banco de dados, uma com os bigramas e outra com os trigramas.

15/03/2014 - desenvolvimento e implementação de um outro módulo na zona de resultados que apresentam estatísticas básicas da pesquisa realizada: a) média, b) valor máximo e c) valor mínimo das seguintes categorias: a) freq_orto, b) log10_freq_orto, c) nb_letras, d) viz_orto, e e) old20. Futuramente, mais dados estatístico serão incluídos neste módulo. Assim, consideramos encerrado o desenvolvimento da versão Alfa do Léxico do Português Brasileiro, inauguração nesta data no site http://portugueselexicon.co.nf.

13/03/2014 - desenvolvimento e implementação de um algorítmo de limitação e navegação dos dados de resultados apresentados. Pode-se escolher o número de palavras apresentadas (50, 100, 200, 500) e dois botões (anterior e posterior) para navegar-se entre as páginas de resultados, aliviando a pesquisa MySQL e apresentação dos resultados. Junto a este o módulo de navegação das páginas de resultados, desenvolvemos um espaço que apresenta os resultados da pesquisa com quatro informações: 1) número total de palavras encontradas na pesquisa, 2) número total de páginas que compreendem a pesquisa, 3) intervalo das palavras apresentadas e 4) página atual. Criação de um botão para exportar (exporta .csv) diretamente todo o resultado da pesquisa para um arquivo .csv para download do usuário.

08/03/2014 - disponíbilização da primeira versão do Léxico do Português Brasileiro - Alfa com 215.175 linhas de palavras e 21 colunas de informações: 1) ortografia, 2) cat_gram, 3) inf_gram, 4) freq_orto, 5) freq/M_orto, 6) log10_freq_orto, 7) nb_letras, 8) nb_homogr, 9) homografas, 10) pu_orto, 11) viz_orto, 12) old20, 13) CVCV_orto, 14) bigramas, 15) trigramas, 16) inv_orto, 17) inv_CVCV_orto, 18) inv_bigra, 19) inv_trigra, 20) aleatorio, e 21) id. Esta tabela em formato .csv ficou com um tamanho de 45 MB. Escritura e disponibilização do Manual do Léxico do Português Brasileiro - Alfa 1 em português brasileiro.

06/03/2014 - desenvolvimento do algorítmo para o cálculo e coluna do ponto de unicidade ortográfico (pu_orto), coluna com o número de vizinhos ortográficos (Colthear's N) (viz_orto) [coltheart.N(ortografiaX, ortografia, distance = 1, method = "hamming", parallel = FALSE)], coluna com a média da distância de Levenshtein ortográfica para as 20 palavras mais próximas (old20) [old20(ortografiaX, ortografia, method = "levenshtein", parallel = FALSE)], a partir do pacote vwr desenvolvido por Emmanuel Keuleers para o programa R.

03/03/2014 - colunas contendo cada letra de cada palavra [substr(ortografia, n, n)], transformação das letras do alfabeto do português brasileiro para a formação da estrutura CVCV (vogais: V, consoantes: C, pontuação: P, números: N, símbolos: S, acentos: A), coluna com os bigramas das palavras concatenando-se as letras duas-a-duas, coluna com os trigramas das palavras concatenando-se as letras três-a-três, concatenação dos bigramas e trigramas separados por "_" e limitados nas fronteiras esquerda e direita por "#", coluna com um número aleatório entre 0 e 1 e oito digitos de precisão [runif(nrow, 0, 1)], desenvolvimento de algorítmo e colunas com as formas invertidas de ortografia (inv_orto), CVCV_orto (inv_CVCV_orto), bigramas (inv_bigramas) e trigramas (inv_trigramas).

27/02/2014 - transformação das palavras em letras minúsculas [tolower(ortografia)], soma das formas semelhantes [aggregate(ortografia, list(freq_orto), sum)], coluna em cada arquivo com as respectivas categorias gramaticais (cat_gram) (adj, adv, gram, nom, num e ver), concatenação dos arquivos em apenas um arquivo [merge(objeto1, objeto2, ...)], organização por ordem de frequência (do mais frequente ao menos frequente) e ordem alfabética (a-z) [order(freq_orto, ortografia)], computação do número total de formas [nrow(orthography)] e da frequência total [sum(freq_orto)], coluna com número de identificação (id) em ordem crescente [c(1:nrow)] este número de identificação passa a ser também a posição da palavra no léxico e consequentemente a distribuição de Zipf, coluna com frequência da palavra por milhão de palavras (freq_orto/M) [1000000 * freq_orto / freq_total], coluna com log10 da frequência do corpus [log10(freq_orto)], coluna com o número de letras [nchar(ortografia)], exclusão das formas com mais de 30 letras, coluna com o número de formas homógrafas [aggregate(ortografia, list(freq_orto), sum)], coluna com as diferentes categorias gramaticasi das formas homógrafas.

24/02/2014 - download dos 13 arquivos no formato .txt do corpus do NILC/São Carlos no Linguateca separados por categorias gramaticais (6 arquivos de formas: adjetivos, advérbios, gramaticais, nomes, numerais e verbos; 7 arquivos de lemas: adjetivos, advérbios, gramaticais, nomes, nomes próprios, numerais e verbos). Abertura e verificaçõ de todos os arquivos de formas no programa R. Computação do número total de palavras e do número total de formas em todos os arquivos e comparação dos resultados com od dados fornecidos no Linguateca, corpus do NILC/São Carlos.

18/02/2014 - implementação e teste do Léxico do Português Brasileiro na internet com acesso através do domínio http://portugueselexicon.co.nf. Importação do banco de dados do corpus piloto verbal do Léxico do Português Brasileiro no formato .csv para um banco de dados MySQLQL. Bom funcionamento de todas as páginas. Implementação de caracteres coringas. O próprio MySQL reconhece os símbolos "_" para substituir uma letra e "%" para substituir uma cadeia de letras. Para os campos numéricos, desenvolvemos um algorítmo em PHP que reconhece os simbolos "<" e ">" (menor que e maior que) e procura por conjuntos de características numéricas correspondentes. Inserção de um bloco à direita no corpo principal contendo dicas para as pesquisas: 1) símbolos coringas que podem ser utilizados "_", "%", "<" e ">" e 2) categorias gramaticais "adj, adv, gram, nom, num, ver".

15/02/2014 - pesquisa de sites de hospedagem gratuíta para o Léxico do Português Brasileiro para acesso aberto, público e gratuíto dos usuários. Avaliação dos diversos sites encontrados de acordo com nossas necessidade: a) espaço de pelo menos 100 MB, b) banco de dados MySQL, c) suporte à linguagem de programação PHP, e 4) gratuíto. Seleção do site http://www.biz.nf, que oferece as seguintes vantagens: a) espaço em dico de 250 MB, b) banco de dados MySQL 5, c) suporte à linguagem de programação PHP 4/5, d) gratuito, e ainda e) 5000 MB de transferência de dados, f) domínio gratuíto do tipo portugueselexicon.co.nf, g) webmail POP3/SMTP, e h) controle de arquivos por FTP.

12/02/2014 - programação em Java de algorítmos para manutenção das informações inseridas nos campo de pesquisa após o envio dos formulários HTML. Inserção dos campos de organização dos resultados com dois campos: 1) seleção do critério para organização dos resultados e 2) ordem crescente ou decrescente de apresentação dos resultados. Inserção do botão "Limpar" nos motores de pesquisa para limpar os dados presentes nos formulários. Estabelecimento do motor de pesquisa complexa com quatro campos de pesquisa. Inserção do botão "+ Critérios" no motor de pesquisa complexa com caminho para página de pesquisa (index2.php) com motor de pesquisa complexa com oito campos de pesquisa.

11/02/2014 - desenvolvimento das páginas do Léxico do Português Brasileiro: 1) Léxico - página inicial de pesquisa em português brasileiro (index.php), 2) Pseudopalavras - página de geração de pseudopalavras do português brasileiro, 3) Downloads - página de downloads de arquivos do Léxico do Português Brasileiro, 4) Ferramentas - página com uma série de ferramentas de corpora, estatística, psicolinguística, programas e literatura, 5) Atualizações - página com a descrição do desenvolvimento do Léxico do Português Brasileiro, 6) Créditos - página com informações, referências, autor, origem, licença, e agradecimentos do Léxico do Português Brasileiro, 7) Linguística Estatística - página com uma série de ferramentas e recursos para a análise linguística, psicolinguística e estatística, 8) Linguateca - link para o site do Linguateca, e 9) NILC - link para o site do NILC/São Carlos.

10/02/2014 - configuração visual do Léxico do Português Brasileiro no servidor local através de programação em CSS. Estabelecimento do cabeçalho, barra lateral fixa com links da página, corpo da página central e resultados, e rodapé inferior. Definição das páginas do Léxico do Português Brasileiro: 1) Léxico, 2) Pseudopalavras, 3) Downloads, 4) Ferramentas, 5) Atualizações, 6) Créditos, 7) Linguística Estatística, 8) Linguateca, e 9) NILC. Configurações de língua para a utilização do alfabeto latino e do português brasileiro. Codificação de caracteres UTF-8 da página HTML, do phpMyAdmin e do banco de dados MySQL. Perfeito funcionamento do idioma português brasileiro, evitando todos os problemas ortográficos, como acentuação, símbolos e caracteres especiais.

08/02/2014 - primeira versão em servidor local do Léxico do Português Brasileiro com dois motores de pesquisa: 1) pesquisa simples e 2) pesquisa complexa. Pesquisa simples foi constituído de uma área de texto para a pesquisa de múltiplas palavras. Pesquisa complexa possuiu dois campos de critérios das palavras a serem pesquisadas. Elaboração das opções com os critérios a serem pesquisados, seguido do campo de seleção "SIM" ou "NÃO" que define se o critério deve ou não ser considerado, seguido do campo para a inserção do critério a ser pesquisado. Cada motor de pesquisa possui um botão "Procurar" para iniciar a pesquisa e apresentar os resultados encontrados.

20/01/2014 - discussão com Prof. Dr. Sandra M. Aluísio e Porf. Dr. Maria das Graças Volpe Nunes sobre o corpus NILC/São Carlos, com mais de 32 milhões de palavras e 49 MB, e com o Porf. Dr. Tony Berber Sardinha sobre o Corpus Brasileiro, com mais de 1 bilhão de palavras e 3.2 GB. Chegamos a conclusão e consenso que o corpus do NILC/São Carlos seria o melhor corpus para o desenvolvimento do Léxico do Português Brasileiro pelos seguintes critérios: a) número de palavras (cerca de 32 milhões) condizente com outros corpora, b) frequências já contabilizadas, c) quantidade de arquivos (13), mas principalmente tamanho dos arquivos e tamanho total do corpus (49 MB), d) facilidades no processamento para o desenvolvimento do Léxico do Português Brasileiro, e) organização dos arquivos individuais em .txt por categorias gramaticais, e formas e lemas, f) recursos e publicações já desenvolvidos pelo NILC/São Carlos.

21/12/2013 - construção da página piloto do Léxico do Português Brasileiro. Utilização de um servidor localhost com o programa XAMPP, que já possui os módulos Apache, MySQL, PHP e Perls pré-instalados. Configuração e utilização do phpMyAdmin para a importação do corpus previamente computado e salvo em .csv para um banco de dados MySQL. Utilização do programa Notepad++ para a programação da página HTML/PHP de interface entre usuário e o banco de dados MySQL.

22/10/2013 - construção do corpus piloto do Léxico do Português Brasileiro a partir do arquivo em .txt de formas de verbos do corpus do NILC/São Carlos, disponibilizado no Linguateca. Utilização do programa R para o desenvolvimento de 10 colunas de informações: 1) forma ortográfica, 2) frequência do corpus, 3) frequência por milhão de palavras, 4) log10 da frequência do corpus, 5) número de letras, 6) categoria gramatical, 7) informações gramaticais, 8) forma ortográfica invertida, 9) estrutura CVCV, 10) estrutura CVCV invertida.

04/08/2013 - pré-seleção no site do Linguateca dos dois maiores corpora do português brasileiro: 1) Corpus Brasileiro e 2) NILC/São Carlos. O Corpus Brasileiro possui cerca de 1 bilhão de palavras e todos os arquivos tem um tamanho total de 3.2 GB, o corpus do NILC/São Carlos possui aproximadamente 32 milhões de palavras e todos os arquivos possuem um tamanho total de 49 MB. A partir do corpus do NILC/São Carlos, fizemos um pequeno corpus piloto apenas de verbos (pois é a categoria gramatical que pesquiso em meu doutorado), contabilizando cerca de 80 mil formas.

16/06/2013 - consolidada a concepção do Léxico do Português Brasileiro - LexPorBR, necessidade de conhecimentos de programação das páginas na internet em HTML, consolidação do corpus em um banco de dados MySQL, e programação da interface entre usuário e o banco de dados através de PHP. Ainda, necessidade de conhecimentos básicos das linguagens de programação Java e CSS para complementação das páginas na internet.

04/01/2013 - procura de um corpus psicolinguístico do português brasileiro para a seleção de palavras para experiências psicolinguísticas em português brasileiro. Conhecimento Linguateca, página que hospeda uma série de corpora do português, porém nenhum corpus psicolinguístico do português brasileiro. Anotação em um postit "fazer o Léxico do Português Brasileiro". Levantamento dos instrumentos necessários para a criação de um corpus psicolinguístico do português brasileiro: acesso a um grande e variado corpus do português brasileiro com as formas e frequências já computadas, processamento destes dados no programa estatístico R, disponibilização deste corpus na internet.