Dicionários e corpora de espanhol

Entre os numerosos recursos que disponibiliza a Real Academia de la Lengua Española, o seu Diccionario é a plataforma indispensável para qualquer pessoa que procure elucidar o significado de uma palavra ou expressão da língua espanhola. Contém o maior número de acepções para cada lema. Para além de uma completa etiquetagem morfológica, inclui informações etimológicas, de área geográfica, de registo, de áreas especializadas, remissões, sinónimos e conjugador de verbos.

Diccionario de Colocaciones del Español é uma ferramenta muito útil para a escrita ou retroversão em espanhol. O conhecimento das combinatórias lexicais permite-nos saber, por exemplo, que no excerto A Juan le introdujeron ganas de salir. Cuando llegó a la calle, albergó un chasco porque vio que llovía, as sequências assinaladas não existem em espanhol.

O Diccionario de americanismos, fruto de anos de trabalho conjunto das academias da língua espanhola, constitui um importante repositório lexical do espanhol da América. Inclui informação detalhada sobre as caraterísticas geográficas, sociais e culturais do uso dos 70 000 vocábulos que são apresentados.

O Diccionario de términos clave de ELE é uma obra de consulta para professores, formadores e estudantes de disciplinas associadas à didática das línguas estrangeiras, e mais especificamente à do espanhol. Para além das definições e conceptualizações de um dicionário destas caraterísticas, inclui referências bibliográficas fundamentais para cada entrada.

Corpora

Corpus de Referencia del Español Actual (CREA): corpus dedicado à recolha do uso do espanhol nos últimos anos e às suas variantes em todos os países hispânicos. 

Corpus Diacrónico del Español (CORDE): parte do Banco de Dados do espanhol da Real Academia Española, é o maior recurso lexical – mais de 200 milhões de palavras – disponível para o idioma espanhol. Pretende ser uma amostra representativa da língua espanhola ao longo da sua história.

 Corpus Del Español: corpus diacrónico (de 1200 até ao final do século XX) com 100 milhões de palavras, de discurso escrito e oral. Foi idealizado por Mark Davies e apresenta as linhas de concordância em formato KWIC, ou seja, a palavra é centralizada e realçada em negrito. Permite pesquisas complexas por categoria gramatical e tipo de texto.

O Corpus del Español Actual (CEA) conta com 540 milhões de palavras. Está lematizado e marcado com informação morfológica e/ou categorial. O CEA é composto pelos seguintes elementos:

  1. a parte em espanhol do corpus paralelo espanhol-inglês Europarl: European Parliament Proceedings Parallel Corpus v. 6  (1996-2010);
  2. o módulo em língua espanhola do Wikicorpus v. 1.0, que contém uma parte importante da Wikipédia (2006);
  3. a seção em espanhol do  MultiUN: Multilingual UN Parallel Text 2000-2009, um corpus de deliberações das Nações Unidas (ONU).

CORPUS COLA – Corpus oral de lenguaje adolescente: registo sonoro de conversa espontânea de jovens (13 a 19 anos) de Madrid, Buenos Aires, Santiago do Chile e Guatemala. A transcrição é ortográfica e segue as recomendações do TEI. O site fornece acesso aos áudios (MP3 ou WAV) e às transcrições. Podem ser introduzidas noutro software (como o PRAAT) para uma análise fonética mais detalhada. Cada transcrição é classificada com parâmetros sociolinguísticos de classe social, sexo, idade e nível de formação. O browser (em inglês e norueguês) permite pesquisas avançadas baseadas em critérios como  idade, sexo ou estatuto social do informante.

PRESEEA é um projecto para a criação de um corpus da língua espanhola falada representativo do mundo hispânico na sua variação geográfica e social. Estes materiais são reunidos tendo em conta a diversidade sociolinguística das comunidades de língua espanhola.

PRESEEA reúne cerca de 40 equipas de investigação sociolinguística. É o resultado do trabalho coordenado de investigadores empenhados numa metodologia comum, a fim de reunir um banco coerente de materiais que possam ser aplicados para fins educativos e tecnológicos.

BwanaNet: programa, desenvolvido pelo Institut Universitari de Lingüística Aplicada (IULA) da Universitat Pompeu Fabra, que permite a extração de informação linguística do corpus técnico do IULA. As áreas contempladas no corpus são: economia, direito, genoma, informática, meio ambiente, medicina. Podem ser feitas buscas em espanhol, catalão e inglês.

Translate »