Construção de Tesauro

De Stoa
Ir para: navegação, pesquisa

UNIVERSIDADE DE SÃO PAULO FACULDADE DE FILOSOFIA, CIÊNCIAS E LETRAS DE RIBEIRÃO PRETO CIÊNCIAS DA INFORMAÇÃO E DA DOCUMENTAÇÃO


BRUNO CESAR RODRIGUES – N. USP 5482540






CONSTRUÇÃO DE TESAUROS: LINGUAGENS DOCUMENTÁRIAS*



Trabalho apresentado como requisito de aprovação na disciplina Construção de Tesauros, ministrada no segundo semestre de 2007, no curso de Ciências da Informação e da Documentação.


Docente: Profª Drª Maria Cristiane Barbosa Galvão





Ribeirão Preto 2007 BRUNO CESAR RODRIGUES – N. USP 5482540











CONSTRUÇÃO DE TESAUROS: LINGUAGENS DOCUMENTÁRIAS



Trabalho apresentado como requisito de aprovação na disciplina Construção de Tesauros, ministrada no segundo semestre de 2007, no curso de Ciências da Informação e da Documentação.


Docente: Profª Drª Maria Cristiane Barbosa Galvão





Ribeirão Preto 2007


INTRODUÇÃO

Segundo a Declaração de Princípios sobre a Liberdade de Expressão: Toda pessoa tem o direito a buscar, receber e divulgar livremente informações e opiniões em conformidade com o que estipula o artigo 13 da Convenção Americana sobre Direitos Humanos. Todas as pessoas devem ter igualdade de oportunidades para receber, buscar e divulgar informação por qualquer meio de comunicação sem discriminação, por nenhum motivo, inclusive os de raça, cor, religião, sexo, idioma, opiniões políticas ou de qualquer outra natureza, origem nacional ou social, posição econômica, nascimento ou qualquer outra condição social. Juntando-se a isso o constante desenvolvimento das tecnologias de informação e comunicação, percebe-se que o volume de informações tem aumentado de forma exponencial, além de ser cada vez mais rápido, tornando mais difícil a tomada de decisão quanto às informações que se tem acesso. Em outras palavras, na atualidade, a quantidade de informação que se produz, além da velocidade de produção, alcançou grandes proporções, onde se torna cada vez mais imprescindível a utilização de ferramentas que facilitem a busca e o acesso àquilo que é importante, principalmente às pesquisas, e de forma mais rápida. Mesmo com a sofisticação das tecnologias de informação e comunicação, que possibilitam o acesso de forma mais rápida a um número imenso de informações de forma rápida, sabe-se que não é fácil a extração de informações confiáveis, eficazes e de forma instantânea. O que se consegue, na maioria das vezes, é destacar uma ou outra informação, em alguma base de dados, que reflete a necessidade do usuário ou algo próximo a esta. O problema que se encontra neste grande fluxo informacional é a falta de uniformidade na organização e representação destas informações, prejudicando a acessibilidade e a compreensão das informações disponibilizadas. Ou seja, mesmo com a facilidade de acesso às informações, conquistados pelas tecnologias de informação e comunicação, o acesso cognitivo àquelas continua prejudicado devido a falta de tratamento uniforme das informações. Há uma imensa competitividade pela disponibilização das informações, porém, pouco ou quase nada se pensa em relação às normas e padrões de tratamento da informação, ocasionando em perda de eficácia e eficiência na recuperação das mesmas. Para que se tenha uniformidade e transparência nessa disponibilização, as estratégias adequadas não devem se fixar somente às técnicas de informática, mas sim no desenvolvimento de um sistema de tratamento e recuperação da informação. Tal sistema também deve levar em consideração que há diversidades no que diz respeito a necessidades de informação por parte dos usuários, possibilitando fazer combinações de termos que conduzam a um assunto composto, refletindo de forma mais próxima a necessidade apresentada por esse usuário.

Sistema para indexação e recuperação de informação Levando em consideração o exposto acima e o fato do crescimento da produção de documentos científicos e técnicos, desde as décadas de 40 e 50 passou-se a exigir a existência de um instrumento de representação do conteúdo mais elaborado e eficaz que os então utilizados cabeçalhos de assunto. Deste momento começam a surgir os primeiros Tesauros. Segundo definição exposta pelo trabalho que se apresenta, “Tesauro é um conjunto de termos semântica e genericamente relacionados, cobrindo uma área específica do conhecimento. É um instrumento da indexação/recuperação de informação” (GOMES, 2000). Também se levando em consideração a definição realizada por Holzem, 1999, citado em Meneses, Cunha e Heeman, 2004, p.60, o Tesauro pode se definir, do ponto de vista de sua função, como instrumento de controle da terminologia utilizado com o intuito de traduzir a linguagem natural a uma linguagem mais controlada, já sob o ponto de vista de sua estrutura, este autor dialoga em outras palavras com a definição de Gomes. Ainda na década de 50, alguns estudiosos da classificação criaram o Classification Research Group – CRG, na Inglaterra, objetivando não só estudar, mas também aperfeiçoar as teorias da classificação. Como resultado deste trabalho, foi apresentado o Thesaurofacet. Este foi considerado um marco no desenvolvimento das linguagens documentárias pela integração da tabela de classificação com o Tesauro. Sob esta perspectiva, o presente trabalho tem como objetivo o desenvolvimento e apresentação de um mini-Tesauro cuja temática abordada por este é a Linguagem Documentária. No seguimento deste trabalho, encontrar-se-á melhor definido o termo Tesauro, além da metodologia de construção de um Tesauro, explicações quanto ao uso desta ferramenta, bibliografias empregadas na construção do mesmo e, por fim, a lista dos termos nas divisões Hierárquicas, Alfabéticas e Permutadas, tendo como apêndice as fichas utilizadas na construção destas relações.

TESAURO: ORIGEM E DEFINIÇÃO O termo “Tesauro” tem suas origens provenientes do grego e do latim, cujo significado vem a ser “tesouro” e a primeira “obra a incluir esta expressão no seu título foi o Thesauro linguae romanae et britannica, publicada em 1565 e de autoria de Cooper” (CAVALCANTI, 1978, p. 27). Porém, a popularização do termo se deu através da publicação do dicionário de Peter Mark Roget, em Londres, 1852, intitulado “Thesaurus of English words and phrases”. Este dicionário levou cerca de 50 anos para ser finalizado (Idem). Por também significar vocabulário, dicionário ou léxico, Roget decidiu nomear seu dicionário de palavras “thesaurus”. O dicionário de Roget era um vocabulário que se organizava conforme o significado dos termos e não segundo a ordem alfabética, tornando-o diferenciado aos demais. Mesmo possuindo o mérito de estabelecer a denominação para vocabulários que relacionam seus termos por meio de algum tipo de relação de significado, o Tesauro de Roget e alguns Tesauros atuais possuem pouca semelhança entre si (MOREIRA, 2003). Alguns teóricos apresentaram estudos definitórios para Tesauro. Entre eles podem se destacar Vickery, Howerton, Alan Gilchrist, Currás e até mesmo a Unesco, além de outros. O que pode se observar destes estudos é que, desde as primeiras iniciativas com Mark Roget até os dias atuais, as definições em relação a Tesauro tem sofrido evoluções, além de “construções teóricas e metodológicas, pela introdução de novos modelos cognitivos e abordagem centrada no usuário” (MOREIRA, 2003, p. 23) Uma resultante desta evolução é a definição mais atual de Curras (1995), citado por Moreira, 2003, p. 24, onde Tesauro se define por “uma linguagem especializada, normalizada, pós-coordenada, usada com fins documentários, onde os elementos lingüísticos que a compõem – termos, simples ou compostos – encontram-se relacionados entre si sintática e semanticamente”. Explicitando melhor, segundo palavras de Moreira, por linguagem especializada entende-se aquela que atua em um domínio restrito; por normalizada, compreende-se uma linguagem controlada; as unidades lingüísticas são termos e, finalmente, por pós-coordenada deseja-se indicar que os termos são combinados no momento de seu uso, em oposição às linguagens pré-coordenadas cujos termos que designam assuntos complexos se coordenam previamente à sua utilização (lista de cabeçalhos de assunto, por exemplo) (MOREIRA, 2003, p. 24). A National Information Standards Organization (ANSI/NISO), também define Tesauro, neste caso, como sendo um “vocabulário controlado organizado em uma ordem conhecida na qual as relações de equivalência, hierárquicas e associativas entre os termos são claramente exibidas e identificadas por meio de indicadores de relação padrão” (ANSI/NISO Z39-19-1993, apud MOREIRA, 2003, p. 25). O Tesauro como ferramenta permite a uniformidade dos termos de indexação e recuperação da informação em um Sistema de Recuperação de Informação – SRI , considerando o princípio da contextualização (garantia literária e garantia de uso). O Tesauro é utilizado na indexação das informações, ou entrada de dados em uma base, e na recuperação da informação, ou saída de dados de uma base. A entrada é realizada pelo profissional da informação/indexador e a saída se refere à utilização da base pelo usuário, quando da realização de buscas. Por garantia literária se entende à busca de definições e de termos mais utilizados que representem um determinado assunto através da literatura existente, seguindo critérios de escolha dos textos que se apresentam publicados, já garantia de uso se refere a forma mais utilizada pelos usuários e profissionais para representar o assunto que desejam, ou seja, é levado em conta os termos que o usuário do sistema utiliza e/ou sugere para representação de um determinado assunto, além do indicados pelos profissionais, também seguindo critérios de escolha do mesmo.

Estrutura do Tesauro A composição de um Tesauro se faz através de termos descritores , cujas entradas são individuais e ordenados conforme as relações recíprocas os mesmos e de notas explicativas. A definição para termo, segundo Gomes, 2000, é de que o mesmo “é uma palavra ou um grupo de palavras que designa um conceito, guardando com ele uma relação unívoca. [...] Seu objeto não é a língua, mas o conceito. […] O termo designa uma unidade conceitual, não importa de quantas palavras seja constituído”. Os termos devem ser padronizados quanto a sua forma e significado, constituindo-se de palavras ou grupos de palavras. Aos termos de grafia igual, que possuem diferentes significados, são sempre acrescidos de um qualificador , delimitando seu escopo semântico, representado entre parênteses. Por exemplo: Relação (genérico-específica)


Resumindo, os conceitos inseridos em um Tesauro são representados pelos descritores, não-descritores (segundo Angulo Marcial, 1996, citado em Menezes, Cunha, Heemann, 2004, p. 41, significa palavras ou termos empregados para remeter a um equivalente, utilizado em um Tesauro), qualificadores (Símbolo ou palavra associada a um termo para diferenciar seus significados ou para precisar sua utilização em um determinado contexto (DÉGEZ; MENILLET, 2001, apud MENEZES, CUNHA, HEEMANN, 2004, p. 50)) e modificadores (adjetivo ou frase que se adiciona ao núcleo, em uma relação sintagmática para expressar um conceito diferente, precisando ou delimitando seu alcance (ANGULO MARCIAL, 1996, apud MENEZES, CUNHA, HEEMANN, 2004, p. 40)).

Relações conceituais em Tesauro No caso das relações, no Tesauro se estabelecem as relações conceituais, que são definidas por: relações de equivalência, relações hierárquicas, relações partitivas e relações associativas. Relação de equivalência, segundo Chaumier, 1988, apud Menezes, Cunha e Heemann, p.50, vem a ser “a relação que permite remeter ao termo descritor os termos considerados sinônimos ou quase sinônimos”. Ou seja, quando o mesmo conceito pode ser expresso por dois ou mais termos, seleciona-se um deles como sendo o “preferido”, passando o escolhido a ser o descritor. A relação entre termos preferidos e não preferidos denomina-se relação de equivalência. Nesta, cada termo é considerado como se referindo ao mesmo conceito, sendo feita uma referência cruzada entre os termos e os descritores indicando a reciprocidade. Enfim, na possibilidade de representação de um conceito por vários símbolos distintos ou quando a intenção é a redução de níveis de implicações conceituais, por questões pragmáticas, são estabelecidas as relações de equivalência semântica, sendo que tias relações permitem o controle dos três conjuntos de dispersões semânticas, que são características da língua natural: léxicas (sinônimos e quase sinônimos), simbólicas (grafia diferente, abreviatura, razão social e nome fantasia e tradução) e sintáticas (coordenação, gênero e número). (DOBEDEI, 2002)

A reciprocidade da relação de equivalência é expressa pelas seguintes convenções:

U ou USE – que leva de um termo não preferido (entrada) ao descritor. Exemplo: Unidade de conhecimento

	USE: Conceito

UP ou USADO PARA (Use For – UF), o recíproco que registra termos de entrada levando ao descritor. Exemplo: Conceito UF: Unidade de conhecimento

Essa relação cobre três tipos de termos: sinônimos (significados são considerados como o mesmo ou quase o mesmo em uma larga escala de contextos); variantes lexicais (palavras diferentes para a mesma expressão); e quase-sinônimos (termos cujos significados são geralmente considerados tão diferentes, mas que são tratados como equivalentes para as finalidades de um Tesauro). Relação hierárquica ou gênero-espécie, conforme definição de Dobedei, 2002, é aquela que se estabelece entre dois termos diferentes, que possuem características idênticas, porém, um deles é dotado de uma característica a mais, que o coloca em um estágio superior ao outro, ou seja, relações entre o conceito mais amplo ou extenso e o mais restrito ou intenso. A essa relação também se denomina relação de abstração, visto que a cada nível hierárquico abstrai-se uma característica a mais. A relação hierárquica é uma característica básica que distingue um Tesauro sistemático de uma lista de termos não-estruturada, tal como um glossário. Ela mostra em graus ou níveis de superordenação e subordinação, onde o descritor do superordenado representa uma classe ou um todo, e os descritores subordinados se referem a seus membros ou partes. A reciprocidade pode ser expressa pelos seguintes indicadores de relacionamento: TE (Termo Específico) – NT (Narrower Term) TG (Termo Geral) – BT (Broader Term) Exemplo: BT: Linguagem de especialidade NT: Termo As relações hierárquicas também podem ser indicadas por representações sistemáticas como estrutura de árvore e essas relações situações logicamente diferentes e exclusivas: relação genérica*; relação partitiva (parte-todo)**. A união de dois termos que possuem conotações entre si denomina-se Relação associativa, o que significa que, o indexador se interessará em buscar conhecer do termo que se associa ao primeiro (CHAUMIER, apud MENEZES, CUNHA, HEEMANN, 2004 p. 50). Sua abrangência é a associação entre descritores que não são equivalentes nem hierárquicos, entre termos com proximidade de significado (Causa/Efeito; Material/Objeto; Material/Propriedade; Processo/Produto; Processo/Instrumento; Objeto (conteúdo)/Continente; Atividade/Lugar); expressa pela abreviatura TR (Termo Relacionado) – RT (Related Term). Exemplo: Termo RT: Conceito Segundo Cintra et al, 2002, p. 63, há certa dificuldade em definir as relações associativas ou não hierárquicas, como são chamadas, pelo “fato de que todas as palavras, termos ou conceitos podem se relacionar entre si em algum momento. Isto porque as associações dependem, em larga medida, do universo de referência considerado”.

Polissemia e Ambigüidades

Segundo Cintra et al, 2002, p. 70, “para a Lingüística, a palavra é sempre fonte de significação. Mas há que se distinguira plurissignificação como fenômeno geral, decorrente da organização sintático-semântica de enunciados, e a polissemia, fenômeno específico da área vocabular”. No caso da ambigüidade, esta “é entendida como a possibilidade de uma comunicação lingüística prestar-se a mais de uma interpretação e ocorre em função, tanto da plurissignificação como da polissemia” (Idem). Há também a homonímia, “que consiste em uma mesma forma significante de remeter a duas realidades vocabulares diversas, sejam unidades com identidade fônica (homofonia) ou identidade gráfica (homografia), pode gerar ambigüidade (Idem, p.71). Em linguagem documentária, neste caso no Tesauro, tanto a ambigüidade quanto a polissemia devem ser eliminadas, visto ser o propósito deste a monossemia dos termos, ou seja, um único conceito para cada termo.

Sinonímia O termo sinonímia significa a ocorrência de equivalência entre duas palavras, ao menos (CINTRA et al., p2002). Neste caso, o que ocorre é a possibilidade de substituição de um termo pelo outro de igual equivalência. Porém, diferencia-se os termos por preferência, onde o termo preferido vem indicado da seguinte forma: Exemplo: Unidade de conhecimento

	USE: Conceito  USE indica a preferência do termo Conceito à Unidade de conhecimento.

Quanto à utilidade e objetivos dos Tesauros Como pode ser observado através dos itens anteriores, o Tesauro é um vocabulário controlado utilizado tanto para auxiliar no processo de consultas/buscas realizadas pelo usuário (consulente), como pelo indexador durante o processo de classificação/indexação de assuntos. Seja para um ou outro tipo de usuário, devido a sua estrutura de termos e suas relações, o Tesauro auxilia a encontrar o melhor termo ou termos que representem um assunto desejado. Assim, o Tesauro se mostra como um componente de grande importância em um sistema de recuperação da informação, pelo fato de cumprir o papel de: determinar qual ou quais termos podem ser utilizados na entrada do sistema ou na saída, visando um indexação ou busca com resultados satisfatórios; e permitir a introdução de novos termos em sua estrutura de termos e relações de modo a aproximar a linguagem do usuário à do sistema e realizar alterações de sentidos dos termos existentes (MOREIRA, 2003). Enfim, o Tesauro tem como seus objetivos principais: Indexar, Armazenar e Recuperar informações inerentes à temática abordada pelo mesmo, com vistas a facilitar o acesso rápido e fácil do usuário/consulente.

Metodologia Os primeiros passos seguidos para a construção deste Tesauro foi a definição/delimitação do campo temático ou domínio deste, baseando-se apenas na literatura técnica, também previamente delimitada, para coleta dos termos. Sendo determinada a área temática deste Tesauro como Linguagem Documentária, definiram-se os textos a serem utilizados para coleta dos termos. Visto ser a construção deste Tesauro apenas um exercício prático e não uma tarefa exaustiva, foi determinado que se utilizasse apenas três textos (relacionados na referência). O passo seguinte foi a leitura dos textos e coleta dos termos, seguindo uma estrutura de ficha para os termos como segue abaixo: Ficha terminológica

Termo: Análise em faceta  Termo coletado Língua do Termo: (x) Português  Língua do termo ( ) Inglês ( ) Outra Língua Origem do Termo: ( ) Linguagem comum (x) Linguagem documentária  Área temática a que pertence ( ) Empréstimo de outra área. Qual? Contexto:  Contexto ao qual se insere o termo Definição: A expressão análise em facetas foi adotada por Ranganathan para indicar a técnica de fragmentar um assunto complexo em seus mais diversos aspectos/partes constituintes, que são as facetas, utilizando, para estabelecer a relação entre eles as “categorias fundamentais”, de noções abstratas, denominadas Personalidade, Matéria, Energia, Espaço, Tempo, conhecidas pela PMEST.  Definição abordada no texto Relações Termo equivalente:

                                                              Relações entre os termos

Termo associado/relacionado: Assunto complexo Faceta Categoria

Termo geral:

                                  Estabelecimento de hierarquia entre os termos

Termo específico:

Fonte: TRISTÃO, Ana Maria Delazari; FACHIN, Gleisy Regina Bóries; ALARCON, Orestes Estevam. Ciências da Informação, Brasília, v. 33, n. 2, p. 161-171, mai./ago. 2004.  Fonte consultada Autor da ficha: Bruno Cesar Rodrigues Data: 13/11/2007


Responsabilidade e data de coleta

Após a coleta dos termos, são contrapostos as fichas que se repetem em vistas de estabelecer a melhor definição para o termo coletado para a área em estudo. Já estabelecida qual a melhor definição, são constituídas as fichas sínteses, conforme abaixo:

Ficha síntese

Termo: Classificação Língua do Termo: (x) Português ( ) Inglês ( ) Outra Língua Origem do Termo: ( ) Linguagem comum (x) Linguagem documentária ( ) Empréstimo de outra área. Qual? Contexto: Definição: Neste contexto, [Classificação] será visto como Teoria da Classificação, abordando os fundamentos estabelecidos por Ranganathan, com a finalidade de criar tabelas de classificação facetada (linguagem documentária). (…) Classificação é um conjunto de conceitos organizados sistematicamente de acordo com os critérios ou características escolhidas, conforme (…) a norma ISO TR 14177/94. (…) Portanto, a classificação é um processo mental por meio do qual podemos distinguir coisas, seres ou pensamentos pelas suas semelhanças ou diferenças, estabelecer as suas relações e agrupá-las em classes de acordo com essas relações. A classificação torna-se, pois, a arte de colocar diversas coisas desordenadas em um todo ordenado (Souza, 1943 apud Straioto, 2001). Relações Termo equivalente: Teoria da classificação

Termo associado/relacionado: Tabela de classificação facetada Conceito ISO TR 14177/94 Conhecimento Classe

Termo geral: Linguagem documentária

Termo específico:

Autor da ficha: Bruno Cesar Rodrigues Data: 02/12/2007

O que muda desta ficha para a primeira é a não colocação do(s) autor(es) da definição, pois, como às vezes são muitos, isso se torna inviável. A organização dos conceitos foi conduzida através da indução, que se define, segundo Barité, 1997, citado em Menezes, Cunha, Heemann, 2004, p. 40, como “modalidade eminentemente empírica de investigação que parte de uma observação da casuística de um fenômeno para, mediante a busca e o agrupamento de semelhanças, formular conclusões gerais”. Estando completas as fichas, os termos são inseridos em um software específico para construção de Tesauros. O software utilizado neste trabalho foi o Multites, software comercial disponível para download de teste em <http:.//www.multites.com> . Através deste software, é possível verificar erros na estrutura dos relacionamentos, além de gerar os índices alfabéticos, hierárquicos e permutados, presentes neste trabalho. É imprescindível entender que este não é um trabalho final, não é um trabalho que se realiza e se encerra. Pelo contrário, a partir do momento que se constrói um Tesauro, deve-se mantê-lo sempre atualizado. Isso se dá pelo fato de os termos e as definições estarem em constantes mudanças.

REFERÊNCIA

CAVALCANTI, Cordélia R. Indexação & Tesauro: metodologia & técnicas. Brasília, Associação de Bibliotecários do Distrito Federal, 1978. CINTRA, Anna Maria Marques et al. Para entender as linguagens documentárias. 2 ed. rev. E ampl. Soa Paulo : Polis, 2002. DODEBEI, Vera Lúcia D. Tesauro: linguagem de representação da memória documentária. Rio de Janeiro, Intertexto/Interciência, 2002. GOMES, H. E. Classificação, tesauro e terminologia: fundamentos comuns. Disponível em: http://www.conexaorio.com/biti/tertulia/tertulia.htm>. Acesso em: 13 set 2007•. LARA, Marilda. Diferenças conceituais sobre termos e definições e implicações na organização da linguagem documentária. Ciência da Informação, Brasília, DF, 33.2, 10 12 2004. Disponível em: <http://www.ibict.br/cionline/viewarticle.php?id=304>. Acesso em: 18 set. 2007•. MENEZES, Estera Muszkat; CUNHA, Miriam Vieira da; HEEMANN, Vivian Maria. Glossário de análise documentária. Londrina : ABECIN, 2004. MOREIRA, Alexandra. Tesauros e Ontologias: estudo de definições presentes na literatura das áreas das Ciências da Computação e da Informação, utilizando-se o método analítico-sintético. Belo Horizonte, 2003. Dissertação (Mestrado em Ciência da Informação) – Escola de Ciência da Informação, Universidade Federal de Minas Gerais, 2003. NATIONAL INFORMATION STANDARDS ORGANIZATION (U.S.). Guidelines for the construction, format, and management of monolingual thesauri / developed by the National Information Standards Organization: approved August 28, 2003, by the American National Standards Institute - ANSI/NISO Z39.19 – 2003 (revision of Z39.19 – 1980). Bethesda (USA): NISO Press, 2003. ISBN 1-880124-04-1. TRISTÃO, Ana Maria Delazari; FACHIN, Gleisy Regina Bóries; ALARCON, Orestes Estevam. Ciências da Informação, Brasília, v. 33, n. 2, p. 161-171, mai./ago. 2004•.

Ferramentas pessoais
Espaços nominais

Variantes
Ações
Navegação
Imprimir/exportar
Ferramentas