MODULO
4 EDITORES WEB
LENGUAJES
HTML
2.0
HTML que circulaba era el 2.0 (establecido en noviembre del95), de modo
que cualquier navegador que encontremos será capaz de interpretarlo.
Prácticamente todo lo que veamos en seis capítulos está
contemplado por este estándar.
HTML
3.0 y 3.2
Aunque la versión 2.0 cumplía bien el objetivo para el que
se mínimamente complejo de los documentos. No se consideró
necesario que lo tuviera, ya que por aquel entonces Internet era un fenómeno
más bien circunscrito a la actividad ello, Netscape (líder
del mercado de navegadores por aquel entonces) empezó a incluir
etiquetas nuevas no incluidas en ningún estándar.
Por
estos problemas, el IETF (el comité que suele decidir todos los
estándares dentro de Internet) comenzó a elaborar para la
época, lo que dificultó su aceptación en el mercado.
Microsoft, IBM, Sun, etc...) a crear un nuevo comité llamado W3C,
que es el que actualmente elabora las nuevas versiones del HTML. Su primer
trabajo consistió en crear el borrador principales navegadores
(Netscape y Explorer) habíanlos introducido en Internet, como son
las tablas, los applets, etc.. Este borrador fue aprobado en enero de
1997 e inmediatamente el W3C se puso a trabajar en la elaboración
del siguiente estándar: el 4.0.
HTML
4.0
En julio de 1997 se presenta el borrador de este estándar. Por
fin se estandarizan los marcos (frames), las hojas de estilo y los scripts
(entre otras cosas). El 17 de diciembre de 1997 dicho borrador fue finalmente
aprobado.
Estándares
Interpretar el HTML 3.2, pero por si necesitais saber por alguna razón
el estándar al que pertenece una etiqueta o parámetro en
particular, se incluirá una de las siguientes indicaciones:
HTML 3.2
Introducido con la versión 3.2 del HTML
HTML 4.0
Introducido con la versión 4.0 del HTML
Etiqueta o parámetro no estándar soportado
Netscape sólo por el Netscape
Explorer sólo por el Explorer no estándar soportado
HTML
2.0
El HTML no es más que una aplicación del SGML (Standard
Generalized Markup Language), un sistema para definir tipos de documentos
estructurados y lenguajes de marcas para representar esos mismos documentos.
El término HTML se suele referir a ambas cosas, tanto al tipo de
documento como al lenguaje de marcas. En realidad aún no existe
un estándar del HTML en Internet, ya que existen tres revisiones
o niveles de estandarización que aún no han sido aceptadas:
la versión 1.0, que en realidad no existe como estándar
ya que nunca se hizo una especificación formal, la 2.0, que es
un estándar de hecho, aunque todavía está en la etapa
de propuesta de estándar documentada en el RFC-1866 de noviembre
de 1995. El siguiente nivel, el HTML 3.0, está en una etapa experimental,
aunque muchos de los visores aceptan algunas de las extensiones propuestas.
En este apartado comentaremos la especificación del HTML 2.0 tal
y como se describe en el RFC-1866. En el punto siguiente hablaremos de
algunas de las propuestas de ampliación para el HTML 3.0 y algunas
extensiones soportadas por algunos de los visores.
GENERALIDADES
Antes de comenzar, comentaremos algo de la terminología necesaria
para el resto de la descripción.
La definición del HTML en SGML incluida en el estándar resulta
demasiado compleja para tratarla aquí, ya que es una descripción
formal basada en la teoría de lenguajes. Nos limitaremos a una
aproximación informal al lenguaje, aunque siguiendo el esquema
empleado en el estándar.
Dividiremos la descripción del lenguaje en varias partes:
* Descripción de los componentes léxicos del HTML. Donde
se indica el formato de los caracteres, marcas, nombres, atributos y comentarios.
* Estructura de los documentos. Hablaremos de las marcas empleadas para
definir las partes del documento, las estructuras de bloque y lista, las
marcas de formato de párrafos y algunas marcas especiales que no
entran en las categorías anteriores.
* Caracteres, palabras y párrafos. Juegos de caracteres aceptados
en el HTML y el marcado alternativo para que el texto sea sólo
ASCII de 7 bits, además de describir cómo se tratan las
palabras y los párrafos.
* Soporte de hipertexto. Además de las marcas de formato necesitamos
marcas para definir relaciones entre distintos documentos (e incluso entre
partes de un mismo documento). Para ello, el HTML define una serie de
marcas que denominaremos hiperenlaces. Comentaremos su sintaxis y funcionamiento
en detalle.
* Formularios. Nuevos en el HTML 2.0, permiten la interacción del
usuario y el servidor mediante la definición de plantillas de formulario,
que el usuario completa y envía al servidor para su proceso. Según
el propósito del formulario el cliente recibirá algún
tipo de respuesta.
COMPONENTES
LÉXICOS
Comenzamos nuestra descripción del HTML definiendo los componentes
léxicos del lenguaje, es decir, las distintas entidades o elementos
que pueden emplearse en los documentos.
Caracteres
Cada documento escrito en HTML puede emplear un juego de caracteres distinto,
como veremos más adelante. De cualquier modo, todas las marcas
se pueden escribir usando el ISO-646, el mismo juego de caracteres aceptado
por los lectores de correo. Cualquier cadena de caracteres imprimibles
que no represente un marcado se representa literalmente, aunque los espacios
y tabuladores se reducen a un solo carácter cuando no están
dentro de un bloque preformateado.
Para reducir los documentos a ASCII de 7 bits y representar los caracteres
empleados para marcar el texto se definen dos mecanismos de referencia:
* Referencia por nombre: el carácter se representa con un &
seguido del nombre del carácter y un punto y coma, por ejemplo
& será el carácter & y < el carácter
<.
* Referencia numérica: en lugar de dar la referencia por nombre
se escribe # seguido del número de carácter en el código
de caracteres seleccionado, por ejemplo & será el carácter
& y el < el carácter <.
Aunque en algunos casos se puede omitir el punto y coma final, es recomendable
ponerlo para evitar errores. De igual forma, el carácter &
se representa a sí mismo si no va seguido de # o de una letra,
aunque siempre es preferible usar el código por la misma razón
que antes.
Marcas
Las marcas delimitan elementos de un documento como cabeceras, párrafos,
etc. La mayoría de marcas constan de una marca inicial, que da
el nombre y atributos del elemento, seguida del contenido y una marca
final. Las marcas iniciales se escriben entre los símbolos "<"
y ">" (menor y mayor) y las finales entre "</"
y ">" (menor barra y mayor). Por ejemplo, <H1>Contenido</H1>,
indica que "Contenido" es una cabecera de nivel uno. Algunos
elementos sólo tienen una marca inicial (por ejemplo la marca <HR>
que representa una línea horizontal) y otros, aunque disponen de
ambas, se suelen expresar sólo con la inicial. El contenido de
un elemento es una secuencia de cadenas de caracteres y puede incluir
elementos anidados, excepto en el caso de los anclajes, que no pueden
incluir otros elementos (pero si estar incluidos en otros).
Nombres
Los nombres consisten en una letra seguida de letras, dígitos,
puntos o guiones. Los ejemplos H1 y HR anteriores son ejemplos de nombres.
La longitud de un nombre esta limitada a 72 caracteres en la definición
del HTML. Los nombres de elementos y atributos no distinguen entre mayúsculas
y minúsculas, pero los nombres de entidades (la representación
alternativa de los caracteres) sí.
En las marcas, el nombre del elemento debe comenzar inmediatamente después
del <.
Atributos
Cuando una marca inicial admite atributos, éstos se escriben a
continuación del nombre del elemento. Generalmente los atributos
tienen la forma nombre, signo igual, valor del atributo aunque en algunos
casos basta con el nombre del atributo. Se pueden poner espacios en blanco
antes y después del signo igual. El valor de un atributo puede
ser:
* Una cadena de caracteres entre comillas (simples o dobles) que no contenga
el símbolo de fin de marca ">".
* Un nombre como los definidos en el apartado anterior.
La longitud del valor de un atributo no puede superar los 1024 caracteres.
Comentarios
Para incluir comentarios en HTML se emplea la declaración de comentarios.
Una declaración de comentarios comienza con <!, le siguen uno
o varios comentarios y termina con >. Cada comentario comienza con
-- e incluye todo el texto hasta la siguiente aparición de -- .
Dentro de una declaración de comentarios, se pueden poner espacios
en blanco después de cada uno de ellos, pero no antes del primero.
Toda la declaración del comentario se ignora.
Identificación
del Nivel HTML de un Documento
Para identificar un documento como HTML que sigue el estándar 2.0,
cada documento debe comenzar con la siguiente declaración:
<!DOCTYPE HTML PUBLIC "-//ITEF//DTD HTML 2.0//EN">
Existen más
identificadores que especifican otros detalles, por ejemplo si el documento
contiene formularios. Este mecanismo también puede ser empleado
por los visores para reconocer otros tipos de documentos.
ESTRUCTURA
DE LOS DOCUMENTOS
Los documentos en formato HTML son un conjunto de elementos anidados.
En el nivel más alto nos encontramos el elemento HTML (marca inicial
<HTML> y final </HTML>) que consta de dos partes: cabecera
y cuerpo.
La cabecera se emplea para proporcionar información acerca del
documento, mientras que el cuerpo contiene el texto de la página,
es decir, la información que se va a presentar al usuario. En el
cuerpo se pueden incluir todo tipo de elementos y marcas.
No es mala idea diseñarse una plantilla para desarrollar siempre
a partir de ella. Además del esqueleto de la página (marcas
de texto HTML, cabecera y cuerpo) podemos incluir en ella otras informaciones
que siempre queramos que aparezcan (tanto comentarios como elementos del
cuerpo o la cabecera). Prácticamente todos lo editores específicos
permiten el uso de plantillas y macros para introducir información
útil, como por ejemplo la fecha de la última modificación.
La siguiente página puede ser un buen punto de partida:
<!DOCTYPE HTML PUBLIC "-//ITEF//DTD HTML 2.0//EN">
<!-- Comentario sobre el autor -->
<HTML>
<HEAD>
<TITLE></TITLE>
<!-- Datos adicionales -->
</HEAD>
<BODY>
<!-- Datos cabecera pagina -->
<HR>
<HR>
<!-- Datos pie de pagina -->
</BODY>
</HTML>
Los
datos adicionales dependerán del autor. La cabecera y pie pueden
ser útiles para dar a todas las páginas el mismo aspecto,
aunque dependerán de que la persona que escribe las páginas
lo considere necesario. Entraremos ahora en la descripción de los
elementos que pueden aparecer en la cabecera y el cuerpo.
|
|
 |