1 2 3 4 5 6 7 8 9 10 11 12 13 14 16
   
MODULO 4 EDITORES WEB
LENGUAJES


VERSIONES DEL HTML

HTML 2.0
HTML que circulaba era el 2.0 (establecido en noviembre del95), de modo que cualquier navegador que encontremos será capaz de interpretarlo. Prácticamente todo lo que veamos en seis capítulos está contemplado por este estándar.

HTML 3.0 y 3.2
Aunque la versión 2.0 cumplía bien el objetivo para el que se mínimamente complejo de los documentos. No se consideró necesario que lo tuviera, ya que por aquel entonces Internet era un fenómeno más bien circunscrito a la actividad ello, Netscape (líder del mercado de navegadores por aquel entonces) empezó a incluir etiquetas nuevas no incluidas en ningún estándar.

Por estos problemas, el IETF (el comité que suele decidir todos los estándares dentro de Internet) comenzó a elaborar para la época, lo que dificultó su aceptación en el mercado. Microsoft, IBM, Sun, etc...) a crear un nuevo comité llamado W3C, que es el que actualmente elabora las nuevas versiones del HTML. Su primer trabajo consistió en crear el borrador principales navegadores (Netscape y Explorer) habíanlos introducido en Internet, como son las tablas, los applets, etc.. Este borrador fue aprobado en enero de 1997 e inmediatamente el W3C se puso a trabajar en la elaboración del siguiente estándar: el 4.0.

HTML 4.0
En julio de 1997 se presenta el borrador de este estándar. Por fin se estandarizan los marcos (frames), las hojas de estilo y los scripts (entre otras cosas). El 17 de diciembre de 1997 dicho borrador fue finalmente aprobado.

Estándares
Interpretar el HTML 3.2, pero por si necesitais saber por alguna razón el estándar al que pertenece una etiqueta o parámetro en particular, se incluirá una de las siguientes indicaciones:

HTML 3.2
Introducido con la versión 3.2 del HTML

HTML 4.0
Introducido con la versión 4.0 del HTML
Etiqueta o parámetro no estándar soportado
Netscape sólo por el Netscape
Explorer sólo por el Explorer no estándar soportado


HTML 2.0


El HTML no es más que una aplicación del SGML (Standard Generalized Markup Language), un sistema para definir tipos de documentos estructurados y lenguajes de marcas para representar esos mismos documentos. El término HTML se suele referir a ambas cosas, tanto al tipo de documento como al lenguaje de marcas. En realidad aún no existe un estándar del HTML en Internet, ya que existen tres revisiones o niveles de estandarización que aún no han sido aceptadas: la versión 1.0, que en realidad no existe como estándar ya que nunca se hizo una especificación formal, la 2.0, que es un estándar de hecho, aunque todavía está en la etapa de propuesta de estándar documentada en el RFC-1866 de noviembre de 1995. El siguiente nivel, el HTML 3.0, está en una etapa experimental, aunque muchos de los visores aceptan algunas de las extensiones propuestas. En este apartado comentaremos la especificación del HTML 2.0 tal y como se describe en el RFC-1866. En el punto siguiente hablaremos de algunas de las propuestas de ampliación para el HTML 3.0 y algunas extensiones soportadas por algunos de los visores.

GENERALIDADES

Antes de comenzar, comentaremos algo de la terminología necesaria para el resto de la descripción.
La definición del HTML en SGML incluida en el estándar resulta demasiado compleja para tratarla aquí, ya que es una descripción formal basada en la teoría de lenguajes. Nos limitaremos a una aproximación informal al lenguaje, aunque siguiendo el esquema empleado en el estándar.
Dividiremos la descripción del lenguaje en varias partes:
* Descripción de los componentes léxicos del HTML. Donde se indica el formato de los caracteres, marcas, nombres, atributos y comentarios.
* Estructura de los documentos. Hablaremos de las marcas empleadas para definir las partes del documento, las estructuras de bloque y lista, las marcas de formato de párrafos y algunas marcas especiales que no entran en las categorías anteriores.
* Caracteres, palabras y párrafos. Juegos de caracteres aceptados en el HTML y el marcado alternativo para que el texto sea sólo ASCII de 7 bits, además de describir cómo se tratan las palabras y los párrafos.
* Soporte de hipertexto. Además de las marcas de formato necesitamos marcas para definir relaciones entre distintos documentos (e incluso entre partes de un mismo documento). Para ello, el HTML define una serie de marcas que denominaremos hiperenlaces. Comentaremos su sintaxis y funcionamiento en detalle.
* Formularios. Nuevos en el HTML 2.0, permiten la interacción del usuario y el servidor mediante la definición de plantillas de formulario, que el usuario completa y envía al servidor para su proceso. Según el propósito del formulario el cliente recibirá algún tipo de respuesta.

COMPONENTES LÉXICOS

Comenzamos nuestra descripción del HTML definiendo los componentes léxicos del lenguaje, es decir, las distintas entidades o elementos que pueden emplearse en los documentos.

Caracteres
Cada documento escrito en HTML puede emplear un juego de caracteres distinto, como veremos más adelante. De cualquier modo, todas las marcas se pueden escribir usando el ISO-646, el mismo juego de caracteres aceptado por los lectores de correo. Cualquier cadena de caracteres imprimibles que no represente un marcado se representa literalmente, aunque los espacios y tabuladores se reducen a un solo carácter cuando no están dentro de un bloque preformateado.
Para reducir los documentos a ASCII de 7 bits y representar los caracteres empleados para marcar el texto se definen dos mecanismos de referencia:
* Referencia por nombre: el carácter se representa con un & seguido del nombre del carácter y un punto y coma, por ejemplo &amp; será el carácter & y &lt; el carácter <.
* Referencia numérica: en lugar de dar la referencia por nombre se escribe # seguido del número de carácter en el código de caracteres seleccionado, por ejemplo &#38; será el carácter & y el &#60; el carácter <.
Aunque en algunos casos se puede omitir el punto y coma final, es recomendable ponerlo para evitar errores. De igual forma, el carácter & se representa a sí mismo si no va seguido de # o de una letra, aunque siempre es preferible usar el código por la misma razón que antes.

Marcas
Las marcas delimitan elementos de un documento como cabeceras, párrafos, etc. La mayoría de marcas constan de una marca inicial, que da el nombre y atributos del elemento, seguida del contenido y una marca final. Las marcas iniciales se escriben entre los símbolos "<" y ">" (menor y mayor) y las finales entre "</" y ">" (menor barra y mayor). Por ejemplo, <H1>Contenido</H1>, indica que "Contenido" es una cabecera de nivel uno. Algunos elementos sólo tienen una marca inicial (por ejemplo la marca <HR> que representa una línea horizontal) y otros, aunque disponen de ambas, se suelen expresar sólo con la inicial. El contenido de un elemento es una secuencia de cadenas de caracteres y puede incluir elementos anidados, excepto en el caso de los anclajes, que no pueden incluir otros elementos (pero si estar incluidos en otros).

Nombres
Los nombres consisten en una letra seguida de letras, dígitos, puntos o guiones. Los ejemplos H1 y HR anteriores son ejemplos de nombres. La longitud de un nombre esta limitada a 72 caracteres en la definición del HTML. Los nombres de elementos y atributos no distinguen entre mayúsculas y minúsculas, pero los nombres de entidades (la representación alternativa de los caracteres) sí.
En las marcas, el nombre del elemento debe comenzar inmediatamente después del <.

Atributos
Cuando una marca inicial admite atributos, éstos se escriben a continuación del nombre del elemento. Generalmente los atributos tienen la forma nombre, signo igual, valor del atributo aunque en algunos casos basta con el nombre del atributo. Se pueden poner espacios en blanco antes y después del signo igual. El valor de un atributo puede ser:
* Una cadena de caracteres entre comillas (simples o dobles) que no contenga el símbolo de fin de marca ">".
* Un nombre como los definidos en el apartado anterior.
La longitud del valor de un atributo no puede superar los 1024 caracteres.

Comentarios
Para incluir comentarios en HTML se emplea la declaración de comentarios. Una declaración de comentarios comienza con <!, le siguen uno o varios comentarios y termina con >. Cada comentario comienza con -- e incluye todo el texto hasta la siguiente aparición de -- . Dentro de una declaración de comentarios, se pueden poner espacios en blanco después de cada uno de ellos, pero no antes del primero. Toda la declaración del comentario se ignora.

Identificación del Nivel HTML de un Documento
Para identificar un documento como HTML que sigue el estándar 2.0, cada documento debe comenzar con la siguiente declaración:
<!DOCTYPE HTML PUBLIC "-//ITEF//DTD HTML 2.0//EN">
Existen más identificadores que especifican otros detalles, por ejemplo si el documento contiene formularios. Este mecanismo también puede ser empleado por los visores para reconocer otros tipos de documentos.

ESTRUCTURA DE LOS DOCUMENTOS

Los documentos en formato HTML son un conjunto de elementos anidados. En el nivel más alto nos encontramos el elemento HTML (marca inicial <HTML> y final </HTML>) que consta de dos partes: cabecera y cuerpo.
La cabecera se emplea para proporcionar información acerca del documento, mientras que el cuerpo contiene el texto de la página, es decir, la información que se va a presentar al usuario. En el cuerpo se pueden incluir todo tipo de elementos y marcas.
No es mala idea diseñarse una plantilla para desarrollar siempre a partir de ella. Además del esqueleto de la página (marcas de texto HTML, cabecera y cuerpo) podemos incluir en ella otras informaciones que siempre queramos que aparezcan (tanto comentarios como elementos del cuerpo o la cabecera). Prácticamente todos lo editores específicos permiten el uso de plantillas y macros para introducir información útil, como por ejemplo la fecha de la última modificación. La siguiente página puede ser un buen punto de partida:
<!DOCTYPE HTML PUBLIC "-//ITEF//DTD HTML 2.0//EN">
<!-- Comentario sobre el autor -->
<HTML>
<HEAD>
<TITLE></TITLE>
<!-- Datos adicionales -->
</HEAD>
<BODY>
<!-- Datos cabecera pagina -->
<HR>
<HR>
<!-- Datos pie de pagina -->
</BODY>
</HTML>

Los datos adicionales dependerán del autor. La cabecera y pie pueden ser útiles para dar a todas las páginas el mismo aspecto, aunque dependerán de que la persona que escribe las páginas lo considere necesario. Entraremos ahora en la descripción de los elementos que pueden aparecer en la cabecera y el cuerpo.