Universidad Nacional de Luján

Departamento de Ciencias Básicas

Laboratorio de Redes de Datos

 

Proyecto de Investigación “Modelos y Servicios de Información sobre Sistemas Complejos en Espacios Académicos y Científicos”

 

Versión en inglés:  Tolosa, G.; Bordignon, F.;  Baeza-Yates, R. y Castillo, C.  “Characterization of the Argentinian Web”,  Cybermetrics, 11 (2007), Issue 1, Paper 3

 

 

 

 

Caracterización del Espacio Web de Argentina

 

 

 

Gabriel Tolosa

 

Universidad Nacional de Luján

Departamento de Ciencias Básicas

Laboratorio de Redes

tolosoft@unlu.edu.ar

 

Fernando Bordignon

 

Universidad Nacional

 de Luján

Departamento de

Ciencias Básicas

Laboratorio de Redes

bordi@unlu.edu.ar

 

Ricardo Baeza-Yates[1]

 

Centro de Investigación

de la Web (CIW)

DCC

Universidad de Chile

 

ricardo@baeza.cl

 

Carlos Castillo

 

Yahoo! Research Barcelona

 

chato@yahoo-inc.com

 

 

 

 

 

Resumen

 

En este trabajo de investigación se caracteriza el espacio web argentino a partir del análisis de una muestra, tomada a principios del año 2006, cercana a los 10 millones de páginas extraídas de 150.000 sitios. En particular, se realizó análisis de contenidos, de enlaces y  de tecnologías utilizadas para construir sitios. Los resultados obtenidos son consistentes con los de otros espacios webs  nacionales, los cuales fueron procesados utilizando la misma metodología de trabajo.

 

Del estudio surgen las siguientes observaciones: Existe una importante proporción de dominios “com.ar” (97.6%) frente a otros tipos de dominios de segundo nivel. En lo referente al contenido de las páginas se encontró que predominan términos relacionados con la actividad comercial.  En los nombres de los sitios, extraídos de las URLs, aparecen mayormente términos relacionados con el turismo. Una alta proporción de las páginas (55%) no posee enlaces provenientes de otros sitios del dominio “.ar” y un 30% no poseen enlaces salientes. El 72% de las páginas han sido creadas o modificadas en el último año, lo cual indica que el espacio web argentino está creciendo aceleradamente. Con referencia a tecnologías utilizadas, el 48% de las páginas de la muestra son estáticas y el 52%, dinámicas, las cuales se encuentran construidas en gran parte utilizando herramientas libres como PHP y Perl. El 76% de los sitios se hallan alojados en servidores que residen en Argentina. De los indicadores anteriores se desprende que existe un importante desarrollo tecnológico y de la infraestructura de comunicaciones de Argentina relacionada con la web.

 

 

1 – Introducción

 

Actualmente, la World Wide Web es un espacio público utilizado por múltiples usuarios con objetivos diferentes. Originalmente, se presentaba como un repositorio distribuido que permitía compartir información y – aunque no ha perdido este objetivo – en la actualidad es un medio de publicación para diferentes usos como comercio, publicidad, educación, entretenimiento y contactos sociales, entre otros.

 

Si bien la web se encuentra en constante crecimiento el estudio de características y tendencias entrega una valiosa información, tanto para entender su estructura como para desarrollar herramientas que faciliten la utilización de sus recursos. Algunos esfuerzos se han realizado para caracterizar el espacio web global. El World Wide Web Consortium realizó algunas de estas actividades hasta 1999 [WCA, 1999], mientras que el On Line Computer Library Center (OLCL) albergó un proyecto de esta naturaleza con información hasta el año 2002 [O'Neill, 2003].

 

El estudio de las características del espacio web es una tarea compleja que requiere de la utilización de recursos computacionales de gran escala debido a su tamaño y distribución geográfica. Debido a esto, se han realizado estudios a menos escala, específicamente de dominios nacionales [Baeza-Yates, 2004] [Baeza-Yates, 2005a] [Baeza-Yates, 2005b] [Efthimiadis, 2004] [Modesto, 2005], tomando muestras de dominios variados y utilizando diferentes estrategias de recolección. De acuerdo a [Baeza-Yates, 2005c], estas muestras presentan un buen balance entre diversidad y completitud, por lo que constituyen un conjunto de alto interés.

 

La web se encuentra en constante crecimiento y evolución, por lo que se requieren nuevas herramientas para satisfacer las necesidades de los usuarios. Como un sistema basado en interacciones sociales, se requiere de una mejor compresión de su naturaleza para poder establecer patrones y tendencias que permitan diseñar mejores estrategias que faciliten el acceso. Además, el estudio de porciones específicas del espacio web – como por ejemplo un dominio nacional – permite analizar el comportamiento de un conjunto de entidades respecto de la web global.

 

En este trabajo se presenta un estudio de caracterización del espacio web de Argentina, el cual presenta algunas particularidades interesantes que lo diferencian de otros. El estudio abarca las características principales reportadas en otros trabajos similares aunque aumentamos en nivel de análisis en algunos aspectos tratando de obtener nueva información. Para nuestro conocimiento, éste es el primer estudio sobre el espacio web de Argentina en el cual – además – se realiza una proyección del su tamaño total. 

 

 

2 – Características de la Web

 

La web puede ser modelada como un grafo dirigido (webgraph) donde los nodos corresponden a páginas HTML y los enlaces entre éstas son las aristas [Broder, 2000]. Formalmente, este grafo consiste en un conjunto de nodos, denotado como P y un conjunto de aristas, A. Cada arista (expresada como qp) es un par ordenado (q, p) donde q, p Î P y representan un enlace o vínculo entre las páginas (nodos) q y p, situación que se da sólo con algunos pares. En este caso, q es un enlace entrante de p y éste uno saliente de q.

 

En particular, se ha estudiado la topología del grafo web [Broder, 2000] el cual se caracteriza por formar una red libre de escala el cual – además – es autosimilar, es decir, que porciones menores de éste mantienen propiedades del grafo completo [Dill, 2002].

 

Las redes libres de escala (scale-free network) se caracterizan por una distribución dispareja de nodos y enlaces [Albert, 2002]. Esto significa que se pueden encontrar nodos con muy pocos enlaces y otros con muchos. Los vínculos en páginas Web son un ejemplo de esto, tanto los entrantes como los salientes. En este caso, se observa en la Web que existen ciertos nodos que incorporan enlaces entrantes (crecen) de manera proporcional al tamaño que tienen. Estos nodos, resultan interesantes de encontrar y estudiar ya que vinculan partes importantes de la red. Kleinberg [Kleinberg, 1999] y Barabasi [Barabasi, 1999] plantearon que la topología del grafo de la web corresponde a una red libre de escala, en la cual la distribución de los enlaces sigue una ley de potencias (power law) de la forma:

 

P(x = k) ≈ k , para β > 0.

 

La cual expresa la probabilidad que la página x posea k enlaces. El exponente β de la ley de potencias describe que tan rápido disminuye el valor de la frecuencia de x. Los ejemplos clásicos de estas distribuciones corresponden a Zipf y Pareto [Adamic, 2002]

 

Esta situación fue luego observada por Broder en un muestreo de la web de gran escala [Broder, 2000], encontrando como propiedad básica del grafo web que la distribución del grado entrante de los vértices sigue una ley de potencias con exponente β = 2.1. Por otro lado, la distribución del grado saliente sigue una ley de potencias imperfecta con β = 2.72.

 

 

3 – Metodología

 

Para el estudio de la web argentina se realizó una recolección de páginas utilizando el crawler WIRE [Castillo, 2005]. La tarea se llevó a cabo durante los meses de marzo y abril de 2006 utilizando un equipo PC server, con un procesador de 2.4 Ghz y 1 Gb de memoria RAM corriendo el sistema operativo Linux Debian Sarge y un enlace a Internet de 1 Mbps.

 

Para delimitar el dominio de estudio se tomó como criterio recolectar sólo las páginas bajo el dominio ’.ar’. Si bien se conoce que existen organizaciones de Argentina que utilizan el dominio ‘.com’ para su sitio web, no es técnicamente simple obtener una lista exhaustiva de éstos y – además – varias de éstas mantienen el doble nombre de dominio, uno .com y otro. com.ar con redirección entre éstos en algunos casos o duplicación de contenidos en otros casos. En Argentina no existen restricciones para la obtención de dominios bajo el sufijo ‘.com.ar’ y – además – su registración no tiene costo alguno. Esto facilita el acceso a un nombre de dominio por lo que suponemos que la mayoría de la web argentina se encuentra bajo el sufijo ‘ar’ aunque – por otro lado – genera algunos inconvenientes los cuales describiremos más adelante.

 

Bajo este criterio, el crawler fue inicialmente alimentado con aproximadamente 10.000 direcciones de dominios de Argentina obtenidos de directorios del país, de páginas oficiales gubernamentales y del directorio de Yahoo!. Debido a que la cantidad de información a recuperar podría llegar a ser demasiada para manejarla adecuadamente y por otro lado el tiempo de recolección podría haber sido bastante extenso, se procedió a configurar el módulo de crawling con los siguientes parámetros: profundidad máxima en páginas dinámicas: 5 y profundidad máxima en páginas estáticas: 15.

 

Para el análisis de los datos recolectados utilizamos la metodología propuesta en [Baeza-Yates, 2005d] estudiando la web en diferentes niveles de granularidad (páginas, sitios y dominios) y agrupando características de acuerdo a contenido, enlaces y tecnologías. No obstante, hemos agregado algunos estudios que permiten analizar características particulares del dominio en cuestión.

 

 

3.1 – La colección WebAR

 

Se recolectaron 9.656.218 páginas desde 149.305 sitios que corresponden a 83.813 dominios. El 94.71% corresponden a páginas únicas y el 5.29% se encuentran duplicadas. Del total, el 48% corresponden a páginas estáticas, mientras que las dinámicas suman el 52%. Este es primer dato que nos llamó la atención y sobre el cual volveremos más adelante para proponer una explicación.

 

En febrero de 2006 solicitamos a NIC Argentina información acerca de la cantidad de dominios registrados bajo su control y la distribución. De acuerdo a la respuesta oficial [Vilas, 2006] cuentan con 1.129.381 dominios registrados. Además, NIC informó que según estudios propios acerca de utilización de los nombres de dominios asignados bajo “com.ar” el 26% (286.635) es productivo, es decir que está configurada una dirección real donde se publica un sitio web o se reciben correos electrónicos. En la tabla 1 se presenta la distribución de dominios de segundo nivel bajo “. ar”, mientras que en la tabla 2 se indica la cantidad de dominios de tercer nivel, ajustados por el porcentaje de productividad en ‘com.ar‘ y la cantidad de dominios pertenecientes a la muestra donde al menos se recuperó una página. Nótese que para los dominios diferentes de ‘com.ar’ se considera que el total de activos es muy superior (cercano al 100%) ya que las normas de registración son estrictas respectos de qué organización puede pertenecer a cada uno por lo que se supone que no existe una cantidad de registraciones significativas que no se utilicen.

 

Dominio de

2do nivel

Cantidad

%

com.ar

1.102.444

97,61

org.ar

14.133

1,25

net.ar

10.112

0,90

gov.ar

2.570

0,23

mil.ar

92

0,01

int.ar

30

0,00

Total

1.129.381

100

Tabla 1: Distribución de dominios de segundo nivel

Fuente: NIC Argentina, febrero 2006

 

Dominio

2do nivel

 

Dominios activos de 3er nivel (NIC)

Dominios activos de 3er nivel (Muestra)

% en la muestra

 

com.ar

286.635

77.668

27,10

org.ar

14.133

3.846

27,21

net.ar

10.112

817

8,08

gov.ar

2.570

896

34,86

mil.ar

92

21

22,83

int.ar

30

11

36,67

edu.ar (*)

 N/D

554

 

Total

313.572

83.813

 

Tabla 2: Composición de la muestra

(*) El dominio .edu.ar no se encuentra bajo administración de NIC Argentina

 

 

4 – Contenidos

 

En esta sección se presentan los resultados del estudio del contenido en diferentes niveles de granularidad. A nivel de páginas se estudian las propiedades del texto (idioma, términos, tamaños) mientras que en los planos de sitios y dominios se analizan cómo se distribuyen las páginas dentro del espacio objetivo.

 

 

4.1 – Tamaño de las Páginas

 

Por cada página descargada se almacenaron como máximo 100 Kb. Observamos que el tamaño medio de las páginas es de 10 Kb. Este valor es bastante menor que las observaciones de Chile (21 Kb) y Brasil (24 Kb).  La distribución de los tamaños es muy sesgada y se puede modelar mediante una ley de potencias con parámetro β = 2.2 para las páginas cuyo tamaño es más de 20 Kb. En el gráfico 1 se presenta la distribución junto con la curva de ajuste.

 

Gráfico 1 – Distribución de los tamaños de las páginas con la recta de ajuste (izquierda).

Detalle de la zona para los tamaños hasta 20 Kb (derecha)

 

 

4.2 – Términos más Utilizados

 

Se extrajo de forma aleatoria un subconjunto de páginas para analizar su contenido. En total, se tomaron 396.134 documentos. Se eliminaron las marcas HTML y se extrajeron del texto puro todos sus términos. Luego, para cada documento se seleccionaron los 40 términos de mayor frecuencia. A continuación, se los fusionó en una única lista y se eliminaron palabras vacías en español e inglés y los términos de 1 carácter. Finalmente, se calculó el DF (Document Frequency), es decir, la cantidad de documentos en los que apareció cada uno, sin importar su TF (Term Frecuency) dentro de cada documento. En la tabla 3, se muestran los primeros 10 términos, ordenados por DF. En el Anexo 1 se incluye una lista con los primeros 100.

 

 

 

Orden

 

Término

Cantidad de

Documentos

 

%

1

precio

67,966

17.16

2

compra

67,456

17.03

3

inicio

60,362

15.24

4

artículos

59,831

15.10

5

venta

58,930

14.88

6

argentina

56,944

14.37

7

cuotas

50,047

12.63

8

tarjeta

49,926

12.60

9

comprar

46,824

11.82

10

pagofacil

46,729

11.80

Tabla 3 – Primeros 10 términos más utilizados

en el contenido de los documentos

 

En estos resultados (Tabla 3) se observa que los primeros lugares se encuentran ocupados por términos relacionados con la actividad comercial y – específicamente – con vocabulario propio de sitios dedicados a ventas masivas, subastas, catálogos en línea con redirección a otros sitios, y demás.

 

 

4.3 – Términos en los Nombres de Sitios

 

            Complementariamente al estudio de términos en el contenido de las páginas realizamos un análisis de los nombres de sitios y dominios que conforman la muestra. No tomamos en cuenta las etiquetas de dominios de primer y segundo nivel, como tampoco interesó las palabra "www" por ser ampliamente utilizada. Por ejemplo, en el nombre de sitio "www.tyr.unlu.edu.ar" sólo analizamos la subcadena "tyr.unlu". Como separador de términos utilizamos el punto (".") y el guión medio ("-"). En la tabla 4 se muestran los primeros 10 términos más frecuentes en los nombres de sitios, mientras que en el Anexo 2 se presenta una lista con los primeros 100.

 

 

Orden

Término

Cantidad

de Sitios

1

campings

51,318

2

sbviajes

21,922

3

argentina

7,384

4

tango

7,256

5

europa

6,835

6

brasil

6,472

7

aereos

6,215

8

paquetes

6,194

9

noticias

6,174

10

ofertas

6,103

Tabla 4 – Primeros 10 términos más frecuentes

en los nombres de sitios

 

A diferencia del análisis de contenido donde la mayoría de los términos están vinculados con la actividad comercial masiva, en los nombres de sitios comienzan a aparecer términos relacionados con el turismo (itálica). Una observación interesante es que algunos de estos sitios poseen su nombre de dominio formado por un término concatenado con la palabra “argentina”. Por ejemplo, hoteleinrgentina, hotelesargentina, viajeaargentina, viajarxargentina y alojarseargentina, entre otros. Entre las primeras 100 palabras más utilizadas, el nombre Argentina aparece 12468 veces (4.6%).

 

 

 

 

4.4 – Idiomas

 

Dentro del análisis de contenido realizamos una caracterización de la composición de idiomas. Para ello, tomamos una muestra del 5% de los documentos HTML y extrajimos el texto. Luego, utilizamos el módulo para Perl Text::Language::Guess [Schilli, 2005], el cual se basa en la detección de las palabras vacías de cada lengua. La distribución de los idiomas utilizados en documentos que componen el espacio web argentino presenta una participación del 63% del idioma español, seguido por el inglés con una participación del 27%. Aquí hay que tener en cuenta que el español es el idioma oficial. En Chile se reportó un 90% de páginas en español y un 75% de páginas en portugués en Brasil. En un estudio de sitios (sección 4.6) hallamos que hay un número importante de éstos dedicados al turismo, actividad que se ha desarrollado en los últimos 5 años en Argentina, los cuales – en general – presentan información en más de un idioma. La distribución se presenta en el gráfico 2.

 

Gráfico 2 –  Distribución de los idiomas encontrados

en las páginas descargadas

 

 

4.5 – Edad de las Páginas

 

La edad de cada página recuperada se establece analizando el valor del encabezado “last-modified” del protocolo HTTP. Hay que tener en cuenta que algunos servidores entregan fechas erróneas por no mantener actualizados sus relojes por lo cual los resultados surgen sólo de las válidas. En la tabla 5 se presentan los resultados.

 

Nótese que más del 72% de las páginas han sido creadas o modificadas en el último año. Esto representa que el espacio web argentino está creciendo a una tasa alta. También es cierto que a esta elevada proporción de actualización de documentos corresponde la alta proporción de páginas dinámicas, cuya fecha es la de creación de la misma cada vez que un cliente la solicita. Cabe recordar que la proporción de páginas dinámicas recolectadas es superior al 50%.

 

Si se analiza la distribución en meses se puede obtener un indicador más preciso del crecimiento de la web argentina. En el gráfico 3 se presenta la distribución edad en meses y cantidad de páginas para los últimos 10 años.

 

Edad

(años)

Documentos

%

0

1.424.906

72,28

1

284.641

14,44

2

123.725

6,28

3

74.740

3,79

4

34.155

1,73

5

16.973

0,86

6

7.938

0,40

7

2.215

0,11

8

1.224

0,06

9

413

0,02

10

20

0,00

> 10

384

0,02

Total

1.971.334

100

Tabla 5: Distribución de edad en años

de los documentos recolectados

 

Gráfico 3 - Distribución de cantidad de páginas creadas o modificadas en los últimos 10 años.

Cantidad total (izquierda) y Distribución de Cantidades (derecha) con ajuste exponencial y = 0.073.e0.069x

 

 

La distribución de la fracción de páginas creadas por mes se puede modelar mediante una ley de potencias de parámetro β = 2.3 (Gráfico 3, derecha). Aquí se puede observar como se han incrementado exponencialmente con el tiempo el número de documentos nuevos o modificados. Esto es un indicador de que la web argentina se encuentra creciendo aceleradamente, consistentemente con lo que ocurre en otros países.

 

 

4.6 – Páginas por Sitio

 

La cantidad media de páginas por sitio es 65 y su distribución corresponde a una ley de potencias con parámetro β = 1.45 (Gráfico 4). Este valor es comparable con otros países de la región como Chile donde se encontraron 58 [Baeza-Yates, 2005a] con una distribución de parámetro β = 1.6 o Brasil con 66 [Modesto, 2005] y β = 1.6. Inclusive, resulta similar a la web de España que posee una media de 52 páginas y β = 1.1 [Baeza-Yates, 2005b].

 

Gráfico 4 – Distribución de la cantidad de páginas por sitio.

 

 

4.6 – Sitios y Páginas por Dominios

 

En total, existen 149.305 sitios, los cuales corresponden a 83.813 dominios de tercer nivel. Muchos de los sitios de la muestra pertenecen a un mismo dominio, es decir, a una misma organización y encontramos un alto porcentaje de dominios con sólo un sitio. Esto es llamativo ya que – por un lado – existen pocas organizaciones con subdivisiones internas y – por ende – sitio web administrativamente separado (por ejemplo, fi.uba.ar y fceyn.uba.ar). Por otro lado, aquellas organizaciones con una sola unidad administrativa mantienen la organización interna del sitio utilizando otra técnica como – por ejemplo – estructura física de directorios. En la tabla 6 se presenta esta información.

 

 

 

Cantidad

%

Total sitios en la muestra

149.305

 

Total de dominios 3 nivel

83.813

 

Dominios de tercer nivel

con más de un sitio

2.389

2,85

Dominios de tercer nivel

con sólo un sitio

81.424

97,15

Tabla 6 – Dominios de tercer nivel

 

Complementariamente, en la tabla 7 se presentan los dominios con más sitios. Se observa que todos pertenecen al dominio de segundo nivel “.com.ar”  y – para nuestra sorpresa – están relacionados con la industria turística. Sin embargo, mediante una inspección manual determinamos que todos los sitios dedicados a turismo en esta lista corresponden a la misma agencia, por lo que están utilizando múltiples nombres de dominio para un mismo contenido, ya que la dirección IP de los diferentes sitios es la misma.

 

Orden

Dominio

Sitios

 

Orden

Dominio

Sitios

1

sbviajes.com.ar

21.922

 

14

sritour.com.ar

953

2

sri-tour.com.ar

1.543

 

15

susanabarbaricca.com.ar

934

3

hotelesturiscos.com.ar

1.542

 

16

arcountry.com.ar

862

4

mucho-sexo.com.ar

1.438

 

17

sriviajes.com.ar

838

5

sriturismo.com.ar

1.436

 

18

virtualcountries.com.ar

793

6

turismo-hotel.com.ar

1.386

 

19

tripod.com.ar

781

7

hotelbsasarg.com.ar

1.346

 

20

sucountry.com.ar

774

8

hotelturistico.com.ar

1.330

 

21

virtual-countries.com.ar

691

9

holafoto.com.ar

1.266

 

22

hotelesargentina.com.ar

687

10

viajar-argentina.com.ar

1.204

 

23

viajeaargentina.com.ar

630

11

hotelbuenosairesarg.com.ar

1.153

 

24

turismoporargentina.com.ar

626

12

hoteleinrgentina.com.ar

1.010

 

25

viajarxargentina.com.ar

606

13

sri-viajes.com.ar

954

 

 

 

 

 

Tabla 7 – Dominios con mayor cantidad de sitios

 

En la muestra analizada existen 99 dominios con más de 50 sitios cada uno, de los cuales sólo nueve dominios no pertenecen a “.com.ar” (Tabla 8).

 

Dominio

Sitios

gba.gov.ar

139

utn.edu.ar

132

unlp.edu.ar

118

esc.edu.ar

109

unlu.edu.ar

95

unc.edu.ar

80

fi.uba.ar

59

mendoza.gov.ar

59

fcen.uba.ar

52

Tabla 8 – Dominios no comerciales con mayor cantidad de sitios

 

Luego, agrupamos las páginas por dominio de segundo nivel ya que en Argentina su uso es lo habitual en aproximadamente el 95% de los casos. Sin embargo, existen algunas excepciones como el dominio de la Universidad de Buenos Aires (uba.ar) y algunos organismos dependientes del estado (educ.ar, nic.ar, nación.ar) los cuales sólo cuentan en una pequeña fracción. En la tabla 9 se resume esta información, junto con datos acerca de la cantidad de páginas recuperadas de cada uno.

 

Dominios de

2do. Nivel

Sitios

% sitios

Páginas

descargadas

com.ar

140.533

94,1248

9.077.243

org.ar

4.155

2,7829

276.393

edu.ar

1.784

1,1949

114.965

gov.ar

1.516

1,0154

145.719

net.ar

976

0,6537

14.543

uba.ar

239

0,1601

29.637

mil.ar

60

0,0402

2.359

educ.ar

12

0,0080

2.927

int.ar

11

0,0074

188

retina.ar

6

0,0040

742

mecon.ar

6

0,0040

143

nic.ar

3

0,0020

61

sld.ar

1

0,0007

1

promocion.ar

1

0,0007

3

nacion.ar

1

0,0007

16

gobiernoelectronico.ar

1

0,0007

76

TOTAL

149.305

100

9.664.921

 

Tabla 9 – Cantidad de documentos recuperados por dominio  de segundo nivel

 

Aquí hay que tener en cuenta que las normas de registración de nombres de dominio son poco restrictivas para los dominios comerciales (.com.ar) y no existe costo alguno. Hasta hace unos años, se podían registrar nombres de dominio sin limitación alguna, aunque en la actualidad se exige que – al menos – exista un servidor DNS en un proveedor de hosting válido que resuelva tal nombre, lo que impide parte de las registraciones masivas. Este es el motivo principal por el cual existen más de 1.00.000 de dominios registrados y sólo un 26% se encuentre activo. Para el caso de otros dominios existen reglas más estrictas y solamente se asignan a organizaciones que califiquen, aunque también son gratuitos.

 

 

5 – Enlaces

 

Esta sección corresponde al estudio de las relaciones establecidas a nivel de enlaces. Como se mencionó anteriormente, el espacio web es modelado como un grafo dirigido sobre el cual se analizan características.

 

5.1 – Grado Entrante de las Páginas

 

El grado entrante (in-degree) de una página corresponde al número de enlaces desde otras –del dominio en estudio solamente- que apuntan hacia esta. Esta es una característica importante ya que es un indicador de reputación de la página utilizado por los motores de búsqueda para el ranking de sus salidas. Las distribuciones son bastante sesgadas y siguen leyes de potencias. En el caso de la web estudiada la distribución posee un parámetro β = 1.71 (Gráfico 5). En Brasil se encontró β = 1.0, en Chile β = 2.0 y en España β = 2.1. Como dato interesante, encontramos el 55% de las páginas con grado entrante igual a cero.

 

Gráfico 5 – Distribución del grado entrante de las páginas

 

 

5.2 – Grado Saliente de las Páginas

 

En este caso, corresponde al número de enlaces que posee una página hacia otras del mismo dominio de estudio (out-degree). En general, esta distribución es mas sesgada que la anterior. Las distribuciones de grado saliente se pueden analizar usando dos leyes de potencias [Baeza-Yates, 2005d]. La primera para valores menores que un umbral y la segunda para los superiores. Esto permite realizar una mejor aproximación ya que los primeros valores de la distribución no se ajustan a la misma curva que los segundos. En este caso, obtuvimos una power-law para valores menores a 30 enlaces salientes con un exponente β1 = 0.58 y para la correspondiente a los valores superiores el ajuste fue con β2 = 3.34. Estas distribuciones son comparables con las halladas para Chile (β1 = 0.7 y β2 = 2.6), Brasil (β1 = 0.7 y β2 = 2.7) y España (β1 = 0.9 y β2 = 4.2). En el  gráfico 6 se presentan las distribuciones. Sobre esta característica hallamos que aproximadamente el 30% de las páginas no poseen enlaces salientes.

 

 

Gráfico 6 – Distribución del grado saliente de las páginas

con las dos curvas de ajuste

 

 

 

5.3 – PageRank

 

El ranking de las páginas a partir del análisis de enlaces es una característica importante a estudiar ya que algunos motores de consultas utilizan información del in-degree de las páginas para establecer la importancia de cada una de éstas. Esta idea se fundamenta en que la estructura de enlaces es armada – en general – por humanos y representa una fuente de información indirecta (respecto del contenido) que es ser de alto valor [10]. En algunos casos, cuando el autor de una página web genera un enlace hacia otra, está dando una recomendación implícita acerca de la calidad del contenido de esta última. Esta información es utilizada en diversas aplicaciones como búsquedas, ranking, recuperación y minería en la web. Un ejemplo clásico son los algoritmos de rankeo de páginas web como HITS [13] y PageRank [Page, 1998] utilizados por algunos buscadores.

 

En particular, calculamos los valores de Pagerank [Page, 1998] ya que éste es uno de los algoritmos más citados. En el gráfico 7 se puede apreciar que la distribución de cantidades de páginas respecto de los valores siguen una ley de potencias con parámetro β = 1.85. De acuerdo a Pandurangan [Pandurangan, 2002] este exponente – en teoría – debería ser similar al de la distribución de grado entrante, situación que ocurre en este caso. Complementariamente, presentamos un ajuste para los primeros valores (Gráfico 7, derecha) cuyo parámetro es β = 2.0.

 

Gráfico 7 – Distribución de las páginas por valor de Pagerank (izquierda). Ajuste para los primeros valores de Pagerank que agrupan la mayor cantidad de las páginas (derecha)

 

            En otros estudios se hallaron distribuciones similares consistentes con una ley de potencias. Estos son los casos de Chile (β = 1.9), Brasil (β = 1.8) y España (β = 2.0).

 

 

5.4 – Grado Entrante en Hostgraph

 

Se denomina hostgraph al grafo creado cambiando los nodos que representan páginas web en el mismo sitio por uno único que representa el sitio web [Bharat, 2001]. Luego, si existe al menos un enlace de una página de un sitio a otra en otro, entonces existirá un enlace a nivel de Hostgraph. En este caso, la distribución de enlaces entrantes a nivel de Hostgraph se ajusta a una ley de potencias con parámetro β = 1.7 (Gráfico 8). Situaciones similares se encontraron en Chile (β = 2.0), Brasil (β = 1.9) y España (β = 1.8).

 

Gráfico 8 – Distribución de grado entrante en hostgraph

 

5.5 – Grado Saliente en Hostgraph

 

De manera complementaria se calculó la distribución de enlaces salientes a nivel de Hostgraph la cual se ajusta a una ley de potencias con parámetro β = 1.5 (Gráfico 9). Comparando con otros países encontramos: Chile (β = 1.9), Brasil (β = 1.9) y España (β = 1.3).

 

 

Gráfico 9 – Distribución de grado saliente en hostgraph

 

 

 

 

 

5.6 – Ranking de Sitios según Pagerank

 

Calculamos – además – los valores de Pagerank para los sitios web y los dividimos por dominio de segundo nivel. En la tabla 10 se presentan los 10 sitios con más reputación de acuerdo al algoritmo mencionado para los dominios principales. En el anexo 3 se incluye una lista más exhaustiva con los 50 primeros sitios de cada dominio.

 

Orden

com.ar

edu.ar

gov.ar

org.ar

1

ayuda.veventas.com.ar

www.uncu.edu.ar

buenosaires.gov.ar

www.ipl.org.ar

2

venta.ofertas-subastas.com.ar

portal.eco.unc.edu.ar

www2.medioambiente.gov.ar

www.sacil.org.ar

3

comprar.shopavenida.com.ar

www.arteushuaia.edu.ar

www.mecon.gov.ar

forum.roxette.org.ar

4

venta.shop24horas.com.ar

www.nuevaescuela.edu.ar

www.cnc.gov.ar

educared.org.ar

5

ofertas.macrocompra.com.ar

www2.uca.edu.ar

www.bue.gov.ar

www.centromanresa.org.ar

6

ofertas.vendasonline.com.ar

colegiosanignacio.edu.ar

santafe.gov.ar

tierradelfuego.org.ar

7

remates.ventas-nautica.com.ar

www.frcu.utn.edu.ar

www.me.gov.ar

www.fundamind.org.ar

8

ofertas.shop24horas.com.ar

www.utdt.edu.ar

mapa.buenosaires.gov.ar

rcc.org.ar

9

remates.ofertas-subastas.com.ar

oni.escuelas.edu.ar

www.senasa.gov.ar

po.org.ar

10

remates.tech-shop.com.ar

unq.edu.ar

www.lapampa.gov.ar

www.iglesiasreformadas.org.ar

Tabla 10 – Principales sitios según dominios de segundo de acuerdo a su PageRank

 

            Analizando los sitios que constituyen el ranking del dominio “com.ar” puede observarse que en su gran mayoría corresponden a emprendimientos relacionados con la subasta electrónica de bienes, catálogos de ventas, redireccionadores de potenciales clientes a sitios de subasta, entre otros. Es evidente que cuando un usuario posee una necesidad de información no relacionada con el ambiente comercial el alto puntaje de tales sitios contribuye a que referencias a ellos se incluyan en las salidas de respuesta. Esto genera ruido documental, el cual disminuye la precisión en las búsquedas mencionadas. En [Bordignon, 2006] se los denomina “Sitios Comerciales Multiventa” y se propone una metodología para su detección y – opcionalmente – filtrado ya que poseen alta reputación y aparecen como respuesta de múltiples consultas aunque su contenido no sea necesariamente relevante.

 

 

5.7 – Componentes Fuertemente Conectados

 

Se estudió la distribución de los Componentes Fuertemente Conectados (SCC) del grafo a nivel de sitios. Un SCC es un subgrafo dirigido en el cual todos los nodos pueden alcanzar a los demás (dentro del mismo subgrafo) siguiendo los enlaces.

 

            Estudiamos la distribución de los SCC de nuestra muestra de la web argentina. Aquí podemos observar la existencia de una componente gigante (Tabla 11). La distribución de los tamaños sigue una ley de potencias con exponente β = 2.74 en la parte central (Gráfico 10).

 

 

Tamaño del SCC

Número de

componentes

 

Tamaño del SCC

Número de

componentes

1

66.021

 

12

2

2

432

 

14

1

3

81

 

16

2

4

164

 

20

1

5

18

 

21

1

6

9

 

22

1

7

8

 

23

1

8

1

 

29

1

9

4

 

38

1

10

2

 

44

1

11

2

 

80.968

1

Tabla 11 – Tamaño de los Componentes Fuertemente Conectados

 

Gráfico 10 – Distribución de los Tamaños de los SCC

 

 

5.8 – Estructura Macroscópica

 

En un estudio de una muestra de la web global, Broder y otros [Broder, 2000] propusieron una estructura que muestra las relaciones existentes entre las páginas respecto de un subconjunto de grafo web correspondiente al Componente Fuertemente Conectado (SCC) de mayor tamaño. Esta estructura – conocida como “bow-tie” – ubica a cada página en una de 6 regiones:

 

-          MAIN, que incluye al SCC de mayor tamaño.

-          IN, formado por nodos que pueden alcanzar a los nodos en MAIN pero no son alcanzables desde éste.

-          OUT, que es un conjunto de nodos alcanzables desde MAIN que no poseen enlaces salientes hacia éste.

-          ISLANDS, nodos desconectados de los los componentes anteriormente mencionados.

-          TENTACLES, nodos que son alcanzables solamente desde porciones de IN o de OUT.

-          TUNNELS, nodos desde IN que alcanzan a otros en OUT.

 

            En [Baeza-Yates, 2001] se extendió en nivel de detalle del componente MAIN dividiéndolo en las siguientes subregiones:

 

-          MAIN-MAIN, sitios que pueden ser alcanzados directamente desde la componente IN o que pueden alcanzar directamente la componente OUT;

-          MAIN-IN, sitios que pueden ser alcanzados directamente desde IN pero no están en MAIN-MAIN;

-          MAIN-OUT, sitios que pueden alcanzar directamente a OUT y no pertenecen a MAIN-MAIN;

-          MAIN-NORM, sitios que no pertenecen a las componentes previamente enunciadas.

 

 

 

Gráfico 11 – Estructura macroscópica de la web

 

 

El tamaño de la región MAIN (54,23%) muestra que la web argentina se encuentra – en general – bien conectada, especialmente si lo comparamos con Chile donde el porcentaje de sitios de esta región es 21.76 y en Brasil llega al 25.27%. Los sitios en la componente OUT (28.15%) representan una fracción más baja que en Brasil (45.33%) pero similar a Chile (26.12%). Si se tiene en cuenta que uno de los motivos que hacen que un nodo esté en OUT es su antigüedad y desactualización, podemos ver que en el dominio .ar no representan un porcentaje mayor.

 

Por otro lado, los sitios pertenecientes a las componentes IN e ISLANDS únicamente se los accede a partir de sus páginas iniciales debido a que pueden ser páginas nuevas o no estar bien conectadas. En este caso, representan porcentajes comparables con Chile en la componente IN (6.65%) pero no en ISLANDS (46.16%). En Brasil se reportaron un 12.95% y 12.35% respectivamente. La baja proporción de elementos en ISLANDS refuerza la idea de una buena conectividad de la web argentina.

 

Componente

Sitios

Porcentaje

MAIN_NORM

50.346

33,72

MAIN_MAIN

10.212

6,84

MAIN_IN

3.439

2,30

MAIN_OUT

16.971

11,37

IN

8.523

5,71

OUT

42.026

28,15

TIN

2.915

1,95

TOUT

951

0,64

TUNNEL

176

0,12

ISLAND

13.746

9,21

Tabla 12 – Componentes de la estructura macroscópica

 

A continuación (Tabla 13), se presenta el mismo estudio separado por dominio de segundo nivel. Aquí se puede apreciar que las proporciones se mantienen independientemente de los dominios, especialmente teniendo en cuenta la alta participación del dominio de segundo nivel “com.ar”.

 

 

edu.ar

com.ar

org.ar

gov.ar

COMPONENTE

Sitios

%

Sitios

%

Sitios

%

Sitios

%

MAIN_IN

108

6,05

2.934

2,09

221

5,32

140

9,23

MAIN_MAIN

263

14,74

8.888

6,32

606

14,58

378

24,93

MAIN_NORM

280

15,70

49.145

34,97

572

13,77

212

13,98

MAIN_OUT

277

15,53

15.645

11,13

748

18,00

233

15,37

MAIN

928

52,02

76.612

54,52

2.147

51,67

963

63,52

IN

153

8,58

7.261

5,17

314

7,56

76

5,01

ISLAND

183

10,26

13.108

9,33

305

7,34

67

4,42

OUT

477

26,74

39.658

28,22

1.309

31,50

398

26,25

TIN

29

1,63

2.817

2,00

51

1,23

9

0,59

TOUT

12

0,67

906

0,64

26

0,63

3

0,20

TUNNEL

2

0,11

171

0,12

3

0,07

0

0,00

TOTAL

1.784

 

140.533

 

4.155

 

1.516

 

Tabla 13 – Componentes de la estructura macroscópica

discriminados por dominios de segundo nivel

 

5.9 – Enlaces en Dominios de Segundo Nivel

 

Finalmente, se estudiaron los enlaces en dominios de segundo nivel (Tabla 14), tanto los enlaces entrantes como saliente. Como se puede apreciar, los dominios bajo com.ar son los que predominan claramente en cuanto a su aporte de enlaces con el 96.58% de los enlaces entrantes y el 94.41% de los salientes.

 

 

Enlaces Entrantes

Enlaces Salientes

Dominio de 2do nivel

Enlaces

%

Enlaces

%

com.ar

2.762.173

96,58

2.700.086

94,41

gov.ar

38.901

1,36

50.310

1,76

org.ar

30.861

1,08

67.984

2,38

edu.ar

19.580

0,68

30.894

1,08

uba.ar

4.125

0,14

5.382

0,19

mil.ar

1.233

0,04

458

0,02

net.ar

1.174

0,04

3.572

0,12

educ.ar

661

0,02

447

0,02

mecon.ar

429

0,02

86

0,00

nic.ar

253

0,01

8

0,00

retina.ar

206

0,01

201

0,01

gobiernoelectronico.ar

183

0,01

384

0,01

int.ar

116

0,00

69

0,00

nacion.ar

31

0,00

48

0,00

sld.ar

3

0,00

0

0,00

TOTAL

2.859.929

100

2.859.929

100

 

Tabla 14 – Enlaces entrantes y salientes discriminado por dominios de segundo nivel

 

 

 

6 – Tecnologías

 

En esta sección se presentan los resultados del estudio de las características de la web argentina relacionadas con la tecnología utilizada para la gestión de la información publicada. Por ejemplo, se analizan distribuciones de formatos de archivos y lenguajes de programación, entre otros.

 

 

6.1 – Códigos de Respuestas HTTP

 

En primer lugar se muestran los resultados de las respuestas entregadas por los servidores durante la etapa de recolección de páginas. De manera normal, un cliente web (en este caso el crawler WIRE) abre una conexión TCP con el servidor web correspondiente y solicita – mediante el protocolo HTTP – el recurso deseado. El servidor responde con un código de estado. La evaluación de los mismos permite determinar si la página se puede descargar y los diferentes motivos por los cuales no se puede recuperar. Los códigos HTTP se agruparon en:

 

 

En la tabla 15 y en el gráfico 12 se presentan los resultados sobre la base de 12.276.090 páginas solicitadas. Como se puede apreciar, el porcentaje de descargas exitosas es bueno y se encuentra dentro de los valores reportados en otros estudios que están entre el 75 y 85% [Baeza-Yates, 2005d]. Sin embargo, la proporción de enlaces rotos (más del 5%), es significativa. Esto indica algún problema subyacente en los administradores de sitios web relacionado con el mantenimiento de los documentos de su dominio. Teniendo en cuenta la disponibilidad de herramientas para el chequeo automático, se podría minimizar este inconveniente. Además, hay que tener en cuenta que sólo cuentan los enlaces dentro del dominio de Argentina.

 

Categorías

de códigos

Cantidad

OK

9.656.218

MOVED

952.196

OTHER

897.436

NOT FOUND

655.114

SERVER ERROR

61.613

FORBIDDEN

53.513

TOTAL

12.276.090

Tabla 15 – Distribución de los Códigos HTTP

Gráfico 12 – Distribución de los Códigos HTTP

 

 

6.2 – Longitud de las URLs

 

Se estudió la distribución de la longitud (en bytes) de las URLs, la cual se presenta en el gráfico 13. Observamos una longitud promedio de 68 bytes sin incluir la parte correspondiente al protocolo, lo que la incrementaría en 7 bytes (http://). Este valor es comparable similar a los observados en Chile (64 bytes), Brasil (69 bytes) y España (67 bytes).

 

Encontramos – además – que en 160 bytes se encuentra el 99% de las URLs y en 100 bytes el 92%. Por otro lado, observamos URLs muy largas (hasta 1000 bytes) las cuales cuentan un porcentaje menor (menos del 0.5%) y corresponden a páginas dinámicas.

 

Gráfico 13 – Distribución de las longitudes de las URLs.

 

            Complementariamente, estudiamos la longitud de las URLs de páginas HTML (estáticas) y dinámicas  y los parámetros de éstas. En el gráfico 14 se presentan las distribuciones correspondientes. En este caso, con 110 bytes se obtienen el 99% de las las páginas HTML y el 99.8 de las páginas dinámicas. El promedio de longitud para las páginas HTML que observamos es de 62 bytes, mientras que para las páginas dinámicas es de 46 bytes. Esta diferencia puede atribuirse a que en los sitios manejados de forma dinámica no utilizan demasiadas jerarquías de directorios. Por otro lado, en las páginas dinámicas, la longitud promedio de los parámetros es de 27 bytes.

 

 

Gráfico 14 – Distribución de las longitudes de las URLs de páginas estáticas y dinámicas.

En el primer caso, el ajuste corresponde a una distribución normal

con parámetros m = 45 y s = 10, mientras que para las páginas

dinámicas el ajuste también es normal con m = 60 y s = 19

 

 

6.3 – Distribución de Partes de los Nombres de Sitios

 

También estudiamos la cantidad de partes que tienen los nombres de sitios, es decir, cada componente separada por un punto. Por ejemplo, el sitio www.unlu.edu.ar contiene 4 partes mientras que www.uba.ar tiene 3. En la tabla 16 se presentan los resultados absolutos mientras que el gráfico 15 muestra la distribución por fracción de cada una.

 

Partes

Sitios

3

11.380

4

86.795

5

5.453

6

964

7

10.984

8

15.823

9

10.942

10

6.854

11

110

TOTAL

149.305

Tabla 16 – Cantidad de partes en los nombres de sitios

Gráfico 15 – Distribución de la proporción de partes

en los nombres de sitios

 

 

Observamos que más del 50% de los nombres de sitio poseen 4 partes, que es el número esperado ya que en Argentina se utiliza el dominio de 2do nivel y el nombre www para el host principal. Sin embargo, un poco más del 20% poseen 8 o más partes. Esta situación no la atribuimos al uso de subdominios por cuestiones administrativas internas de las organizaciones (ya que son demasiados niveles de división) sino a un uso tendiente a obtener un mejor ranking en los buscadores. En la tabla 17 se muestran algunos ejemplos de nombres de sitios largos.

 

 

www.international.campings.visitarargentina.com.ar                                                            

www.contacto.campings.visitarargentina.com.ar                                                                 

www.campings.ofertas.campings.arcountry.com.ar                                                             

repuestos-accesorios-autos.ofertasreales.com.ar                                                               

amd-athlon-xp-barton.microprocesadores.venta-usados-nuevos.com.ar                                 

rosario.monitores-proyectores.venta-usados-nuevos.com.ar                                                 

www.americadelnorte.europa.argentina.cruceros.campings.campings.sbviajes.com.ar           

www.destinosexoticos.cruceros.turismojoven.primeraclase.campings.virtualcountries.com.ar

Tabla 17 – Ejemplos de nombres largos de sitios

 

 

6.3 – Profundidad de los Documentos

 

La profundidad de un documento es el número de enlaces que es necesario seguir desde el inicio de un sitio para alcanzarla. El inicio o portada de un sitio posee profundidad 0, las páginas directamente alcanzables desde el inicio profundidad 1, y así sucesivamente. Se limitó al módulo recolector recolector para que descargue solamente 5 niveles para páginas dinámicas, y sólo 15 niveles para páginas estáticas. El máximo se sitúa en el nivel cuatro según puede observarse en el gráfico X.

 

 

Profundidad

Documentos

%

1

532.003

4,33

2

1.350.455

11,00

3

4.154.504

33,84

4

4.964.279

40,44

5

1.161.936

9,47

6

86.238

0,70

7

22.189

0,18

8

3.679

0,03

9

804

0,01

10

3

0,00

Total

12.276.090

100,00

Tabla 18 – Distribución de los documentos por profundidad

Gráfico 16 – Distribución de la proporción de

documentos por profundidad (eje y en escala logarítmica)

 

 

6.4 – Documentos que no están en HTML

 

En la muestra obtenida encontramos aproximadamente 550.000 enlaces a documentos que no están escritos en HTML, los cuales representan menos del 1% del total de los documentos. El gráfico 17 presenta la distribución. Aquí se puede apreciar la alta participación de los documentos en el formato PDF de Adobe, mientras que el siguiente sólo posee menos de un tercio. Esta situación es comparable con Chile donde el 63% de los documentos están en PDF mientras que el Brasil alcanzan el 48%. Sin embargo, la situación es diferente en España donde predominan los documentos en texto plano (TXT). Si se analiza en términos absolutos, la cantidad de formatos correspondientes a documentos es sorprendente baja en esta muestra.

 

Gráfico 17 – Distribución de los documentos

que no están en HTML

 

 

 

6.5 – Documentos Estáticos vs Dinámicos

 

Para este estudio dividimos los documentos descargados en dos grupos, tratando de identificar aquellos que se denominan “páginas dinámicas”. Éstas son páginas HTML que no se encuentran previamente almacenadas en el disco rígido del servidor web sino que son confeccionadas “on the fly” por un programa y entregadas al cliente. Generalmente, las páginas dinámicas se arman para entregar respuestas a consultas a bases de datos, a determinadas opciones ingresadas por los usuarios ó para armar sitios personalizados. En este último caso podemos contar con las aplicaciones generadoras de páginas utilizadas para la creación de sitios web y las herramientas de gestión de contenidos como Mambo[2] y Joomla[3].

 

            Para la detección de páginas dinámicas se utilizó el criterio de analizar la extensión de los documentos relacionados con los lenguajes de scripting utilizados más frecuentemente (PHP, ASP, CGI, etc.) y tomar aquellas páginas que contienen el símbolo “?” que introduce la lista de parámetros un una llamada al método GET en el protocolo HTTP. SI bien es posible que alguna de las páginas estáticas sean dinámicas o viceversa, consideramos que son excepciones que no afectan los resultados.

 

En el análisis de documentos estáticos y dinámicos observamos una llamativa paridad (Tabla19), inclusive con una superioridad de páginas dinámicas (52%). Si comparamos con España y Chile, cuyas muestras presentan un 22% y 38% de páginas dinámicas respectivamente, este porcentaje es bastante elevado. Estos valores denotan que existe una importante infraestructura de desarrollo web que soporta gran parte de la lógica de negocios de las organizaciones. Otra posible explicación podría deberse a que tanto la web de Chile como la de Argentina se suponen más nuevas que la de España, por lo que la utilización de tecnologías dinámicas tiene una mayor desarrollo en los últimos años.

 

 

 

 

Documentos

%

 

TOTAL

12.276.090

100,00

Dinámicos

6.383.050

52,00

Estáticos

5.893.040

48,00

 

Tabla 19 – Distribución de documentos estáticos y dinámicos

 

Complementariamente, analizamos la distribución de los enlaces a documentos con las extensiones utilizadas para construir páginas dinámicas (Gráfico 18). Se puede apreciar una importante participación del lenguaje de preprocesamiento de hipertextos PHP con un 52% seguido por Perl con 39%, ambas herramientas completamente libres de costo de utilización. En cuanto a España, hay aproximadamente un 46% de uso de PHP, pero lo sigue un 44% de ASP, mientras que en Chile hay un 78% de PHP y un 16% de ASP. Por otro lado, Brasil cuenta con más del 70% y 20% respectivamente. En estos 3 países la utilización de Perl es proporcionalmente muy baja.

 

   

Gráfico 18 – Distribución de enlaces a documentos

con extensiones de páginas dinámicas

 

6.6 – Documentos Multimedia

 

En cuanto a los enlaces a archivos multimedia, separamos las extensiones relacionadas con los formatos de audio, video e imágenes (Gráficos 19, 20 y 21). Por el lado de las imágenes, los formatos GIF y JPG son los más utilizado, sumando el 98%. Esto ocurre de manera similar en Chile (86.5% y 11.59%), Brasil (85% y 10%) y España (92% y 7%).

 

Gráfico 19 – Enlaces a archivos de imagen

Gráfico 20 – Enlaces a archivos de audio

 

            Los formatos de audio más utilizados son mp3 (35.85%) y ram (39.42%), este último de la empresa Real, siendo estos valores comparables con la web chilena que cuenta con el 34.27% y 34.23% respectivamente. No contamos este dato en otros estudios.

 

Para el caso de los formatos de video encontramos un 98.18% de archivos de extensión swf, mientras que los demás ninguno alcanza el 1%. Si tenemos en cuenta que estos archivos corresponden a aplicaciones Flash, las cuales son utilizadas – en general – como mejoras de la estética de los sitios web podemos ver que su grado de utilización también es una indicación de la utilización de tecnología en Argentina. Si quitamos las aplicaciones Flash (Gráfico 22), los formatos más utilizados son los clásicos de video: avi (35%), wmf (32%) y mpg (22%). En Chile se reportaron distribuciones diferentes como predominantes: wmv (33.76%), mov (32.95%) y mpeg (24.03%). Tampoco contamos este dato en otros estudios.

 

Gráfico 21 – Enlaces a archivos de video

Gráfico 22 – Distribución de enlaces a Archivos de Video (sin la extensión SWF)

           

 

6.7 – Código Fuente, Binarios y Comprimidos

 

En el último estudio de extensiones de enlaces a documentos separamos las extensiones relacionadas con los formatos de código fuente (Gráfico 23), binarios de distribuciones de software (Gráfico 24) y archivos comprimidos y/o empaquetados (Gráfico 25).

 

Gráfico 23 – Enlaces a archivos de código fuente

Gráfico 24 – Enlaces a archivos binarios de distribuciones de software

 

 

 

 

Gráfico 25 – Enlaces a archivos comprimidos y/o empaquetados

 

           

 

6.8 – Relaciones entre Nombres de Sitios y Direcciones de Red

 

Sobre una muestra extraída al azar, compuesta por 23.965 nombres de sitios (que representa el 16.05% del total de sitios donde el módulo de crawling recuperó al menos una página web) se evaluó cual es la relación entre tales nombres de sitios y la dirección de red donde se halla el servidor web correspondiente. Los resultados se presentan en la Tabla 20.

 

Categorías

Direcciones IP

%

Sitios

%

100 o más

16

0,48

10.670

44,52

de 50 a 99

12

0,36

778

3,25

de 10 a 49

342

10,29

6.394

26,68

de 1 a 9

2.953

88,87

6.123

25,55

Total

3.323

100,00

23.965

100,00

Tabla 20 – Relaciones entre nombres de sitios y de direcciones de red

 

Como puede observarse en la tabla anterior sobre muy pocas direcciones IP, sólo 16 (que representan el 0,48% de las direcciones de red de la muestra), se hallan hospedados 10.670 sitios, los  cuales corresponden al 44,52%.

 

 

6.9 – Distribución de Sitios por País

 

Sobre la misma muestra extraída al azar del ítem anterior se evaluó en qué países se hallan hospedados los sitios que almacenan contenidos del dominio “.ar. A los efectos de relacionar direcciones de red con países se utilizó la bases de datos geográficos GeoIPCountryWhois de la empresa Maxmind[4].

 

Países

Sitios

%

Argentina

18.177

75,87

Estados Unidos

4.700

19,62

Canadá

351

1,47

Brasil

224

0,94

Colombia

150

0,63

España

89

0,37

Francia

84

0,35

Reino Unido

60

0,25

Israel

48

0,20

Lituania

39

0,16

Chile

6

0,03

Alemania

5

0,02

Otros paises

24

0,10

TOTAL

23.957

100,00

Tabla 21 – Distribución de sitios por país

 

A partir de los datos provistos en la tabla 21 se puede observar que casi el 76% de los sitios se hallan alojados en servidores que residen en la República Argentina. Entendemos que este dato es un indicador más acerca del desarrollo tecnológico del país en estudio. Por otro lado, para los usuarios argentinos que deseen contratar servicios de alojamiento de sitios en el exterior existe una diferencia económica significativa debido a la paridad entre la moneda nacional y el dólar o el euro.

 

 

7 – Proyección del Tamaño de la Web de Argentina

 

A partir de los datos recogidos por el módulo de crawler de WIRE y los datos aportados por NIC Argentina acerca de asignación de nombres de dominio y porcentaje de sitios productivos bajo “com.ar”, se realizó una proyección de la cantidad de sitios, el tamaño total y la cantidad de páginas del espacio web argentino. Se dividió el estudio por dominio de segundo nivel, de acuerdo a los datos consignados en la sección 3.1 y se calculó la cantidad media de documentos por sitio y el tamaño medio de cada sitio de la muestra (Tabla 23).

 

Dominios

Cantidad de dominios de 3er nivel (NIC)

Cantidad de dominios de 3er nivel (Muestra)

%

Cantidad

de Sitios

(Muestra)

Cantidad Media de

Documentos por Sitio

Tamaño Medio

por Sitio

(en MB)

com.ar

286.635

77.668

27,10

140.533

134

1,820

org.ar

14.133

3.846

27,21

4.155

102

1,645

net.ar

10.112

817

8,08

976

34

0,218

gov.ar

2.570

896

34,86

1.534

163

2,179

mil.ar

92

21

22,83

60

52

0,538

int.ar

30

11

36,67

11

23

0,172

edu.ar

No Disponible

554

 

2.036

127

1,293

TOTAL

313.572

83.813

 

149.305

 

 

Tabla 23 – Datos de los sitios por dominio de segundo nivel

 

            Con esta información, se realizó la proyección mediante proporciones cuyos resultados se presentan en la Tabla 24. Sobre este análisis se debe tener en cuenta que el crawler fue configurado con algunas limitaciones de descarga, como cantidad de páginas por sitio y profundidad máxima a explorar, por lo que algunas páginas no fueron recolectadas.

 

 

Proyectados

Dominios

Sitios

Documentos

Tamaño (MB)

com.ar

518.639

69.476.127

943.811

org.ar

15.268

1.553.961

25.119

net.ar

12.080

414.666

2.633

gov.ar

4.400

717.009

9.587

mil.ar

263

13.603

141

int.ar

30

676

5

edu.ar

2.036

258.859

2.632

TOTAL

552.717

72.434.902

983.929

Tabla 24 – Proyección del total de la web argentina

 

En estos cálculos se asume que el resto de los sitios existentes tienen un comportamiento en cuanto a cantidad de páginas y tamaño similar a los recolectados. Por ello, suponemos que esta es una proyección optimista ya que – por características propias del método de recolección utilizado y la semilla de direcciones iniciales – el conjunto de los sitios que fueron visitados son de menor visibilidad y, posiblemente, de menor tamaño.

 

 

8 – Conclusiones

 

En este trabajo se presenta una caracterización del espacio web de Argentina sobre una muestra propia de 9.656.218 páginas pertenecientes a 149.305 sitios en 83.813 dominios de tercer nivel. Para el análisis, se dividió el estudio en cuenta a contenido, enlaces y tecnologías utilizadas.

 

            En primer lugar, observamos una alta participación de sitios bajo el dominio “.com.ar”, inclusive sólo considerando aquellos que se encuentran activos (26%), de acuerdo a información de NIC Argentina, organismo oficial de registración.

 

Una posible cuestión a tener en cuenta es el estudio de replanteo de los mecanismos de asignación y registro de nombres de dominio. Según los datos obtenidos gran parte de los dominios “com.ar”  no están siendo utilizados.

 

En cuanto al contenido, se observó que la distribución de los tamaños de las páginas es bastante segada. En el estudio del vocabulario de las páginas se encontró que predominan términos relacionados con la actividad comercial como sitios dedicados a ventas masivas, subastas, catálogos en línea y demás. Esta situación puede acarrear problemas de pérdida de precisión en ciertos tipos de búsquedas debido a que – generalmente – estos sitios están muy bien posicionados en los rankings. Sin embargo, en los nombres de los sitios, extraídos de las URLs, aparecen mayormente términos relacionados con el turismo, actividad de mucho auge en los últimos años en Argentina.

 

La distribución de los idiomas utilizados en documentos presenta una participación del 63% del idioma español que es el oficial, seguido por el inglés (27%). Además, aproximadamente el 72% de las páginas han sido creadas o modificadas en el último año. Esto representa que el espacio web argentino está creciendo aceleradamente, consistentemente con lo que ocurre en otros países.

 

Del análisis de enlaces y conectividad surge muestra que la web argentina se encuentra – en general – bien conectada. Un indicador es que la componente MAIN posee el 54.23% de los sitios, mientras que hay una baja proporción en ISLANDS (9,21%), lo que refuerza esta idea. Esta situación se mantiene inclusive al analizar los sitios por dominio de segundo nivel. Por otro lado – y como se esperaba – las distribuciones enlaces entrantes, salientes y pagerank siguen leyes de potencias. Una alta proporción de las páginas (55%) no posee enlaces provenientes de otros sitios del dominio “.ar” y un 30% no poseen enlaces salientes.

 

Al analizar los primeros lugares del ranking de sitios elaborado con PageRank, se observa que en su gran mayoría corresponden a emprendimientos relacionados con la subasta electrónica de bienes, catálogos de ventas, redireccionadores de potenciales clientes a sitios de subasta, entre otros. Esto indica que en la web argentina existe una importante cantidad de páginas construidas especialmente para lograr un buen posicionamiento de los sitios mencionados.

 

En cuanto a los aspectos tecnológicos, hallamos que – del total de páginas descargadas – el 48% son estáticas y el 52%, dinámicas, las cuales se encuentran construidas en gran parte utilizando herramientas libres como PHP (53%) y Perl (39%). Además, casi el 76% de los sitios se hallan alojados en servidores que residen en Argentina y el 68% de las direcciones de red donde se alojan sitios web están en el país. De estos indicadores se desprende que existe un importante desarrollo tecnológico y de la infraestructura de comunicaciones de Argentina relacionada con la web.

 

Finalmente, de la proyección del tamaño del espacio web de Argentina surge que si el resto de la web no recolectada se comporta como la muestra se pueden alcanzar más de medio millón de sitios con aproximadamente 70 millones de documentos que sumarían cerca de 1 TB de información. Sería interesante contar con la lista de todos los nombres de dominios registrados para extraer una muestra más representativa y realizar nuevas estimaciones sobre un conjunto de sitios de menor visibilidad a los efectos de ajustar los parámetros de la proyección.

 

De este estudio de desprenden varias líneas de investigación y desarrollo. En primer lugar, consideramos interesante realizar nuevos trabajos que permitan armar mapas de evolución y dinámica del espacio objeto a los efectos de estudiar su comportamiento en el tiempo. Además, surge la necesidad de construir servicios de información locales que utilicen la información obtenida para mejorar la experiencia de los usuarios con aplicaciones basadas en el contenido de la web, por ejemplo, permitiendo filtrar las respuestas provenientes de sitios comerciales. Por otro lado, el estudio en profundidad de porciones más acotadas como – por ejemplo – el dominio edu.ar permitiría obtener indicadores de desarrollo para la comunidad educativa.

 

 

9 – Agradecimientos

 

Agradecemos al Ingeniero Jorge Vilas de NIC Argentina por la información aportada en cuanto a la cantidad de dominios registrados. También al personal técnico de RETINA por su valiosa colaboración.

 

 

10 – Referencias

 

[Adamic, 2002] L.A. Adamic and B.A. Huberman. Zipf's law and the Internet. Glottometrics 3, pp 143-150, 2002.

 

[Albert, 2002] R. Albert R. and A.-L. Barabasi. Statistical mechanics of complex networks. Review of Modern Physics 74, 47-94. 2002.

 

[Baeza-Yates, 2001] R. Baeza-Yates and C. Castillo. Relating Web characteristics with link based Web page ranking. In Proceedings of String Processing and Information Retrieval (SPIRE), IEEE Cs. Press, pp 21-32. Laguna San Rafael, Chile, 2001.

 

[Baeza-Yates, 2004]  R. Baeza-Yates and F. Lalanne. Characteristics of the Korean Web. Technical Report, Korea-Chile IT Cooperation Center, ITCC, 2004.

 

[Baeza-Yates, 2005a]  R. Baeza-Yates and C. Castillo. Características de la Web Chilena 2004. Technical Report, Center for Web Research, University of Chile, 2005.

 

[Baeza-Yates, 2005b]  R. Baeza-Yates, C. Castillo and V. Lopez. Characteristics of the Web of Spain. Cybermetrics, Vol. 9, No. 1, 2005.

 

[Baeza-Yates, 2005c]  R. Baeza-Yates, and C. Castillo. Link Analysis in National Web Domains. Workshop on Open Source Web Information Retrieval (OSWIR), pp. 15-18. Compiegne, France, 2005.

 

[Baeza-Yates, 2005d] R. Baeza-Yates, C. Castillo, and E. Efthimiadis. Characterization of national Web domains. Technical report, Universitat Pompeu Fabra, July 2005.

 

[Barabasi, 1999] A. L. Barabasi and A. Albert. Emergence of Scaling in Random Networks. Science, (286): 509-512, 1999.

 

[Bharat, 2001] K.Bharat, B-W. Chang, M. Herzinger and M. Rhul. Who Links to Whom: Mining Linkage between Web Sites. In Proceedings of the IEEE International Conference on Data Mining, 2001.

 

[Bordignon, 2006] F. Bordignon, P. Lavallén and G. Tolosa. Búsqueda de Sitios Web con Autoridad en un Tema. VIII Workshop de Investigadores en Ciencias de la Computación WICC, 2006.

 

[Broder, 2000]  A. Broder, R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan, R. Stata, A. Tomkins, J. Wiener, Graph Structure in the Web. In Proceedings of the WWW9 Conference pp. 309-320, 2000.

 

[Castillo, 2005] C. Castillo and R. Baeza-Yates. WIRE: an Open Source Web Information Retrieval Environment. Workshop on Open Source Web Information Retrieval (OSWIR), 2005.

 

[Chakrabarti, 1999] S. Chakrabarti, B.E. Dom, D. Gibson, D., and J. Kleinberg. Mining the Link Structure of the World Wide Web. IEEE Computer, Vol. 32, No. 8, pp: 60-67, 1999.

 

[Dill, 2002] S. Dill, R. Kumar, K.S. Mccurley, S. Rajagopalan, D. Sivakumar, and A. Tomkins. Self-similarity in the web. ACM Transactions on Internet Technology, 2(3):205-223, 2002.

 

[Efthimiadis, 2004] E. Efthimiadis and C. Castillo. Charting the Greek Web. In Proceedings of the Conference of the American Society for Information Science and Technology (ASIST), Providence, Rhode Island, USA, November, 2004.

 

[Kleinberg, 1999] J. Kleinberg, R. Kumar, P. Raghavan, S. Rajagopalan,  and A. Tomkins. The Web as a Graph: Measurements, Models and Methods. In Proceedings of the International Conference on Combinatorics and Computing, 1999.

 

[Modesto, 2005] M. Modesto, A. Pereira, N. Ziviani, C. Castillo and R. Baeza-Yates. Un Novo Retrato da Werb Brasileira. In Proceedings of SEMISH, São Leopoldo, Brazil, 2005.

 

[O'Neill, 2003] E. O'Neill, B. Lavoie, R. Bennett. Trends in the Evolution of the Public Web 1998 - 2002. D-Lib Magazine, Volume 9 Number 4, 2003.

 

[Page, 1998] L. Page, S. Brin, R. Montwani and T. Winograd. The Pagerank Citation Ranking: Bringing Order to the Web. Technical Report, Stanford Digital Library Technologies Project, 1998

 

[Pandurangan, 2002] G. Pandurangan, P. Raghavan, and E. Upfal. Using Pagerank to characterize Web structure. In Proceedings of the 8th Annual International Computing and Combinatorics Conference (COCOON), volume 2387 of Lecture Notes in Computer Science, pages 330--390, Singapore, 2002.

 

[Schilli, 2005] Text::Language::Guess - Trained module to guess a document's language. http://search.cpan.org/~mschilli/Text-Language-Guess-0.02/lib/Text/Language/Guess.pm

 

[Vilas, 2006] J. Vilas. RE: Solicitud de datos para investigación sobre "Caracterización de la web Argentina". Comunicación Personal, Febrero 6, 2006.

 

[WCA, 1999] Web Characterization Activity. http://www.w3.org/WCA/

 


Anexo 1 – Lista de los primeros 100 términos más utilizados en el contenido de las páginas (Sección 4.2)

 

 

Orden

 

Términos

Cant.

documentos

 

%

 

 

Orden

 

Términos

Cant.

documentos

 

%

1

precio

67.966

17,16

 

51

precio

67.966

17,16

2

compra

67.456

17,03

 

52

compra

67.456

17,03

3

inicio

60.362

15,24

 

53

inicio

60.362

15,24

4

artículos

59.831

15,10

 

54

artículos

59.831

15,10

5

venta

58.930

14,88

 

55

venta

58.930

14,88

6

argentina

56.944

14,37

 

56

argentina

56.944

14,37

7

cuotas

50.047

12,63

 

57

cuotas

50.047

12,63

8

tarjeta

49.926

12,60

 

58

tarjeta

49.926

12,60

9

comprar

46.824

11,82

 

59

comprar

46.824

11,82

10

pagofacil

46.729

11,80

 

60

pagofacil

46.729

11,80

11

gratis

44.413

11,21

 

61

gratis

44.413

11,21

12

web

44.210

11,16

 

62

web

44.210

11,16

13

precios

41.989

10,60

 

63

precios

41.989

10,60

14

vender

41.931

10,59

 

64

vender

41.931

10,59

15

oferta

41.457

10,47

 

65

oferta

41.457

10,47

16

ofertas

38.186

9,64

 

66

ofertas

38.186

9,64

17

ringtones

34.167

8,63

 

67

ringtones

34.167

8,63

18

ringtop

32.188

8,13

 

68

ringtop

32.188

8,13

19

buscar

31.053

7,84

 

69

buscar

31.053

7,84

20

ventas

30.738

7,76

 

70

ventas

30.738

7,76

21

free

30.700

7,75

 

71

free

30.700

7,75

22

productos

30.123

7,60

 

72

productos

30.123

7,60

23

mp

29.140

7,36

 

73

mp

29.140

7,36

24

nokia

28.609

7,22

 

74

nokia

28.609

7,22

25

crazy

28.226

7,13

 

75

crazy

28.226

7,13

26

frog

28.057

7,08

 

76

frog

28.057

7,08

27

download

27.340

6,90

 

77

download

27.340

6,90

28

video

27.034

6,82

 

78

video

27.034

6,82

29

dvd

26.816

6,77

 

79

dvd

26.816

6,77

30

cd

26.797

6,76

 

80

cd

26.797

6,76

31

telecharger

26.408

6,67

 

81

telecharger

26.408

6,67

32

nuevos

24.350

6,15

 

82

nuevos

24.350

6,15

33

servicios

24.170

6,10

 

83

servicios

24.170

6,10

34

usados

22.312

5,63

 

84

usados

22.312

5,63

35

tel

21.657

5,47

 

85

tel

21.657

5,47

36

otros

21.209

5,35

 

86

otros

21.209

5,35

37

chile

20.068

5,07

 

87

chile

20.068

5,07

38

nuevo

19.946

5,04

 

88

nuevo

19.946

5,04

39

java

19.780

4,99

 

89

java

19.780

4,99

40

guia

19.670

4,97

 

90

guia

19.670

4,97

41

publicidad

19.605

4,95

 

91

publicidad

19.605

4,95

42

subastas

18.872

4,76

 

92

subastas

18.872

4,76

43

compras

18.677

4,71

 

93

compras

18.677

4,71

44

vendedores

18.505

4,67

 

94

vendedores

18.505

4,67

45

raquo

18.103

4,57

 

95

raquo

18.103

4,57

46

internet

18.031

4,55

 

96

internet

18.031

4,55

47

celulares

17.900

4,52

 

97

celulares

17.900

4,52

48

version

17.831

4,50

 

98

version

17.831

4,50

49

scaricare

17.585

4,44

 

99

scaricare

17.585

4,44

50

home

17.311

4,37

 

100

home

17.311

4,37


Anexo 2 – Lista de los primeros 100 términos más utilizados en los nombres de los sitios (Sección 4.3)

 

Orden

Términos

Cant. Sitios

 

Orden

Términos

Cant. Sitios

1

campings

51,318

 

51

sucountry

774

2

sbviajes

21,922

 

52

de

718

3

argentina

7,384

 

53

virtual

712

4

tango

7,256

 

54

countries

692

5

europa

6,835

 

55

hotelesargentina

687

6

brasil

6,472

 

56

viajeaargentina

630

7

aereos

6,215

 

57

turismoporargentina

626

8

paquetes

6,194

 

58

viajarxargentina

606

9

noticias

6,174

 

59

para

599

10

ofertas

6,103

 

60

visitarargentina

564

11

cruceros

6,061

 

61

alojarseargentina

543

12

turismojoven

5,892

 

62

moviles

527

13

americadelsur

5,814

 

63

dvd

493

14

primeraclase

5,760

 

64

gratis

471

15

spa

5,689

 

65

nastys

427

16

caribe

5,621

 

66

onargentina

418

17

links

5,581

 

67

Terra

396

18

americadelnorte

5,384

 

68

maduras

389

19

congresos

5,102

 

69

ventas

380

20

novias

5,085

 

70

clubesdechacras

370

21

destinosexoticos

5,055

 

71

blog

369

22

hoteles

5,029

 

72

venta

358

23

Iiternational

4,963

 

73

en

354

24

turismoaventura

4,639

 

74

fotos

343

25

semanasanta

4,584

 

75

videohard

305

26

contacto

4,436

 

76

tienda

301

27

destinos

3,768

 

77

turistico

295

28

agencia

3,684

 

78

web

270

29

sri

2,999

 

79

jovencitas

270

30

sexo

2,122

 

80

e

264

31

turismo

1,964

 

81

webmail

257

32

hotel

1,746

 

82

compra

241

33

tour

1,559

 

83

kazaa

239

34

hotelesturiscos

1,542

 

84

consultar

234

35

mucho

1,438

 

85

reales

230

36

sriturismo

1,436

 

86

lesbianas

225

37

hotelbsasarg

1,346

 

87

guiaplus

216

38

hotelturistico

1,330

 

88

comprar

216

39

holafoto

1,266

 

89

rubias

213

40

viajar

1,205

 

90

arg

212

41

hotelbuenosairesarg

1,153

 

91

incesto

204

42

hoteleinrgentina

1,010

 

92

fondos

202

43

viajes

987

 

93

shop

202

44

sritour

953

 

94

global

199

45

susanabarbaricca

934

 

95

mouseloco

190

46

arcountry

862

 

96

videos

189

47

sriviajes

838

 

97

pais

188

48

virtualcountries

793

 

98

viejas

187

49

sms

788

 

99

tuning

173

50

tripod

781

 

100

auto

172

 

Anexo 3 – Primeros 50 sitios con más reputación de acuerdo a PageRank (Sección 5.6)

 

Orden

com.ar

edu.ar

1

ayuda.veventas.com.ar

www.uncu.edu.ar

2

venta.ofertas-subastas.com.ar

portal.eco.unc.edu.ar

3

comprar.shopavenida.com.ar

www.arteushuaia.edu.ar

4

venta.shop24horas.com.ar

www.nuevaescuela.edu.ar

5

ofertas.macrocompra.com.ar

www2.uca.edu.ar

6

ofertas.vendasonline.com.ar

colegiosanignacio.edu.ar

7

remates.ventas-nautica.com.ar

www.frcu.utn.edu.ar

8

ofertas.shop24horas.com.ar

www.utdt.edu.ar

9

remates.ofertas-subastas.com.ar

oni.escuelas.edu.ar

10

remates.tech-shop.com.ar

unq.edu.ar

11

remates.shop24horas.com.ar

www.bibliotecas.unc.edu.ar

12

grandes-ofertas.com.ar

www.unrc.edu.ar

13

venta-compra-oferta.com.ar

www.ubp.edu.ar

14

www.medios-de-comunicacion.web-directorio.com.ar

www.ful.unl.edu.ar

15

www.dinamoweb.com.ar

pub.ufasta.edu.ar

16

www.manosegunda.com.ar

www.salvador.edu.ar

17

www.artes.web-directorio.com.ar

sun.sedici.unlp.edu.ar

18

hogar.venta-compra-oferta.com.ar

gemini.fcaglp.unlp.edu.ar

19

www.compras.web-directorio.com.ar

g.unsa.edu.ar

20

www.jeux.com.ar

www.emis.famaf.unc.edu.ar

21

www.sbviajes.com.ar

www.exa.unicen.edu.ar

22

venta.tecno-tienda.com.ar

www.unr.edu.ar

23

www.ciencia-y-tecnologia.web-directorio.com.ar

www.mendoza.edu.ar

24

www.argotech.com.ar

sedici.unlp.edu.ar

25

www.ninos-y-jovenes.web-directorio.com.ar

unsl.edu.ar

26

www.syxmedia.com.ar

wdc.cricyt.edu.ar

27

www.gruposrcc.com.ar

materias.frcu.utn.edu.ar

28

revisiones.veventas.com.ar

hal.famaf.unc.edu.ar

29

www.mercadoselect.com.ar

www.inspt.utn.edu.ar

30

cokecan.com.ar

www.unlp.edu.ar

31

computadoras.venta-compra-oferta.com.ar

www.iri.edu.ar

32

ofertas.veventas.com.ar

www.unsam.edu.ar

33

www.telefonos-celulares.com.ar

www.arcride.edu.ar

34

ofertas.ventas-nautica.com.ar

vaneduc.edu.ar

35

www.web-directorio.com.ar

exa.unne.edu.ar

36

auto-clasificados.com.ar

tweety.itba.edu.ar

37

www.britny-spears.com.ar

swiki-lifia.info.unlp.edu.ar

38

ecoportal.com.ar

info.tyo.uap.edu.ar

39

ofertas.tech-shop.com.ar

perio.unlp.edu.ar

40

www.labarrapub.com.ar

www.lascumbres.edu.ar

41

venta.ventas-nautica.com.ar

proxy.frbb.utn.edu.ar

42

www.juguetesnuevos.com.ar

www.fcv.unlp.edu.ar

43

spegelboll.com.ar

agr.unne.edu.ar

44

ofertas.tecno-tienda.com.ar

dc.exa.unrc.edu.ar

45

venta.tech-shop.com.ar

www.jeanpiaget.esc.edu.ar

46

www.baby-world.com.ar

embnet.biol.unlp.edu.ar

47

ofertas.solo-precios.com.ar

www.sceu.frba.utn.edu.ar

48

celulares.venta-compra-oferta.com.ar

www.epetrg.edu.ar

49

ofertas.ofertas-subastas.com.ar

www.unlu.edu.ar

50

www.eliminar-virus.com.ar

www.herrera.unt.edu.ar

 

Orden

gov.ar

org.ar

1

buenosaires.gov.ar

www.ipl.org.ar

2

www2.medioambiente.gov.ar

www.sacil.org.ar

3

www.mecon.gov.ar

forum.roxette.org.ar

4

www.cnc.gov.ar

educared.org.ar

5

www.bue.gov.ar

www.centromanresa.org.ar

6

santafe.gov.ar

tierradelfuego.org.ar

7

www.me.gov.ar

www.fundamind.org.ar

8

mapa.buenosaires.gov.ar

rcc.org.ar

9

www.senasa.gov.ar

po.org.ar

10

www.lapampa.gov.ar

www.iglesiasreformadas.org.ar

11

www.mininterior.gov.ar

oma.org.ar

12

banco.cndisc.gov.ar

www.dlib.org.ar

13

www.innovacionrn.gov.ar

apl.org.ar

14

www.anses.gov.ar

gnu.usla.org.ar

15

venus.ceride.gov.ar

lugli.org.ar

16

www.ec.gba.gov.ar

cv.iefpa.org.ar

17

www.medioambiente.gov.ar

incose.org.ar

18

formosa.gov.ar

www.plug.org.ar

19

www.bahiablanca.gov.ar

www.iskcon.org.ar

20

cmcaba.jusbaires.gov.ar

fundacionkonex.org.ar

21

www.trabajo.gov.ar

www.cfired.org.ar

22

www.cultura.gov.ar

www.salta.softwarelibre.org.ar

23

cartacompromiso.sgp.gov.ar

www.gulbar.org.ar

24

www.misiones.gov.ar

www.jabad.org.ar

25

www.inti.gov.ar

www.unido.org.ar

26

www.apostoles.gov.ar

www.infanciaenred.org.ar

27

msal.gov.ar

www.ckc.org.ar

28

www.camdipsalta.gov.ar

accioncatolica.org.ar

29

www.sagpya.mecon.gov.ar

www.donorione.org.ar

30

www.rosario.gov.ar

preguntaslinux.usla.org.ar

31

www.guiacultura.gov.ar

www.actores.org.ar

32

www.turismosalta.gov.ar

www.organizacionislam.org.ar

33

www.afip.gov.ar

ujs.org.ar

34

www.deportesantafe.ceride.gov.ar

coran.org.ar

35

comodoro.gov.ar

www.biblioteca.org.ar

36

ministerio.jusbaires.gov.ar

hayek.org.ar

37

www.bnm.me.gov.ar

www.mug.org.ar

38

www.ms.gba.gov.ar

www.cceba.org.ar

39

www.ensenada.gov.ar

www.caminandoutopias.org.ar

40

tribunales.jusbaires.gov.ar

tolkien.org.ar

41

www.spa.gba.gov.ar

www.ligaconfluencia.org.ar

42

ba.gov.ar

www.obispadogchu.org.ar

43

cdi.mecon.gov.ar

www.trinidad.org.ar

44

www.conicet.gov.ar

www.hospitalitaliano.org.ar

45

www.presidencia.gov.ar

www.consitalia-bsas.org.ar

46

www.tigre.gov.ar

www.aaba.org.ar

47

www.hlt.gov.ar

www.noruega.org.ar

48

www.enerc.gov.ar

www.enredando.org.ar

49

www.renar.gov.ar

www.concejaliapopular.org.ar

50

www.cnv.gov.ar

www.lugmen.org.ar

 



[1] Ahora en Yahoo! Research

[2] http://www.mamboserver.com

[3] http://www.joomla.org/

[4] http://www.maxmind.com/