Universidad Nacional de Luján Departamento de Ciencias Básicas Laboratorio de Redes de Datos Proyecto de Investigación “Modelos y Servicios de Información sobre
Sistemas Complejos en Espacios Académicos y Científicos” Versión en inglés: Tolosa, G.;
Bordignon, F.; Baeza-Yates, R. y
Castillo, C. “Characterization
of the Argentinian Web”, Cybermetrics, 11 (2007), Issue 1, Paper 3 |
|
Caracterización del Espacio Web de Argentina |
Gabriel
Tolosa Universidad Nacional de Luján Departamento de Ciencias Básicas Laboratorio de Redes tolosoft@unlu.edu.ar |
Fernando
Bordignon Universidad Nacional de Luján Departamento de Ciencias Básicas Laboratorio de Redes bordi@unlu.edu.ar |
Ricardo
Baeza-Yates[1] Centro de Investigación de la Web (CIW) DCC Universidad de Chile ricardo@baeza.cl |
Carlos
Castillo Yahoo!
Research Barcelona chato@yahoo-inc.com |
En este trabajo de investigación se caracteriza el
espacio web argentino a partir del análisis de una muestra, tomada a principios
del año 2006, cercana a los 10 millones de páginas extraídas de 150.000 sitios.
En particular, se realizó análisis de contenidos, de enlaces y de tecnologías utilizadas para construir
sitios. Los resultados obtenidos son consistentes con los de otros espacios
webs nacionales, los cuales fueron
procesados utilizando la misma metodología de trabajo.
Del estudio surgen las siguientes observaciones: Existe una
importante proporción de dominios “com.ar” (97.6%) frente a otros tipos de
dominios de segundo nivel. En lo referente al contenido de las páginas se
encontró que predominan términos relacionados con la actividad comercial. En los nombres de los sitios, extraídos de
las URLs, aparecen mayormente términos relacionados con el turismo. Una alta
proporción de las páginas (55%) no posee enlaces provenientes de otros sitios
del dominio “.ar” y un 30% no poseen enlaces salientes. El 72% de las páginas
han sido creadas o modificadas en el último año, lo cual indica que el espacio
web argentino está creciendo aceleradamente. Con referencia a tecnologías
utilizadas, el 48% de las páginas de la muestra son estáticas y el 52%,
dinámicas, las cuales se encuentran construidas en gran parte utilizando herramientas
libres como PHP y Perl. El 76% de los sitios se hallan alojados en servidores
que residen en Argentina. De los indicadores anteriores se desprende que existe
un importante desarrollo tecnológico y de la infraestructura de comunicaciones
de Argentina relacionada con la web.
1 – Introducción
Actualmente, la World Wide Web es un espacio
público utilizado por múltiples usuarios con objetivos diferentes.
Originalmente, se presentaba como un repositorio distribuido que permitía
compartir información y – aunque no ha perdido este objetivo – en la actualidad
es un medio de publicación para diferentes usos como comercio, publicidad,
educación, entretenimiento y contactos sociales, entre otros.
Si bien la web se encuentra en constante
crecimiento el estudio de características y tendencias entrega una valiosa
información, tanto para entender su estructura como para desarrollar
herramientas que faciliten la utilización de sus recursos. Algunos esfuerzos se
han realizado para caracterizar el espacio web global. El World Wide Web
Consortium realizó algunas de estas actividades hasta 1999 [WCA, 1999],
mientras que el On Line Computer Library Center (OLCL) albergó un proyecto de
esta naturaleza con información hasta el año 2002 [O'Neill, 2003].
El estudio de las características del espacio web
es una tarea compleja que requiere de la utilización de recursos
computacionales de gran escala debido a su tamaño y distribución geográfica.
Debido a esto, se han realizado estudios a menos escala, específicamente de dominios
nacionales [Baeza-Yates, 2004] [Baeza-Yates, 2005a] [Baeza-Yates, 2005b] [Efthimiadis, 2004] [Modesto, 2005], tomando muestras de dominios variados y
utilizando diferentes estrategias de recolección. De acuerdo a [Baeza-Yates, 2005c], estas muestras presentan un
buen balance entre diversidad y completitud, por lo que constituyen un conjunto
de alto interés.
La web se encuentra en constante crecimiento y
evolución, por lo que se requieren nuevas herramientas para satisfacer las
necesidades de los usuarios. Como un sistema basado en interacciones sociales,
se requiere de una mejor compresión de su naturaleza para poder establecer
patrones y tendencias que permitan diseñar mejores estrategias que faciliten el
acceso. Además, el estudio de porciones específicas del espacio web –
como por ejemplo un dominio nacional – permite analizar el comportamiento de un
conjunto de entidades respecto de la web global.
En este trabajo se presenta un estudio de
caracterización del espacio web de Argentina, el cual presenta algunas
particularidades interesantes que lo diferencian de otros. El estudio abarca
las características principales reportadas en otros trabajos similares aunque
aumentamos en nivel de análisis en algunos aspectos tratando de obtener nueva
información. Para nuestro conocimiento, éste es el primer estudio sobre el
espacio web de Argentina en el cual – además – se realiza una proyección del su
tamaño total.
2 – Características de la Web
La web
puede ser modelada como un grafo dirigido (webgraph)
donde los nodos corresponden a páginas HTML y los enlaces entre éstas son las
aristas [Broder, 2000]. Formalmente, este grafo consiste en un conjunto de
nodos, denotado como P y un conjunto de aristas, A. Cada arista (expresada como
q→p) es un par ordenado (q, p) donde q, p Î P y
representan un enlace o vínculo entre las páginas (nodos) q y p, situación que
se da sólo con algunos pares. En este caso, q es un enlace entrante de p y éste
uno saliente de q.
En particular, se ha estudiado la topología
del grafo web [Broder, 2000] el cual se caracteriza por formar una red libre de
escala el cual – además – es autosimilar, es decir, que porciones menores de
éste mantienen propiedades del grafo completo [Dill, 2002].
Las redes libres de escala (scale-free
network) se caracterizan por una distribución dispareja de nodos y enlaces
[Albert, 2002]. Esto significa que se pueden encontrar nodos con muy pocos
enlaces y otros con muchos. Los vínculos en páginas Web son un ejemplo de esto,
tanto los entrantes como los salientes. En este caso, se observa en la Web que
existen ciertos nodos que incorporan enlaces entrantes (crecen) de manera
proporcional al tamaño que tienen. Estos nodos, resultan interesantes de
encontrar y estudiar ya que vinculan partes importantes de la red. Kleinberg
[Kleinberg, 1999] y Barabasi [Barabasi, 1999] plantearon que la topología del
grafo de la web corresponde a una red libre de escala, en la cual la
distribución de los enlaces sigue una ley de potencias (power law) de la forma:
P(x = k) ≈ k -β,
para β > 0.
La cual expresa la probabilidad que la
página x posea k enlaces. El exponente β de la ley de potencias describe
que tan rápido disminuye el valor de la frecuencia de x. Los ejemplos clásicos
de estas distribuciones corresponden a Zipf y Pareto [Adamic, 2002]
Esta situación fue luego observada por
Broder en un muestreo de la web de gran escala [Broder, 2000], encontrando como
propiedad básica del grafo web que la distribución del grado entrante de los
vértices sigue una ley de potencias con exponente β = 2.1. Por otro lado,
la distribución del grado saliente sigue una ley de potencias imperfecta con
β = 2.72.
3 – Metodología
Para el
estudio de la web argentina se realizó una recolección de páginas utilizando el
crawler WIRE [Castillo, 2005]. La
tarea se llevó a cabo durante los meses de marzo y abril de 2006 utilizando un
equipo PC server, con un procesador de 2.4 Ghz y 1 Gb de memoria RAM corriendo
el sistema operativo Linux Debian Sarge y un enlace a Internet de 1 Mbps.
Para delimitar el dominio de estudio se tomó como criterio
recolectar sólo las páginas bajo el dominio ’.ar’. Si bien se conoce que
existen organizaciones de Argentina que utilizan el dominio ‘.com’ para su
sitio web, no es técnicamente simple obtener una lista exhaustiva de éstos y –
además – varias de éstas mantienen el doble nombre de dominio, uno .com y otro.
com.ar con redirección entre éstos en algunos casos o duplicación de contenidos
en otros casos. En Argentina no existen restricciones para la obtención de
dominios bajo el sufijo ‘.com.ar’ y – además – su registración no tiene costo
alguno. Esto facilita el acceso a un nombre de dominio por lo que suponemos que
la mayoría de la web argentina se encuentra bajo el sufijo ‘ar’ aunque – por otro
lado – genera algunos inconvenientes los cuales describiremos más adelante.
Bajo este criterio, el crawler
fue inicialmente alimentado con aproximadamente 10.000 direcciones de dominios
de Argentina obtenidos de directorios del país, de páginas oficiales
gubernamentales y del directorio de Yahoo!. Debido a que la cantidad de
información a recuperar podría llegar a ser demasiada para manejarla
adecuadamente y por otro lado el tiempo de recolección podría haber sido
bastante extenso, se procedió a configurar el módulo de crawling con los
siguientes parámetros: profundidad máxima en páginas dinámicas: 5 y profundidad
máxima en páginas estáticas: 15.
Para el análisis de los datos recolectados utilizamos la
metodología propuesta en [Baeza-Yates, 2005d] estudiando la web en
diferentes niveles de granularidad (páginas, sitios y dominios) y agrupando
características de acuerdo a contenido, enlaces y tecnologías. No obstante,
hemos agregado algunos estudios que permiten analizar características
particulares del dominio en cuestión.
3.1 – La colección WebAR
Se
recolectaron 9.656.218 páginas desde 149.305 sitios que corresponden a 83.813
dominios. El 94.71% corresponden a páginas únicas y el 5.29% se encuentran
duplicadas. Del total, el 48% corresponden a páginas estáticas, mientras que
las dinámicas suman el 52%. Este es primer dato que nos llamó la atención y
sobre el cual volveremos más adelante para proponer una explicación.
En febrero de 2006 solicitamos a NIC
Argentina información acerca de la cantidad de dominios registrados bajo su
control y la distribución. De acuerdo a la respuesta oficial [Vilas, 2006] cuentan con 1.129.381 dominios
registrados. Además, NIC informó que según estudios propios acerca de
utilización de los nombres de dominios asignados bajo “com.ar” el 26% (286.635)
es productivo, es decir que está configurada una dirección real donde se
publica un sitio web o se reciben correos electrónicos. En la tabla 1 se
presenta la distribución de dominios de segundo nivel bajo “. ar”, mientras que
en la tabla 2 se indica la cantidad de dominios de tercer nivel, ajustados por
el porcentaje de productividad en ‘com.ar‘ y la cantidad de dominios
pertenecientes a la muestra donde al menos se recuperó una página. Nótese que para los dominios
diferentes de ‘com.ar’ se considera que el total de activos es muy superior
(cercano al 100%) ya que las normas de registración son estrictas respectos de
qué organización puede pertenecer a cada uno por lo que se supone que no existe
una cantidad de registraciones significativas que no se utilicen.
Dominio de 2do nivel |
Cantidad |
% |
com.ar |
1.102.444 |
97,61 |
org.ar |
14.133 |
1,25 |
net.ar |
10.112 |
0,90 |
gov.ar |
2.570 |
0,23 |
mil.ar |
92 |
0,01 |
int.ar |
30 |
0,00 |
Total
|
1.129.381 |
100 |
Tabla 1:
Distribución de dominios de segundo nivel
Fuente:
NIC Argentina, febrero 2006
Dominio
2do nivel |
Dominios activos de 3er nivel (NIC) |
Dominios activos de 3er nivel (Muestra) |
% en la muestra |
com.ar |
286.635 |
77.668 |
27,10 |
org.ar |
14.133 |
3.846 |
27,21 |
net.ar |
10.112 |
817 |
8,08 |
gov.ar |
2.570 |
896 |
34,86 |
mil.ar |
92 |
21 |
22,83 |
int.ar |
30 |
11 |
36,67 |
edu.ar (*) |
N/D |
554 |
|
Total |
313.572 |
83.813 |
|
Tabla 2: Composición de la muestra
(*) El dominio .edu.ar no se encuentra bajo
administración de NIC Argentina
4 – Contenidos
En esta sección se presentan los resultados
del estudio del contenido en diferentes niveles de granularidad. A nivel de
páginas se estudian las propiedades del texto (idioma, términos, tamaños)
mientras que en los planos de sitios y dominios se analizan cómo se distribuyen
las páginas dentro del espacio objetivo.
4.1 –
Tamaño de las Páginas
Por
cada página descargada se almacenaron como máximo 100 Kb. Observamos que el
tamaño medio de las páginas es de 10 Kb. Este valor es bastante menor que las
observaciones de Chile (21 Kb) y Brasil (24 Kb). La distribución de los tamaños es muy sesgada y se puede modelar
mediante una ley de potencias con parámetro β = 2.2 para las páginas cuyo
tamaño es más de 20 Kb. En el gráfico 1 se presenta la distribución junto con
la curva de ajuste.
|
|
Gráfico 1 – Distribución de los tamaños de las
páginas con la recta de ajuste (izquierda). Detalle de la zona para los tamaños hasta 20 Kb
(derecha) |
4.2 –
Términos más Utilizados
Se extrajo
de forma aleatoria un subconjunto de páginas para analizar su contenido. En
total, se tomaron 396.134 documentos. Se eliminaron las marcas HTML y se
extrajeron del texto puro todos sus términos. Luego, para cada documento se
seleccionaron los 40 términos de mayor frecuencia. A continuación, se los
fusionó en una única lista y se eliminaron palabras vacías en español e inglés
y los términos de 1 carácter. Finalmente, se calculó el DF (Document Frequency), es decir, la
cantidad de documentos en los que apareció cada uno, sin importar su TF (Term Frecuency) dentro de cada
documento. En la tabla 3, se muestran los primeros 10 términos, ordenados por
DF. En el Anexo 1 se incluye una lista con los primeros 100.
Orden |
Término |
Cantidad de Documentos |
% |
1 |
precio |
67,966 |
17.16 |
2 |
compra |
67,456 |
17.03 |
3 |
inicio |
60,362 |
15.24 |
4 |
artículos |
59,831 |
15.10 |
5 |
venta |
58,930 |
14.88 |
6 |
argentina |
56,944 |
14.37 |
7 |
cuotas |
50,047 |
12.63 |
8 |
tarjeta |
49,926 |
12.60 |
9 |
comprar |
46,824 |
11.82 |
10 |
pagofacil |
46,729 |
11.80 |
Tabla 3 – Primeros 10 términos
más utilizados
en el contenido de los documentos
En estos
resultados (Tabla 3) se observa que los primeros lugares se encuentran ocupados
por términos relacionados con la actividad comercial y – específicamente – con
vocabulario propio de sitios dedicados a ventas masivas, subastas, catálogos en
línea con redirección a otros sitios, y demás.
4.3 –
Términos en los Nombres de Sitios
Complementariamente al estudio de
términos en el contenido de las páginas realizamos un análisis de los nombres
de sitios y dominios que conforman la muestra. No tomamos en cuenta las
etiquetas de dominios de primer y segundo nivel, como tampoco interesó las
palabra "www" por ser ampliamente utilizada. Por ejemplo, en el
nombre de sitio "www.tyr.unlu.edu.ar" sólo analizamos la subcadena
"tyr.unlu". Como separador de términos utilizamos el punto
(".") y el guión medio ("-"). En la tabla 4 se muestran los
primeros 10 términos más frecuentes en los nombres de sitios, mientras que en
el Anexo 2 se presenta una lista con los primeros 100.
Orden |
Término |
Cantidad de Sitios |
1 |
campings |
51,318 |
2 |
sbviajes |
21,922 |
3 |
argentina |
7,384 |
4 |
tango |
7,256 |
5 |
europa |
6,835 |
6 |
brasil |
6,472 |
7 |
aereos |
6,215 |
8 |
paquetes |
6,194 |
9 |
noticias |
6,174 |
10 |
ofertas |
6,103 |
Tabla 4 –
Primeros 10 términos más frecuentes
en los
nombres de sitios
A diferencia
del análisis de contenido donde la mayoría de los términos están vinculados con
la actividad comercial masiva, en los nombres de sitios comienzan a aparecer
términos relacionados con el turismo (itálica). Una observación interesante es
que algunos de estos sitios poseen su nombre de dominio formado por un término
concatenado con la palabra “argentina”. Por ejemplo, hoteleinrgentina,
hotelesargentina, viajeaargentina, viajarxargentina y alojarseargentina, entre
otros. Entre las primeras 100 palabras más utilizadas, el nombre Argentina
aparece 12468 veces (4.6%).
4.4 –
Idiomas
Dentro del análisis de contenido realizamos una caracterización de la
composición de idiomas. Para ello, tomamos una muestra del 5% de los documentos
HTML y extrajimos el texto. Luego, utilizamos el módulo para Perl Text::Language::Guess [Schilli, 2005], el cual se basa en la
detección de las palabras vacías de cada lengua. La distribución de los idiomas
utilizados en documentos que componen el espacio web argentino presenta una participación
del 63% del idioma español, seguido por el inglés con una participación del
27%. Aquí hay que tener en cuenta que el español es el idioma oficial. En Chile
se reportó un 90% de páginas en español y un 75% de páginas en portugués en
Brasil. En un estudio de sitios (sección 4.6) hallamos que hay un número
importante de éstos dedicados al turismo, actividad que se ha desarrollado en
los últimos 5 años en Argentina, los cuales – en general – presentan
información en más de un idioma. La distribución se presenta en el gráfico 2.
Gráfico 2
– Distribución de los idiomas
encontrados
en las
páginas descargadas
4.5 – Edad
de las Páginas
La edad de
cada página recuperada se establece analizando el valor del encabezado
“last-modified” del protocolo HTTP. Hay que tener en cuenta que algunos
servidores entregan fechas erróneas por no mantener actualizados sus relojes
por lo cual los resultados surgen sólo de las válidas. En la tabla 5 se
presentan los resultados.
Nótese que más del 72% de las páginas han sido creadas o
modificadas en el último año. Esto representa que el espacio web argentino está
creciendo a una tasa alta. También es cierto que a esta elevada proporción de
actualización de documentos corresponde la alta proporción de páginas dinámicas,
cuya fecha es la de creación de la misma cada vez que un cliente la solicita.
Cabe recordar que la proporción de páginas dinámicas recolectadas es superior
al 50%.
Si se analiza la distribución en meses se puede obtener un
indicador más preciso del crecimiento de la web argentina. En el gráfico 3 se
presenta la distribución edad en meses y cantidad de páginas para los últimos
10 años.
Edad (años) |
Documentos |
% |
0 |
1.424.906 |
72,28 |
1 |
284.641 |
14,44 |
2 |
123.725 |
6,28 |
3 |
74.740 |
3,79 |
4 |
34.155 |
1,73 |
5 |
16.973 |
0,86 |
6 |
7.938 |
0,40 |
7 |
2.215 |
0,11 |
8 |
1.224 |
0,06 |
9 |
413 |
0,02 |
10 |
20 |
0,00 |
> 10 |
384 |
0,02 |
Total |
1.971.334 |
100 |
Tabla 5:
Distribución de edad en años
de los
documentos recolectados
|
|
Gráfico 3 - Distribución de cantidad de páginas creadas o
modificadas en los últimos 10 años. Cantidad
total (izquierda) y Distribución de Cantidades (derecha) con ajuste
exponencial y = 0.073.e0.069x |
La distribución de la fracción de páginas creadas por mes se
puede modelar mediante una ley de potencias de parámetro β = 2.3 (Gráfico
3, derecha). Aquí se puede observar como se han incrementado exponencialmente
con el tiempo el número de documentos nuevos o modificados. Esto es un
indicador de que la web argentina se encuentra creciendo aceleradamente,
consistentemente con lo que ocurre en otros países.
4.6 –
Páginas por Sitio
La
cantidad media de páginas por sitio es 65 y su distribución corresponde a una ley de
potencias con parámetro β = 1.45 (Gráfico 4). Este valor es comparable con
otros países de la región como Chile donde se encontraron 58 [Baeza-Yates, 2005a]
con una distribución de parámetro β = 1.6 o Brasil con 66 [Modesto, 2005]
y β = 1.6. Inclusive, resulta similar a la web de España que posee una
media de 52 páginas y β = 1.1 [Baeza-Yates, 2005b].
Gráfico
4 – Distribución de la cantidad de páginas por sitio.
4.6 –
Sitios y Páginas por Dominios
En total,
existen 149.305 sitios, los cuales corresponden a 83.813 dominios de tercer
nivel. Muchos de los sitios de la muestra pertenecen a un mismo dominio, es decir,
a una misma organización y encontramos un alto porcentaje de dominios con sólo
un sitio. Esto es llamativo ya que – por un lado – existen pocas organizaciones
con subdivisiones internas y – por ende – sitio web administrativamente
separado (por ejemplo, fi.uba.ar y fceyn.uba.ar). Por otro lado, aquellas
organizaciones con una sola unidad administrativa mantienen la organización
interna del sitio utilizando otra técnica como – por ejemplo – estructura
física de directorios. En la tabla 6 se presenta esta información.
|
Cantidad |
% |
Total sitios en la muestra |
149.305 |
|
Total de dominios 3 nivel |
83.813 |
|
Dominios de tercer nivel con más de un sitio |
2.389 |
2,85 |
Dominios de tercer nivel con sólo un sitio |
81.424 |
97,15 |
Tabla 6 –
Dominios de tercer nivel
Complementariamente,
en la tabla 7 se presentan los dominios con más sitios. Se observa que todos
pertenecen al dominio de segundo nivel “.com.ar” y – para nuestra sorpresa – están relacionados con la industria
turística. Sin embargo, mediante una inspección manual determinamos que todos
los sitios dedicados a turismo en esta lista corresponden a la misma agencia,
por lo que están utilizando múltiples nombres de dominio para un mismo
contenido, ya que la dirección IP de los diferentes sitios es la misma.
Orden |
Dominio |
Sitios |
|
Orden |
Dominio |
Sitios |
1 |
sbviajes.com.ar |
21.922 |
|
14 |
sritour.com.ar |
953 |
2 |
sri-tour.com.ar |
1.543 |
|
15 |
susanabarbaricca.com.ar |
934 |
3 |
hotelesturiscos.com.ar |
1.542 |
|
16 |
arcountry.com.ar |
862 |
4 |
mucho-sexo.com.ar |
1.438 |
|
17 |
sriviajes.com.ar |
838 |
5 |
sriturismo.com.ar |
1.436 |
|
18 |
virtualcountries.com.ar |
793 |
6 |
turismo-hotel.com.ar |
1.386 |
|
19 |
tripod.com.ar |
781 |
7 |
hotelbsasarg.com.ar |
1.346 |
|
20 |
sucountry.com.ar |
774 |
8 |
hotelturistico.com.ar |
1.330 |
|
21 |
virtual-countries.com.ar |
691 |
9 |
holafoto.com.ar |
1.266 |
|
22 |
hotelesargentina.com.ar |
687 |
10 |
viajar-argentina.com.ar |
1.204 |
|
23 |
viajeaargentina.com.ar |
630 |
11 |
hotelbuenosairesarg.com.ar |
1.153 |
|
24 |
turismoporargentina.com.ar |
626 |
12 |
hoteleinrgentina.com.ar |
1.010 |
|
25 |
viajarxargentina.com.ar |
606 |
13 |
sri-viajes.com.ar |
954 |
|
|
|
|
Tabla 7 –
Dominios con mayor cantidad de sitios
En la muestra analizada existen 99 dominios con más de 50
sitios cada uno, de los cuales sólo nueve dominios no pertenecen a “.com.ar”
(Tabla 8).
Dominio |
Sitios |
gba.gov.ar |
139 |
utn.edu.ar |
132 |
unlp.edu.ar |
118 |
esc.edu.ar |
109 |
unlu.edu.ar |
95 |
unc.edu.ar |
80 |
fi.uba.ar |
59 |
mendoza.gov.ar |
59 |
fcen.uba.ar |
52 |
Tabla 8 –
Dominios no comerciales con mayor cantidad de sitios
Luego, agrupamos las páginas por dominio de segundo nivel ya
que en Argentina su uso es lo habitual en aproximadamente el 95% de los casos.
Sin embargo, existen algunas excepciones como el dominio de la Universidad de
Buenos Aires (uba.ar) y algunos organismos dependientes del estado (educ.ar,
nic.ar, nación.ar) los cuales sólo cuentan en una pequeña fracción. En la tabla
9 se resume esta información, junto con datos acerca de la cantidad de páginas
recuperadas de cada uno.
Dominios de 2do. Nivel |
Sitios |
% sitios |
Páginas descargadas |
com.ar |
140.533 |
94,1248 |
9.077.243 |
org.ar |
4.155 |
2,7829 |
276.393 |
edu.ar |
1.784 |
1,1949 |
114.965 |
gov.ar |
1.516 |
1,0154 |
145.719 |
net.ar |
976 |
0,6537 |
14.543 |
uba.ar |
239 |
0,1601 |
29.637 |
mil.ar |
60 |
0,0402 |
2.359 |
educ.ar |
12 |
0,0080 |
2.927 |
int.ar |
11 |
0,0074 |
188 |
retina.ar |
6 |
0,0040 |
742 |
mecon.ar |
6 |
0,0040 |
143 |
nic.ar |
3 |
0,0020 |
61 |
sld.ar |
1 |
0,0007 |
1 |
promocion.ar |
1 |
0,0007 |
3 |
nacion.ar |
1 |
0,0007 |
16 |
gobiernoelectronico.ar |
1 |
0,0007 |
76 |
TOTAL |
149.305 |
100 |
9.664.921 |
Aquí hay que tener en
cuenta que las normas de registración de nombres de dominio son poco
restrictivas para los dominios comerciales (.com.ar) y no existe costo alguno.
Hasta hace unos años, se podían registrar nombres de dominio sin limitación
alguna, aunque en la actualidad se exige que – al menos – exista un servidor
DNS en un proveedor de hosting válido
que resuelva tal nombre, lo que impide parte de las registraciones masivas.
Este es el motivo principal por el cual existen más de 1.00.000 de dominios
registrados y sólo un 26% se encuentre activo. Para el caso de otros dominios
existen reglas más estrictas y solamente se asignan a organizaciones que
califiquen, aunque también son gratuitos.
5 – Enlaces
Esta sección corresponde al estudio de las
relaciones establecidas a nivel de enlaces. Como se mencionó anteriormente, el
espacio web es modelado como un grafo dirigido sobre el cual se analizan
características.
5.1 – Grado Entrante de las
Páginas
El grado entrante (in-degree) de una página corresponde al número de enlaces desde
otras –del dominio en estudio solamente- que apuntan hacia esta. Esta es una
característica importante ya que es un indicador de reputación de la página
utilizado por los motores de búsqueda para el ranking de sus salidas. Las
distribuciones son bastante sesgadas y siguen leyes de potencias. En el caso de
la web estudiada la distribución posee un parámetro β =
1.71 (Gráfico 5). En Brasil se encontró β = 1.0, en Chile β = 2.0 y
en España β = 2.1. Como dato interesante, encontramos el 55% de las
páginas con grado entrante igual a cero.
Gráfico 5 – Distribución del grado
entrante de las páginas
5.2 – Grado Saliente de las
Páginas
En este caso, corresponde al número de enlaces
que posee una página hacia otras del mismo dominio de estudio (out-degree). En general, esta distribución
es mas sesgada que la anterior. Las distribuciones de grado saliente se pueden
analizar usando dos leyes de potencias [Baeza-Yates, 2005d]. La
primera para valores menores que un umbral y la segunda para los superiores.
Esto permite realizar una mejor aproximación ya que los primeros valores de la
distribución no se ajustan a la misma curva que los segundos. En este caso,
obtuvimos una power-law para valores
menores a 30 enlaces salientes con un exponente β1 = 0.58 y
para la correspondiente a los valores superiores el ajuste fue con β2
= 3.34. Estas distribuciones son comparables con las halladas para Chile
(β1 = 0.7 y β2 = 2.6), Brasil (β1
= 0.7 y β2 = 2.7) y España (β1 = 0.9 y β2
= 4.2). En el gráfico 6 se presentan
las distribuciones. Sobre esta característica hallamos que aproximadamente el
30% de las páginas no poseen enlaces salientes.
Gráfico 6 – Distribución del grado
saliente de las páginas
con las dos curvas de ajuste
5.3 – PageRank
El
ranking de las páginas a partir del análisis de enlaces es una característica
importante a estudiar ya que algunos motores de consultas utilizan información
del in-degree de las páginas para
establecer la importancia de cada una de éstas. Esta idea se fundamenta en que
la estructura de enlaces es armada – en general – por humanos y representa una
fuente de información indirecta (respecto del contenido) que es ser de alto
valor [10]. En
algunos casos, cuando el autor de una página web genera un enlace hacia otra,
está dando una recomendación implícita acerca de la calidad del contenido de
esta última. Esta información es utilizada en diversas aplicaciones como
búsquedas, ranking, recuperación y minería en la web. Un ejemplo clásico son
los algoritmos de rankeo de páginas web como HITS [13] y PageRank [Page, 1998]
utilizados por algunos buscadores.
En particular, calculamos los valores de
Pagerank [Page, 1998] ya que éste es uno de los algoritmos más citados. En el
gráfico 7 se puede apreciar que la distribución de cantidades de páginas
respecto de los valores siguen una ley de potencias con parámetro β =
1.85. De acuerdo a Pandurangan [Pandurangan, 2002] este exponente – en teoría –
debería ser similar al de la distribución de grado entrante, situación que
ocurre en este caso. Complementariamente, presentamos un ajuste para los
primeros valores (Gráfico 7, derecha) cuyo parámetro es β = 2.0.
|
|
Gráfico 7 – Distribución de las páginas por valor
de Pagerank (izquierda). Ajuste para los primeros valores de Pagerank que
agrupan la mayor cantidad de las páginas (derecha) |
En otros estudios se hallaron
distribuciones similares consistentes con una ley de potencias. Estos son los
casos de Chile (β
= 1.9), Brasil (β = 1.8) y España (β = 2.0).
5.4 – Grado Entrante en Hostgraph
Se
denomina hostgraph al grafo creado
cambiando los nodos que representan páginas web en el mismo sitio por uno único
que representa el sitio web [Bharat, 2001]. Luego, si existe al menos un enlace
de una página de un sitio a otra en otro, entonces existirá un enlace a nivel
de Hostgraph. En este caso, la distribución de enlaces entrantes a nivel de
Hostgraph se ajusta a una ley de potencias con parámetro β = 1.7 (Gráfico
8). Situaciones similares se encontraron en Chile (β = 2.0), Brasil
(β = 1.9) y España (β = 1.8).
Gráfico 8 – Distribución de grado entrante
en hostgraph
5.5 – Grado Saliente en Hostgraph
De manera
complementaria se calculó la distribución de enlaces salientes a nivel de
Hostgraph la cual se ajusta a una ley de potencias con parámetro β = 1.5
(Gráfico 9). Comparando con otros países encontramos: Chile (β = 1.9),
Brasil (β = 1.9) y España (β = 1.3).
Gráfico 9 – Distribución de grado saliente
en hostgraph
Calculamos
– además – los valores de Pagerank para los sitios web y los dividimos por
dominio de segundo nivel. En la tabla 10 se presentan los 10 sitios con más
reputación de acuerdo al algoritmo mencionado para los dominios principales. En
el anexo 3 se incluye una lista más exhaustiva con los 50 primeros sitios de
cada dominio.
Orden |
com.ar |
edu.ar |
gov.ar |
org.ar |
1 |
ayuda.veventas.com.ar |
buenosaires.gov.ar |
||
2 |
venta.ofertas-subastas.com.ar |
portal.eco.unc.edu.ar |
www2.medioambiente.gov.ar |
|
3 |
comprar.shopavenida.com.ar |
forum.roxette.org.ar |
||
4 |
venta.shop24horas.com.ar |
educared.org.ar |
||
5 |
ofertas.macrocompra.com.ar |
www2.uca.edu.ar |
||
6 |
ofertas.vendasonline.com.ar |
colegiosanignacio.edu.ar |
santafe.gov.ar |
tierradelfuego.org.ar |
7 |
remates.ventas-nautica.com.ar |
|||
8 |
ofertas.shop24horas.com.ar |
mapa.buenosaires.gov.ar |
rcc.org.ar |
|
9 |
remates.ofertas-subastas.com.ar |
oni.escuelas.edu.ar |
po.org.ar |
|
10 |
remates.tech-shop.com.ar |
unq.edu.ar |
Tabla 10 –
Principales sitios según dominios de segundo de acuerdo a su PageRank
Analizando
los sitios que constituyen el ranking del dominio “com.ar” puede observarse que
en su gran mayoría corresponden a emprendimientos relacionados con la subasta
electrónica de bienes, catálogos de ventas, redireccionadores de potenciales
clientes a sitios de subasta, entre otros. Es evidente que cuando un usuario
posee una necesidad de información no relacionada con el ambiente comercial el
alto puntaje de tales sitios contribuye a que referencias a ellos se incluyan
en las salidas de respuesta. Esto genera ruido documental, el cual disminuye la
precisión en las búsquedas mencionadas. En [Bordignon, 2006] se los denomina
“Sitios Comerciales Multiventa” y se propone una metodología para su detección
y – opcionalmente – filtrado ya que poseen alta reputación y aparecen como
respuesta de múltiples consultas aunque su contenido no sea necesariamente relevante.
Se estudió
la distribución de los Componentes Fuertemente Conectados (SCC) del grafo a
nivel de sitios. Un SCC es un subgrafo dirigido en el cual todos los nodos
pueden alcanzar a los demás (dentro del mismo subgrafo) siguiendo los enlaces.
Estudiamos la distribución de los
SCC de nuestra muestra de la web argentina. Aquí podemos observar la existencia
de una componente gigante (Tabla 11). La distribución de los tamaños sigue una
ley de potencias con exponente β = 2.74 en la
parte central (Gráfico 10).
Tamaño del SCC |
Número de componentes |
|
Tamaño del SCC |
Número de componentes |
1 |
66.021 |
|
12 |
2 |
2 |
432 |
|
14 |
1 |
3 |
81 |
|
16 |
2 |
4 |
164 |
|
20 |
1 |
5 |
18 |
|
21 |
1 |
6 |
9 |
|
22 |
1 |
7 |
8 |
|
23 |
1 |
8 |
1 |
|
29 |
1 |
9 |
4 |
|
38 |
1 |
10 |
2 |
|
44 |
1 |
11 |
2 |
|
80.968 |
1 |
Tabla
11 – Tamaño de los Componentes Fuertemente Conectados
Gráfico 10
– Distribución de los Tamaños de los SCC
5.8 – Estructura Macroscópica
En un estudio de una muestra de la web global, Broder y otros [Broder,
2000] propusieron una estructura que muestra las relaciones existentes entre
las páginas respecto de un subconjunto de grafo web correspondiente al
Componente Fuertemente Conectado (SCC) de mayor tamaño. Esta estructura –
conocida como “bow-tie” – ubica a
cada página en una de 6 regiones:
-
MAIN, que
incluye al SCC de mayor tamaño.
-
IN, formado
por nodos que pueden alcanzar a los nodos en MAIN pero no son alcanzables desde
éste.
-
OUT, que es
un conjunto de nodos alcanzables desde MAIN que no poseen enlaces salientes
hacia éste.
-
ISLANDS, nodos
desconectados de los los componentes anteriormente mencionados.
-
TENTACLES, nodos
que son alcanzables solamente desde porciones de IN o de OUT.
-
TUNNELS, nodos
desde IN que alcanzan a otros en OUT.
En [Baeza-Yates, 2001] se
extendió en nivel de detalle del componente MAIN dividiéndolo en las siguientes
subregiones:
-
MAIN-MAIN, sitios
que pueden ser alcanzados directamente desde la componente IN o que pueden
alcanzar directamente la componente OUT;
-
MAIN-IN, sitios
que pueden ser alcanzados directamente desde IN pero no están en MAIN-MAIN;
-
MAIN-OUT, sitios
que pueden alcanzar directamente a OUT y no pertenecen a MAIN-MAIN;
-
MAIN-NORM, sitios
que no pertenecen a las componentes previamente enunciadas.
Gráfico 11 – Estructura macroscópica de la
web
El tamaño de la región MAIN (54,23%) muestra
que la web argentina se encuentra – en general – bien conectada, especialmente
si lo comparamos con Chile donde el porcentaje de sitios de esta región es
21.76 y en Brasil llega al 25.27%. Los sitios en la componente OUT (28.15%)
representan una fracción más baja que en Brasil (45.33%) pero similar a Chile
(26.12%). Si se tiene en cuenta que uno de los motivos que hacen que un nodo
esté en OUT es su antigüedad y desactualización, podemos ver que en el dominio
.ar no representan un porcentaje mayor.
Por otro lado, los sitios pertenecientes a
las componentes IN e ISLANDS únicamente se los accede a partir de sus páginas
iniciales debido a que pueden ser páginas nuevas o no estar bien conectadas. En
este caso, representan porcentajes comparables con Chile en la componente IN
(6.65%) pero no en ISLANDS (46.16%). En Brasil se reportaron un 12.95% y 12.35%
respectivamente. La baja proporción de elementos en ISLANDS refuerza la idea de
una buena conectividad de la web argentina.
Componente |
Sitios |
Porcentaje |
MAIN_NORM |
50.346 |
33,72 |
MAIN_MAIN |
10.212 |
6,84 |
MAIN_IN |
3.439 |
2,30 |
MAIN_OUT |
16.971 |
11,37 |
IN |
8.523 |
5,71 |
OUT |
42.026 |
28,15 |
TIN |
2.915 |
1,95 |
TOUT |
951 |
0,64 |
TUNNEL |
176 |
0,12 |
ISLAND |
13.746 |
9,21 |
Tabla 12 –
Componentes de la estructura macroscópica
A continuación (Tabla 13), se presenta el mismo estudio
separado por dominio de segundo nivel. Aquí se puede apreciar que las
proporciones se mantienen independientemente de los dominios, especialmente
teniendo en cuenta la alta participación del dominio de segundo nivel “com.ar”.
|
edu.ar |
com.ar |
org.ar |
gov.ar |
||||
COMPONENTE |
Sitios |
% |
Sitios |
% |
Sitios |
% |
Sitios |
% |
MAIN_IN |
108 |
6,05 |
2.934 |
2,09 |
221 |
5,32 |
140 |
9,23 |
MAIN_MAIN |
263 |
14,74 |
8.888 |
6,32 |
606 |
14,58 |
378 |
24,93 |
MAIN_NORM |
280 |
15,70 |
49.145 |
34,97 |
572 |
13,77 |
212 |
13,98 |
MAIN_OUT |
277 |
15,53 |
15.645 |
11,13 |
748 |
18,00 |
233 |
15,37 |
MAIN |
928 |
52,02 |
76.612 |
54,52 |
2.147 |
51,67 |
963 |
63,52 |
IN |
153 |
8,58 |
7.261 |
5,17 |
314 |
7,56 |
76 |
5,01 |
ISLAND |
183 |
10,26 |
13.108 |
9,33 |
305 |
7,34 |
67 |
4,42 |
OUT |
477 |
26,74 |
39.658 |
28,22 |
1.309 |
31,50 |
398 |
26,25 |
TIN |
29 |
1,63 |
2.817 |
2,00 |
51 |
1,23 |
9 |
0,59 |
TOUT |
12 |
0,67 |
906 |
0,64 |
26 |
0,63 |
3 |
0,20 |
TUNNEL |
2 |
0,11 |
171 |
0,12 |
3 |
0,07 |
0 |
0,00 |
TOTAL |
1.784 |
|
140.533 |
|
4.155 |
|
1.516 |
|
Tabla
13 – Componentes de la estructura macroscópica
discriminados
por dominios de segundo nivel
5.9 – Enlaces en Dominios de Segundo Nivel
Finalmente, se estudiaron los enlaces en dominios de segundo nivel (Tabla
14), tanto los enlaces entrantes como saliente. Como se puede apreciar, los
dominios bajo com.ar son los que predominan claramente en cuanto a su aporte de
enlaces con el 96.58% de los enlaces entrantes y el 94.41% de los salientes.
|
Enlaces
Entrantes |
Enlaces
Salientes |
||
Dominio de 2do nivel |
Enlaces |
% |
Enlaces |
% |
com.ar |
2.762.173 |
96,58 |
2.700.086 |
94,41 |
gov.ar |
38.901 |
1,36 |
50.310 |
1,76 |
org.ar |
30.861 |
1,08 |
67.984 |
2,38 |
edu.ar |
19.580 |
0,68 |
30.894 |
1,08 |
uba.ar |
4.125 |
0,14 |
5.382 |
0,19 |
mil.ar |
1.233 |
0,04 |
458 |
0,02 |
net.ar |
1.174 |
0,04 |
3.572 |
0,12 |
educ.ar |
661 |
0,02 |
447 |
0,02 |
mecon.ar |
429 |
0,02 |
86 |
0,00 |
nic.ar |
253 |
0,01 |
8 |
0,00 |
retina.ar |
206 |
0,01 |
201 |
0,01 |
gobiernoelectronico.ar |
183 |
0,01 |
384 |
0,01 |
int.ar |
116 |
0,00 |
69 |
0,00 |
nacion.ar |
31 |
0,00 |
48 |
0,00 |
sld.ar |
3 |
0,00 |
0 |
0,00 |
TOTAL |
2.859.929 |
100 |
2.859.929 |
100 |
Tabla 14 – Enlaces
entrantes y salientes discriminado por dominios de segundo nivel
6 – Tecnologías
En esta
sección se presentan los resultados del estudio de las características de la
web argentina relacionadas con la tecnología utilizada para la gestión de la
información publicada. Por ejemplo, se analizan distribuciones de formatos de
archivos y lenguajes de programación, entre otros.
6.1 –
Códigos de Respuestas HTTP
En
primer lugar se muestran los resultados de las respuestas entregadas por los
servidores durante la etapa de recolección de páginas. De manera normal, un
cliente web (en este caso el crawler
WIRE) abre una conexión TCP con el servidor web correspondiente y solicita –
mediante el protocolo HTTP – el recurso deseado. El servidor responde con un
código de estado. La evaluación de los mismos permite determinar si la página
se puede descargar y los diferentes motivos por los cuales no se puede
recuperar. Los códigos HTTP se agruparon en:
En la tabla 15 y en el gráfico 12 se presentan los
resultados sobre la base de 12.276.090 páginas solicitadas. Como se puede
apreciar, el porcentaje de descargas exitosas es bueno y se encuentra dentro de
los valores reportados en otros estudios que están entre el 75 y 85%
[Baeza-Yates, 2005d]. Sin embargo, la proporción de enlaces rotos
(más del 5%), es significativa. Esto indica algún problema subyacente en los
administradores de sitios web relacionado con el mantenimiento de los
documentos de su dominio. Teniendo en cuenta la disponibilidad de herramientas
para el chequeo automático, se podría minimizar este inconveniente. Además, hay
que tener en cuenta que sólo cuentan los enlaces dentro del dominio de
Argentina.
|
|
||||||||||||||||
Tabla 15
– Distribución de los Códigos HTTP |
Gráfico
12 – Distribución de los Códigos HTTP |
6.2 –
Longitud de las URLs
Se estudió la distribución de la longitud (en bytes) de las URLs, la cual
se presenta en el gráfico 13. Observamos una longitud promedio de 68 bytes sin
incluir la parte correspondiente al protocolo, lo que la incrementaría en 7
bytes (http://). Este valor es comparable similar a los observados en Chile (64
bytes), Brasil (69 bytes) y España (67 bytes).
Encontramos
– además – que en 160 bytes se encuentra el 99% de las URLs y en 100 bytes el
92%. Por otro lado, observamos URLs muy largas (hasta 1000 bytes) las cuales
cuentan un porcentaje menor (menos del 0.5%) y corresponden a páginas
dinámicas.
Gráfico 13
– Distribución de las longitudes de las URLs.
Complementariamente, estudiamos la
longitud de las URLs de páginas HTML (estáticas) y dinámicas y los parámetros de éstas. En el gráfico 14
se presentan las distribuciones correspondientes. En este caso, con 110 bytes
se obtienen el 99% de las las páginas HTML y el 99.8 de las páginas dinámicas.
El promedio de longitud para las páginas HTML que observamos es de 62 bytes,
mientras que para las páginas dinámicas es de 46 bytes. Esta diferencia puede
atribuirse a que en los sitios manejados de forma dinámica no utilizan
demasiadas jerarquías de directorios. Por otro lado, en las páginas dinámicas,
la longitud promedio de los parámetros es de 27 bytes.
Gráfico 14
– Distribución de las longitudes de las URLs de páginas estáticas y dinámicas.
En el
primer caso, el ajuste corresponde a una distribución normal
con
parámetros m = 45 y s = 10,
mientras que para las páginas
dinámicas
el ajuste también es normal con m = 60 y s = 19
6.3 –
Distribución de Partes de los Nombres de Sitios
También
estudiamos la cantidad de partes que tienen los nombres de sitios, es decir,
cada componente separada por un punto. Por ejemplo, el sitio www.unlu.edu.ar
contiene 4 partes mientras que www.uba.ar tiene 3. En la tabla 16 se presentan
los resultados absolutos mientras que el gráfico 15 muestra la distribución por
fracción de cada una.
|
|
||||||||||||||||||||||
Tabla
16 – Cantidad de partes en los nombres de sitios |
Gráfico 15 – Distribución de la proporción de partes en
los nombres de sitios |
Observamos que más del 50% de los nombres de sitio poseen 4
partes, que es el número esperado ya que en Argentina se utiliza el dominio de
2do nivel y el nombre www para el host principal. Sin embargo, un poco más del
20% poseen 8 o más partes. Esta situación no la atribuimos al uso de
subdominios por cuestiones administrativas internas de las organizaciones (ya
que son demasiados niveles de división) sino a un uso tendiente a obtener un
mejor ranking en los buscadores. En la tabla 17 se muestran algunos ejemplos de
nombres de sitios largos.
www.international.campings.visitarargentina.com.ar www.contacto.campings.visitarargentina.com.ar www.campings.ofertas.campings.arcountry.com.ar repuestos-accesorios-autos.ofertasreales.com.ar amd-athlon-xp-barton.microprocesadores.venta-usados-nuevos.com.ar rosario.monitores-proyectores.venta-usados-nuevos.com.ar www.americadelnorte.europa.argentina.cruceros.campings.campings.sbviajes.com.ar www.destinosexoticos.cruceros.turismojoven.primeraclase.campings.virtualcountries.com.ar |
Tabla 17 –
Ejemplos de nombres largos de sitios
6.3 –
Profundidad de los Documentos
La
profundidad de un documento es el número de enlaces que es necesario seguir
desde el inicio de un sitio para alcanzarla. El inicio o portada de un sitio
posee profundidad 0, las páginas directamente alcanzables desde el inicio
profundidad 1, y así sucesivamente. Se limitó al módulo recolector recolector
para que descargue solamente 5 niveles para páginas dinámicas, y sólo 15
niveles para páginas estáticas. El máximo se sitúa en el nivel cuatro según
puede observarse en el gráfico X.
|
|
||||||||||||||||||||||||||||||||||||
Tabla 18
– Distribución de los documentos por profundidad |
Gráfico
16 – Distribución de la proporción de documentos
por profundidad (eje y en escala logarítmica) |
6.4 –
Documentos que no están en HTML
En la muestra obtenida encontramos aproximadamente 550.000 enlaces a
documentos que no están escritos en HTML, los cuales representan menos del 1%
del total de los documentos. El gráfico 17 presenta la distribución. Aquí se
puede apreciar la alta participación de los documentos en el formato PDF de
Adobe, mientras que el siguiente sólo posee menos de un tercio. Esta situación
es comparable con Chile donde el 63% de los documentos están en PDF mientras
que el Brasil alcanzan el 48%. Sin embargo, la situación es diferente en España
donde predominan los documentos en texto plano (TXT). Si se analiza en términos
absolutos, la cantidad de formatos correspondientes a documentos es
sorprendente baja en esta muestra.
Gráfico 17
– Distribución de los documentos
que no
están en HTML
6.5 – Documentos Estáticos vs Dinámicos
Para este
estudio dividimos los documentos descargados en dos grupos, tratando de
identificar aquellos que se denominan “páginas dinámicas”. Éstas son páginas
HTML que no se encuentran previamente almacenadas en el disco rígido del
servidor web sino que son confeccionadas “on
the fly” por un programa y entregadas al cliente. Generalmente, las páginas
dinámicas se arman para entregar respuestas a consultas a bases de datos, a
determinadas opciones ingresadas por los usuarios ó para armar sitios
personalizados. En este último caso podemos contar con las aplicaciones
generadoras de páginas utilizadas para la creación de sitios web y las
herramientas de gestión de contenidos como Mambo[2]
y Joomla[3].
Para la detección de páginas
dinámicas se utilizó el criterio de analizar la extensión de los documentos
relacionados con los lenguajes de scripting utilizados más frecuentemente (PHP,
ASP, CGI, etc.) y tomar aquellas páginas que contienen el símbolo “?” que
introduce la lista de parámetros un una llamada al método GET en el protocolo
HTTP. SI bien es posible que alguna de las páginas estáticas sean dinámicas o
viceversa, consideramos que son excepciones que no afectan los resultados.
En el análisis de documentos estáticos y dinámicos
observamos una llamativa paridad (Tabla19), inclusive con una superioridad de
páginas dinámicas (52%). Si comparamos con España y Chile, cuyas muestras
presentan un 22% y 38% de páginas dinámicas respectivamente, este porcentaje es
bastante elevado. Estos valores denotan que existe una importante
infraestructura de desarrollo web que soporta gran parte de la lógica de
negocios de las organizaciones. Otra posible explicación podría deberse a que
tanto la web de Chile como la de Argentina se suponen más nuevas que la de
España, por lo que la utilización de tecnologías dinámicas tiene una mayor
desarrollo en los últimos años.
|
|
Documentos |
% |
|
|
TOTAL |
12.276.090 |
100,00 |
|
Dinámicos |
6.383.050 |
52,00 |
||
Estáticos |
5.893.040 |
48,00 |
||
Tabla 19 –
Distribución de documentos estáticos y dinámicos
Complementariamente,
analizamos la distribución de los enlaces a documentos con las extensiones
utilizadas para construir páginas dinámicas (Gráfico 18). Se puede apreciar una
importante participación del lenguaje de preprocesamiento de hipertextos PHP
con un 52% seguido por Perl con 39%, ambas herramientas completamente libres de
costo de utilización. En cuanto a España, hay aproximadamente un 46% de uso de
PHP, pero lo sigue un 44% de ASP, mientras que en Chile hay un 78% de PHP y un
16% de ASP. Por otro lado, Brasil cuenta con más del 70% y 20% respectivamente.
En estos 3 países la utilización de Perl es proporcionalmente muy baja.
Gráfico 18 – Distribución
de enlaces a documentos
con extensiones de páginas
dinámicas
6.6 – Documentos Multimedia
En cuanto a los enlaces a archivos multimedia,
separamos las extensiones relacionadas con los formatos de audio, video e
imágenes (Gráficos 19, 20 y 21). Por el lado de las imágenes, los formatos GIF
y JPG son los más utilizado, sumando el 98%. Esto ocurre de manera similar en
Chile (86.5% y 11.59%), Brasil (85% y 10%) y España (92% y 7%).
|
|
Gráfico 19 – Enlaces a archivos de imagen |
Gráfico 20 – Enlaces a archivos de audio |
Los
formatos de audio más utilizados son mp3 (35.85%) y ram (39.42%), este último
de la empresa Real, siendo estos valores comparables con la web chilena que
cuenta con el 34.27% y 34.23% respectivamente. No contamos este dato en otros
estudios.
Para el caso de los
formatos de video encontramos un 98.18% de archivos de extensión swf, mientras
que los demás ninguno alcanza el 1%. Si tenemos en cuenta que estos archivos
corresponden a aplicaciones Flash, las cuales son utilizadas – en general –
como mejoras de la estética de los sitios web podemos ver que su grado de
utilización también es una indicación de la utilización de tecnología en
Argentina. Si quitamos las aplicaciones Flash (Gráfico 22), los formatos más
utilizados son los clásicos de video: avi (35%), wmf (32%) y mpg (22%). En
Chile se reportaron distribuciones diferentes como predominantes: wmv (33.76%),
mov (32.95%) y mpeg (24.03%). Tampoco contamos este dato en otros estudios.
|
|
Gráfico 21 – Enlaces a archivos de video |
Gráfico 22 –
Distribución de enlaces a Archivos de Video (sin la extensión SWF) |
6.7 – Código Fuente, Binarios y Comprimidos
En el último estudio de extensiones de enlaces a
documentos separamos las extensiones relacionadas con los formatos de código
fuente (Gráfico 23), binarios de distribuciones de software (Gráfico 24) y archivos
comprimidos y/o empaquetados (Gráfico 25).
|
|
Gráfico 23 – Enlaces
a archivos de código fuente |
Gráfico 24 – Enlaces
a archivos binarios de distribuciones de software |
|
|
|
|
Gráfico 25 – Enlaces
a archivos comprimidos y/o empaquetados |
|
6.8 – Relaciones entre Nombres de Sitios y Direcciones de Red
Sobre una
muestra extraída al azar, compuesta por 23.965 nombres de sitios (que
representa el 16.05% del total de sitios donde el módulo de crawling recuperó al menos una página
web) se evaluó cual es la relación entre tales nombres de sitios y la dirección
de red donde se halla el servidor web correspondiente. Los resultados se
presentan en la Tabla 20.
Categorías |
Direcciones IP |
% |
Sitios |
% |
100 o más |
16 |
0,48 |
10.670 |
44,52 |
de 50 a 99 |
12 |
0,36 |
778 |
3,25 |
de 10 a 49 |
342 |
10,29 |
6.394 |
26,68 |
de 1 a 9 |
2.953 |
88,87 |
6.123 |
25,55 |
Total |
3.323 |
100,00 |
23.965 |
100,00 |
Tabla
20 – Relaciones entre nombres de sitios y de direcciones de red
Como
puede observarse en la tabla anterior sobre muy pocas direcciones IP, sólo 16
(que representan el 0,48% de las direcciones de red de la muestra), se hallan
hospedados 10.670 sitios, los cuales
corresponden al 44,52%.
6.9 – Distribución de Sitios por País
Sobre la misma
muestra extraída al azar del ítem anterior se evaluó en qué países se hallan
hospedados los sitios que almacenan contenidos del dominio “.ar. A los efectos
de relacionar direcciones de red con países se utilizó la bases de datos
geográficos GeoIPCountryWhois de la empresa Maxmind[4].
Países |
Sitios |
% |
Argentina |
18.177 |
75,87 |
Estados Unidos |
4.700 |
19,62 |
Canadá |
351 |
1,47 |
Brasil |
224 |
0,94 |
Colombia |
150 |
0,63 |
España |
89 |
0,37 |
Francia |
84 |
0,35 |
Reino Unido |
60 |
0,25 |
Israel |
48 |
0,20 |
Lituania |
39 |
0,16 |
Chile |
6 |
0,03 |
Alemania |
5 |
0,02 |
Otros paises |
24 |
0,10 |
TOTAL |
23.957 |
100,00 |
Tabla
21 – Distribución de sitios por
país
A partir de los datos provistos en la tabla 21 se puede observar que casi
el 76% de los sitios se hallan alojados en servidores que residen en la
República Argentina. Entendemos que este dato es un indicador más acerca del
desarrollo tecnológico del país en estudio. Por otro lado, para los usuarios
argentinos que deseen contratar servicios de alojamiento de sitios en el
exterior existe una diferencia económica significativa debido a la paridad
entre la moneda nacional y el dólar o el euro.
7 – Proyección del Tamaño de la Web de
Argentina
A partir de los datos recogidos por el módulo de crawler de WIRE y los datos aportados por NIC Argentina acerca de
asignación de nombres de dominio y porcentaje de sitios productivos bajo
“com.ar”, se realizó una proyección de la cantidad de sitios, el tamaño total y
la cantidad de páginas del espacio web argentino. Se dividió el estudio por
dominio de segundo nivel, de acuerdo a los datos consignados en la sección 3.1
y se calculó la cantidad media de documentos por sitio y el tamaño medio de
cada sitio de la muestra (Tabla 23).
Dominios |
Cantidad
de dominios de 3er nivel (NIC) |
Cantidad
de dominios de 3er nivel (Muestra) |
% |
Cantidad
de
Sitios (Muestra) |
Cantidad Media de Documentos por Sitio |
Tamaño Medio por Sitio (en MB) |
com.ar |
286.635 |
77.668 |
27,10 |
140.533 |
134 |
1,820 |
org.ar |
14.133 |
3.846 |
27,21 |
4.155 |
102 |
1,645 |
net.ar |
10.112 |
817 |
8,08 |
976 |
34 |
0,218 |
gov.ar |
2.570 |
896 |
34,86 |
1.534 |
163 |
2,179 |
mil.ar |
92 |
21 |
22,83 |
60 |
52 |
0,538 |
int.ar |
30 |
11 |
36,67 |
11 |
23 |
0,172 |
edu.ar |
No
Disponible |
554 |
|
2.036 |
127 |
1,293 |
TOTAL |
313.572 |
83.813 |
|
149.305 |
|
|
Tabla 23 – Datos de los
sitios por dominio de segundo nivel
Con esta información, se
realizó la proyección mediante proporciones cuyos resultados se presentan en la
Tabla 24. Sobre este análisis se debe tener en cuenta que el crawler fue configurado con algunas
limitaciones de descarga, como cantidad de páginas por sitio y profundidad
máxima a explorar, por lo que algunas páginas no fueron recolectadas.
|
Proyectados |
||
Dominios |
Sitios |
Documentos |
Tamaño (MB) |
com.ar |
518.639 |
69.476.127 |
943.811 |
org.ar |
15.268 |
1.553.961 |
25.119 |
net.ar |
12.080 |
414.666 |
2.633 |
gov.ar |
4.400 |
717.009 |
9.587 |
mil.ar |
263 |
13.603 |
141 |
int.ar |
30 |
676 |
5 |
edu.ar |
2.036 |
258.859 |
2.632 |
TOTAL |
552.717 |
72.434.902 |
983.929 |
Tabla 24 – Proyección
del total de la web argentina
En estos cálculos se asume que el resto de los
sitios existentes tienen un comportamiento en cuanto a cantidad de páginas y
tamaño similar a los recolectados. Por ello, suponemos que esta es una
proyección optimista ya que – por características propias del método de
recolección utilizado y la semilla de direcciones iniciales – el conjunto de
los sitios que fueron visitados son de menor visibilidad y, posiblemente, de
menor tamaño.
8 – Conclusiones
En este
trabajo se presenta una caracterización del espacio web de Argentina sobre una
muestra propia de 9.656.218 páginas pertenecientes a 149.305 sitios en 83.813
dominios de tercer nivel. Para el análisis, se dividió el estudio en cuenta a
contenido, enlaces y tecnologías utilizadas.
En primer lugar, observamos una alta
participación de sitios bajo el dominio “.com.ar”, inclusive sólo considerando
aquellos que se encuentran activos (26%), de acuerdo a información de NIC
Argentina, organismo oficial de registración.
Una posible cuestión a tener en cuenta es el estudio de
replanteo de los mecanismos de asignación y registro de nombres de dominio.
Según los datos obtenidos gran parte de los dominios “com.ar” no están siendo utilizados.
En cuanto
al contenido, se observó que la distribución de los tamaños de las páginas es
bastante segada. En el estudio del vocabulario de las páginas se encontró que
predominan términos relacionados con la actividad comercial como sitios
dedicados a ventas masivas, subastas, catálogos en línea y demás. Esta
situación puede acarrear problemas de pérdida de precisión en ciertos tipos de
búsquedas debido a que – generalmente – estos sitios están muy bien
posicionados en los rankings. Sin embargo, en los nombres de los sitios,
extraídos de las URLs, aparecen mayormente términos relacionados con el
turismo, actividad de mucho auge en los últimos años en Argentina.
La
distribución de los idiomas utilizados en documentos presenta una participación
del 63% del idioma español que es el oficial, seguido por el inglés (27%).
Además, aproximadamente el 72% de las páginas han sido creadas o modificadas en
el último año. Esto representa que el espacio web argentino está creciendo
aceleradamente, consistentemente con lo que ocurre en otros países.
Del análisis de enlaces y conectividad surge
muestra que la web argentina se encuentra – en general – bien conectada. Un
indicador es que la componente MAIN posee el 54.23% de los sitios, mientras que
hay una baja proporción en ISLANDS (9,21%), lo que refuerza esta idea. Esta
situación se mantiene inclusive al analizar los sitios por dominio de segundo
nivel. Por otro lado – y como se esperaba – las distribuciones enlaces
entrantes, salientes y pagerank siguen leyes de potencias. Una alta proporción
de las páginas (55%) no posee enlaces provenientes de otros sitios del dominio
“.ar” y un 30% no poseen enlaces salientes.
Al analizar los
primeros lugares del ranking de sitios elaborado con PageRank, se observa que
en su gran mayoría corresponden a emprendimientos relacionados con la subasta
electrónica de bienes, catálogos de ventas, redireccionadores de potenciales
clientes a sitios de subasta, entre otros. Esto indica que en la web argentina
existe una importante cantidad de páginas construidas especialmente para lograr
un buen posicionamiento de los sitios mencionados.
En cuanto a los aspectos
tecnológicos, hallamos que – del total de páginas descargadas – el 48% son
estáticas y el 52%, dinámicas, las cuales se encuentran construidas en gran
parte utilizando herramientas libres como PHP (53%) y Perl (39%). Además, casi el 76% de los sitios se hallan
alojados en servidores que residen en Argentina y el 68% de las
direcciones de red donde se alojan sitios web están en el país. De estos indicadores se desprende que
existe un importante desarrollo tecnológico y de la infraestructura de
comunicaciones de Argentina relacionada
con la web.
Finalmente, de la proyección del tamaño del espacio web de Argentina
surge que si el resto de la web no recolectada se comporta como la muestra se
pueden alcanzar más de medio millón de sitios con aproximadamente 70 millones
de documentos que sumarían cerca de 1 TB de información. Sería interesante
contar con la lista de todos los nombres de dominios registrados para extraer
una muestra más representativa y realizar nuevas estimaciones sobre un conjunto
de sitios de menor visibilidad a los efectos de ajustar los parámetros de la
proyección.
De este estudio de desprenden varias líneas de investigación
y desarrollo. En primer lugar, consideramos interesante realizar nuevos
trabajos que permitan armar mapas de evolución y dinámica del espacio objeto a
los efectos de estudiar su comportamiento en el tiempo. Además, surge la
necesidad de construir servicios de información locales que utilicen la
información obtenida para mejorar la experiencia de los usuarios con
aplicaciones basadas en el contenido de la web, por ejemplo, permitiendo
filtrar las respuestas provenientes de sitios comerciales. Por otro lado, el
estudio en profundidad de porciones más acotadas como – por ejemplo – el
dominio edu.ar permitiría obtener indicadores de desarrollo para la comunidad
educativa.
9 – Agradecimientos
Agradecemos al Ingeniero Jorge Vilas de NIC Argentina por la información
aportada en cuanto a la cantidad de dominios registrados. También al personal
técnico de RETINA por su valiosa colaboración.
10 –
Referencias
[Adamic, 2002] L.A.
Adamic and B.A. Huberman. Zipf's law and the Internet. Glottometrics 3, pp 143-150,
2002.
[Albert, 2002] R. Albert R. and A.-L. Barabasi.
Statistical mechanics of complex networks. Review of Modern Physics 74, 47-94.
2002.
[Baeza-Yates, 2001] R. Baeza-Yates and C. Castillo.
Relating Web characteristics with link based Web page ranking. In Proceedings
of String Processing and Information Retrieval (SPIRE), IEEE Cs. Press, pp
21-32. Laguna San Rafael, Chile, 2001.
[Baeza-Yates, 2004]
R. Baeza-Yates and F. Lalanne. Characteristics of the Korean Web.
Technical Report, Korea-Chile IT Cooperation Center, ITCC, 2004.
[Baeza-Yates, 2005a] R.
Baeza-Yates and C. Castillo. Características de la Web Chilena 2004. Technical
Report, Center for Web Research, University of Chile, 2005.
[Baeza-Yates, 2005b] R.
Baeza-Yates, C. Castillo and V. Lopez. Characteristics of
the Web of Spain. Cybermetrics, Vol. 9, No. 1, 2005.
[Baeza-Yates, 2005c] R. Baeza-Yates, and C. Castillo. Link
Analysis in National Web Domains. Workshop on Open Source Web Information
Retrieval (OSWIR), pp. 15-18. Compiegne, France, 2005.
[Baeza-Yates, 2005d] R. Baeza-Yates, C.
Castillo, and E. Efthimiadis. Characterization of national Web domains. Technical
report, Universitat Pompeu Fabra, July 2005.
[Barabasi, 1999] A. L. Barabasi and A. Albert.
Emergence of Scaling in Random Networks. Science, (286): 509-512, 1999.
[Bharat, 2001] K.Bharat, B-W. Chang, M. Herzinger and
M. Rhul. Who Links to Whom: Mining Linkage between Web Sites. In Proceedings of
the IEEE International Conference on Data Mining, 2001.
[Bordignon,
2006] F. Bordignon, P. Lavallén and G. Tolosa. Búsqueda de Sitios Web con
Autoridad en un Tema. VIII Workshop de Investigadores en Ciencias de la
Computación WICC, 2006.
[Broder, 2000]
A. Broder, R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan, R. Stata,
A. Tomkins, J. Wiener, Graph Structure in the Web. In Proceedings of the WWW9
Conference pp. 309-320, 2000.
[Castillo, 2005] C. Castillo and R. Baeza-Yates. WIRE: an Open Source
Web Information Retrieval Environment. Workshop on Open Source Web Information
Retrieval (OSWIR), 2005.
[Chakrabarti, 1999] S. Chakrabarti, B.E. Dom, D.
Gibson, D., and J. Kleinberg. Mining the Link Structure of the World Wide Web.
IEEE Computer, Vol. 32, No. 8, pp: 60-67, 1999.
[Dill, 2002] S. Dill, R. Kumar, K.S. Mccurley, S. Rajagopalan,
D. Sivakumar, and A. Tomkins. Self-similarity in the web. ACM Transactions on
Internet Technology, 2(3):205-223, 2002.
[Efthimiadis, 2004] E. Efthimiadis and C. Castillo.
Charting the Greek Web. In Proceedings of the Conference of the American Society
for Information Science and Technology (ASIST), Providence, Rhode Island, USA,
November, 2004.
[Kleinberg, 1999] J. Kleinberg, R. Kumar, P. Raghavan,
S. Rajagopalan, and A. Tomkins. The Web
as a Graph: Measurements, Models and Methods. In Proceedings of the
International Conference on Combinatorics and Computing, 1999.
[Modesto, 2005] M. Modesto, A. Pereira, N. Ziviani, C. Castillo and R.
Baeza-Yates. Un Novo Retrato da Werb Brasileira. In Proceedings of
SEMISH, São Leopoldo, Brazil, 2005.
[O'Neill, 2003] E. O'Neill, B. Lavoie, R. Bennett.
Trends in the Evolution of the Public Web 1998 - 2002. D-Lib Magazine, Volume
9 Number 4, 2003.
[Page, 1998] L. Page, S. Brin, R. Montwani and T.
Winograd. The Pagerank Citation Ranking: Bringing Order to the Web. Technical
Report, Stanford Digital Library Technologies Project, 1998
[Pandurangan, 2002] G. Pandurangan, P. Raghavan, and
E. Upfal. Using Pagerank to characterize Web structure. In Proceedings of the
8th Annual International Computing and Combinatorics Conference (COCOON),
volume 2387 of Lecture Notes in Computer Science, pages 330--390, Singapore,
2002.
[Schilli, 2005] Text::Language::Guess - Trained
module to guess a document's language. http://search.cpan.org/~mschilli/Text-Language-Guess-0.02/lib/Text/Language/Guess.pm
[Vilas, 2006] J. Vilas. RE: Solicitud de datos para investigación sobre
"Caracterización de la web Argentina". Comunicación Personal, Febrero
6, 2006.
[WCA, 1999] Web Characterization Activity.
http://www.w3.org/WCA/
Anexo
1 – Lista de los primeros 100 términos más utilizados en el contenido de las
páginas (Sección 4.2)
Orden |
Términos |
Cant. documentos |
% |
|
Orden |
Términos |
Cant. documentos |
% |
1 |
precio |
67.966 |
17,16 |
|
51 |
precio |
67.966 |
17,16 |
2 |
compra |
67.456 |
17,03 |
|
52 |
compra |
67.456 |
17,03 |
3 |
inicio |
60.362 |
15,24 |
|
53 |
inicio |
60.362 |
15,24 |
4 |
artículos |
59.831 |
15,10 |
|
54 |
artículos |
59.831 |
15,10 |
5 |
venta |
58.930 |
14,88 |
|
55 |
venta |
58.930 |
14,88 |
6 |
argentina |
56.944 |
14,37 |
|
56 |
argentina |
56.944 |
14,37 |
7 |
cuotas |
50.047 |
12,63 |
|
57 |
cuotas |
50.047 |
12,63 |
8 |
tarjeta |
49.926 |
12,60 |
|
58 |
tarjeta |
49.926 |
12,60 |
9 |
comprar |
46.824 |
11,82 |
|
59 |
comprar |
46.824 |
11,82 |
10 |
pagofacil |
46.729 |
11,80 |
|
60 |
pagofacil |
46.729 |
11,80 |
11 |
gratis |
44.413 |
11,21 |
|
61 |
gratis |
44.413 |
11,21 |
12 |
web |
44.210 |
11,16 |
|
62 |
web |
44.210 |
11,16 |
13 |
precios |
41.989 |
10,60 |
|
63 |
precios |
41.989 |
10,60 |
14 |
vender |
41.931 |
10,59 |
|
64 |
vender |
41.931 |
10,59 |
15 |
oferta |
41.457 |
10,47 |
|
65 |
oferta |
41.457 |
10,47 |
16 |
ofertas |
38.186 |
9,64 |
|
66 |
ofertas |
38.186 |
9,64 |
17 |
ringtones |
34.167 |
8,63 |
|
67 |
ringtones |
34.167 |
8,63 |
18 |
ringtop |
32.188 |
8,13 |
|
68 |
ringtop |
32.188 |
8,13 |
19 |
buscar |
31.053 |
7,84 |
|
69 |
buscar |
31.053 |
7,84 |
20 |
ventas |
30.738 |
7,76 |
|
70 |
ventas |
30.738 |
7,76 |
21 |
free |
30.700 |
7,75 |
|
71 |
free |
30.700 |
7,75 |
22 |
productos |
30.123 |
7,60 |
|
72 |
productos |
30.123 |
7,60 |
23 |
mp |
29.140 |
7,36 |
|
73 |
mp |
29.140 |
7,36 |
24 |
nokia |
28.609 |
7,22 |
|
74 |
nokia |
28.609 |
7,22 |
25 |
crazy |
28.226 |
7,13 |
|
75 |
crazy |
28.226 |
7,13 |
26 |
frog |
28.057 |
7,08 |
|
76 |
frog |
28.057 |
7,08 |
27 |
download |
27.340 |
6,90 |
|
77 |
download |
27.340 |
6,90 |
28 |
video |
27.034 |
6,82 |
|
78 |
video |
27.034 |
6,82 |
29 |
dvd |
26.816 |
6,77 |
|
79 |
dvd |
26.816 |
6,77 |
30 |
cd |
26.797 |
6,76 |
|
80 |
cd |
26.797 |
6,76 |
31 |
telecharger |
26.408 |
6,67 |
|
81 |
telecharger |
26.408 |
6,67 |
32 |
nuevos |
24.350 |
6,15 |
|
82 |
nuevos |
24.350 |
6,15 |
33 |
servicios |
24.170 |
6,10 |
|
83 |
servicios |
24.170 |
6,10 |
34 |
usados |
22.312 |
5,63 |
|
84 |
usados |
22.312 |
5,63 |
35 |
tel |
21.657 |
5,47 |
|
85 |
tel |
21.657 |
5,47 |
36 |
otros |
21.209 |
5,35 |
|
86 |
otros |
21.209 |
5,35 |
37 |
chile |
20.068 |
5,07 |
|
87 |
chile |
20.068 |
5,07 |
38 |
nuevo |
19.946 |
5,04 |
|
88 |
nuevo |
19.946 |
5,04 |
39 |
java |
19.780 |
4,99 |
|
89 |
java |
19.780 |
4,99 |
40 |
guia |
19.670 |
4,97 |
|
90 |
guia |
19.670 |
4,97 |
41 |
publicidad |
19.605 |
4,95 |
|
91 |
publicidad |
19.605 |
4,95 |
42 |
subastas |
18.872 |
4,76 |
|
92 |
subastas |
18.872 |
4,76 |
43 |
compras |
18.677 |
4,71 |
|
93 |
compras |
18.677 |
4,71 |
44 |
vendedores |
18.505 |
4,67 |
|
94 |
vendedores |
18.505 |
4,67 |
45 |
raquo |
18.103 |
4,57 |
|
95 |
raquo |
18.103 |
4,57 |
46 |
internet |
18.031 |
4,55 |
|
96 |
internet |
18.031 |
4,55 |
47 |
celulares |
17.900 |
4,52 |
|
97 |
celulares |
17.900 |
4,52 |
48 |
version |
17.831 |
4,50 |
|
98 |
version |
17.831 |
4,50 |
49 |
scaricare |
17.585 |
4,44 |
|
99 |
scaricare |
17.585 |
4,44 |
50 |
home |
17.311 |
4,37 |
|
100 |
home |
17.311 |
4,37 |
Anexo
2 – Lista de los primeros 100 términos más utilizados en los nombres de los
sitios (Sección 4.3)
Orden |
Términos |
Cant. Sitios |
|
Orden |
Términos |
Cant.
Sitios |
1 |
campings |
51,318 |
|
51 |
sucountry |
774 |
2 |
sbviajes |
21,922 |
|
52 |
de |
718 |
3 |
argentina |
7,384 |
|
53 |
virtual |
712 |
4 |
tango |
7,256 |
|
54 |
countries |
692 |
5 |
europa |
6,835 |
|
55 |
hotelesargentina |
687 |
6 |
brasil |
6,472 |
|
56 |
viajeaargentina |
630 |
7 |
aereos |
6,215 |
|
57 |
turismoporargentina |
626 |
8 |
paquetes |
6,194 |
|
58 |
viajarxargentina |
606 |
9 |
noticias |
6,174 |
|
59 |
para |
599 |
10 |
ofertas |
6,103 |
|
60 |
visitarargentina |
564 |
11 |
cruceros |
6,061 |
|
61 |
alojarseargentina |
543 |
12 |
turismojoven |
5,892 |
|
62 |
moviles |
527 |
13 |
americadelsur |
5,814 |
|
63 |
dvd |
493 |
14 |
primeraclase |
5,760 |
|
64 |
gratis |
471 |
15 |
spa |
5,689 |
|
65 |
nastys |
427 |
16 |
caribe |
5,621 |
|
66 |
onargentina |
418 |
17 |
links |
5,581 |
|
67 |
Terra |
396 |
18 |
americadelnorte |
5,384 |
|
68 |
maduras |
389 |
19 |
congresos |
5,102 |
|
69 |
ventas |
380 |
20 |
novias |
5,085 |
|
70 |
clubesdechacras |
370 |
21 |
destinosexoticos |
5,055 |
|
71 |
blog |
369 |
22 |
hoteles |
5,029 |
|
72 |
venta |
358 |
23 |
Iiternational |
4,963 |
|
73 |
en |
354 |
24 |
turismoaventura |
4,639 |
|
74 |
fotos |
343 |
25 |
semanasanta |
4,584 |
|
75 |
videohard |
305 |
26 |
contacto |
4,436 |
|
76 |
tienda |
301 |
27 |
destinos |
3,768 |
|
77 |
turistico |
295 |
28 |
agencia |
3,684 |
|
78 |
web |
270 |
29 |
sri |
2,999 |
|
79 |
jovencitas |
270 |
30 |
sexo |
2,122 |
|
80 |
e |
264 |
31 |
turismo |
1,964 |
|
81 |
webmail |
257 |
32 |
hotel |
1,746 |
|
82 |
compra |
241 |
33 |
tour |
1,559 |
|
83 |
kazaa |
239 |
34 |
hotelesturiscos |
1,542 |
|
84 |
consultar |
234 |
35 |
mucho |
1,438 |
|
85 |
reales |
230 |
36 |
sriturismo |
1,436 |
|
86 |
lesbianas |
225 |
37 |
hotelbsasarg |
1,346 |
|
87 |
guiaplus |
216 |
38 |
hotelturistico |
1,330 |
|
88 |
comprar |
216 |
39 |
holafoto |
1,266 |
|
89 |
rubias |
213 |
40 |
viajar |
1,205 |
|
90 |
arg |
212 |
41 |
hotelbuenosairesarg |
1,153 |
|
91 |
incesto |
204 |
42 |
hoteleinrgentina |
1,010 |
|
92 |
fondos |
202 |
43 |
viajes |
987 |
|
93 |
shop |
202 |
44 |
sritour |
953 |
|
94 |
global |
199 |
45 |
susanabarbaricca |
934 |
|
95 |
mouseloco |
190 |
46 |
arcountry |
862 |
|
96 |
videos |
189 |
47 |
sriviajes |
838 |
|
97 |
pais |
188 |
48 |
virtualcountries |
793 |
|
98 |
viejas |
187 |
49 |
sms |
788 |
|
99 |
tuning |
173 |
50 |
tripod |
781 |
|
100 |
auto |
172 |
Anexo
3 – Primeros 50 sitios con más reputación de acuerdo a PageRank (Sección
5.6)
Orden |
com.ar |
edu.ar |
1 |
ayuda.veventas.com.ar |
|
2 |
venta.ofertas-subastas.com.ar |
portal.eco.unc.edu.ar |
3 |
comprar.shopavenida.com.ar |
|
4 |
venta.shop24horas.com.ar |
|
5 |
ofertas.macrocompra.com.ar |
www2.uca.edu.ar |
6 |
ofertas.vendasonline.com.ar |
colegiosanignacio.edu.ar |
7 |
remates.ventas-nautica.com.ar |
|
8 |
ofertas.shop24horas.com.ar |
|
9 |
remates.ofertas-subastas.com.ar |
oni.escuelas.edu.ar |
10 |
remates.tech-shop.com.ar |
unq.edu.ar |
11 |
remates.shop24horas.com.ar |
|
12 |
grandes-ofertas.com.ar |
|
13 |
venta-compra-oferta.com.ar |
|
14 |
||
15 |
pub.ufasta.edu.ar |
|
16 |
||
17 |
sun.sedici.unlp.edu.ar |
|
18 |
hogar.venta-compra-oferta.com.ar |
gemini.fcaglp.unlp.edu.ar |
19 |
g.unsa.edu.ar |
|
20 |
||
21 |
||
22 |
venta.tecno-tienda.com.ar |
|
23 |
||
24 |
sedici.unlp.edu.ar |
|
25 |
unsl.edu.ar |
|
26 |
wdc.cricyt.edu.ar |
|
27 |
materias.frcu.utn.edu.ar |
|
28 |
revisiones.veventas.com.ar |
hal.famaf.unc.edu.ar |
29 |
||
30 |
cokecan.com.ar |
|
31 |
computadoras.venta-compra-oferta.com.ar |
|
32 |
ofertas.veventas.com.ar |
|
33 |
||
34 |
ofertas.ventas-nautica.com.ar |
vaneduc.edu.ar |
35 |
exa.unne.edu.ar |
|
36 |
auto-clasificados.com.ar |
tweety.itba.edu.ar |
37 |
swiki-lifia.info.unlp.edu.ar |
|
38 |
ecoportal.com.ar |
info.tyo.uap.edu.ar |
39 |
ofertas.tech-shop.com.ar |
perio.unlp.edu.ar |
40 |
||
41 |
venta.ventas-nautica.com.ar |
proxy.frbb.utn.edu.ar |
42 |
||
43 |
spegelboll.com.ar |
agr.unne.edu.ar |
44 |
ofertas.tecno-tienda.com.ar |
dc.exa.unrc.edu.ar |
45 |
venta.tech-shop.com.ar |
|
46 |
embnet.biol.unlp.edu.ar |
|
47 |
ofertas.solo-precios.com.ar |
|
48 |
celulares.venta-compra-oferta.com.ar |
|
49 |
ofertas.ofertas-subastas.com.ar |
|
50 |
Orden |
gov.ar |
org.ar |
1 |
buenosaires.gov.ar |
|
2 |
www2.medioambiente.gov.ar |
|
3 |
forum.roxette.org.ar |
|
4 |
educared.org.ar |
|
5 |
||
6 |
santafe.gov.ar |
tierradelfuego.org.ar |
7 |
||
8 |
mapa.buenosaires.gov.ar |
rcc.org.ar |
9 |
po.org.ar |
|
10 |
||
11 |
oma.org.ar |
|
12 |
banco.cndisc.gov.ar |
|
13 |
apl.org.ar |
|
14 |
gnu.usla.org.ar |
|
15 |
venus.ceride.gov.ar |
lugli.org.ar |
16 |
cv.iefpa.org.ar |
|
17 |
incose.org.ar |
|
18 |
formosa.gov.ar |
|
19 |
||
20 |
cmcaba.jusbaires.gov.ar |
fundacionkonex.org.ar |
21 |
||
22 |
||
23 |
cartacompromiso.sgp.gov.ar |
|
24 |
||
25 |
||
26 |
||
27 |
msal.gov.ar |
|
28 |
accioncatolica.org.ar |
|
29 |
||
30 |
preguntaslinux.usla.org.ar |
|
31 |
||
32 |
||
33 |
ujs.org.ar |
|
34 |
coran.org.ar |
|
35 |
comodoro.gov.ar |
|
36 |
ministerio.jusbaires.gov.ar |
hayek.org.ar |
37 |
||
38 |
||
39 |
||
40 |
tribunales.jusbaires.gov.ar |
tolkien.org.ar |
41 |
||
42 |
ba.gov.ar |
|
43 |
cdi.mecon.gov.ar |
|
44 |
||
45 |
||
46 |
||
47 |
||
48 |
||
49 |
||
50 |