O Google, quando ainda protótipo

Artigo em que os fundadores do Google apresentaram seu protótipo, em 1998. Explicam quais eram os problemas dos mecanismos de busca da época, e como se propunham a resolvê-lo, principalmente com o algoritmo PageRank. Também, considerações sobre o modelo de negócios baseado em propagandas, e que complicações podem surgir do funcionamento de um web crawler.

The Anatomy of a Large-Scale Hypertextual Web Search Engine – Sergey Brin e Lawrence Page
Universidade de Stanford – 1998

Neste artigo, nós apresentamos o Google, um protótipo de um mecanismo de busca de larga-escala que faz uso pesado da estrutura presente no hypertexto. O Google foi projetado para fazer crawling e indexar a Web eficientemente, e produzir resultados de busca muito mais satisfatórios do quê os sistemas existentes. O protótipo, com um texto completo e banco de dados de hyperlinks com pelo menos 24 milhões de páginas, está disponível em http://google.stanford.edu/ .

 

— trecho do Resumo.

Já deu pra sentir a relevância do artigo? Simplesmente é o artigo acadêmico onde os fundadores do Google apresentam este projeto da universidade deles como atividade do curso que faziam. Abaixo, resumo o que é apresentado no texto. Não me preocupei em resumir a Seção 4 “Anatomia do Google”, pois são detalhes de funcionamento interno que não são exatamente relevantes para o usuário normal.

Dados: o banco de dados de 24 milhões de páginas requeria apenas 147GB de espaço em disco, ou 53,5GB quando comprimido – o que já era barato na época. Foi gerado em aproximadamente 9 dias (incluindo todo o tipo de erro que atrasou o processo). O total de links em 24 milhões de páginas era 322 milhões.


Problemas na época:

  • as pessoas usam listas de sites (como o Yahoo!) cuja manutenção é humana, e por isso são subjetivas, caras de construir e manter, lentas de melhorar, e não podem cobrir todos os tópicos “exotéricos”;
  • mecanismos de busca automatizados que baseiam-se em palavras-chave normalmente retornam muitos resultados de baixíssima qualidade, e anunciantes tomam medidas para enganar esses mecanismos e ganhar a atenção das pessoas.

Por exemplo, nós vimos um grande mecanismo de busca retornar uma página contendo apenas “Bill Clinton é ruim” e uma foto, a partir de uma busca por “Bill Clinton”. Alguns argumentam que, na web, os usuários deveriam especificar com maior precisão o que eles querem, e adicionar mais palavras a suas buscas. Nós discordamos veementemente desta posição. Se um usuário realizar uma busca tal como “Bill Clinton”, ele deveria receber resultados razoáveis, dada a existência de enorme quantia de informação de alta qualidade disponível sobre este assuntos. Considerando exemplos como esse, nós acreditamos que o trabalho padrão de recuperação de informação precisa ser extendido para lidar efetivamente com a web.

 

—Seção 3.1: Recuperação de Informação.

Soluções do Google:

  • PageRank: dá uma pontuação de qualidade para cada página web baseado na estrutura de links;
  • links são utilizados para melhorar resultados de busca.

PageRank

O gráfico de citações (links) da web foi considerado importante por Sergey Brin e Lawrence Page, e era algo largamente não-utilizado. Tais mapas de links entre as páginas permitem o cálculo do PageRank, uma medida objetiva da importância de citação, que corresponde bem, disseram eles, com a ideia subjetiva de importância que as pessoas têm. Isso permitia ao PageRank priorizar bem as buscas por palavras-chave, comparado ao que havia na época: em assuntos mais populares, uma simples busca por coincidência de texto nos títulos das páginas gera bons resultados. E também ajuda muito em buscas por texto completo das páginas, tal como no Google.

O PageRank pega o conceito de citação acadêmica (aonde um artigo menciona o outro como referência), e expande para a web. Porém, de forma diferente, as citações não têm todas o mesmo valor: é feita uma relação entre o número de citações feitas para a página, e o número de citações que a página fez, e isso determina o valor de cada citação.

Por exemplo, compare a informação de uso de uma grande página inicial, como a do Yahoo, que atualmente recebe milhões de visualizações a cada dia, com um artigo histórico obscuro que pode receber uma visualização a cada 10 anos. Claramente, estes dois itens devem ser tratados bem diferentemente por um mecanismo de busca.

 

—Seção 3.2: Diferenças Entre a Web e Coleções Bem-Controladas.

A fórmula usada pelo PageRank foi apresentada assim:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

A ideia é que o PageRank seja um modelo de comportamento de usuário: o PageRank (PR) é a probabilidade de um surfista web aleatório visite uma página, e o fator “dampening” seria a probabilidade deste surfista aleatório, em cada página, se entediar e requisitar outra página aleatória. Uma variação seria adicionar esse fator “d” a uma única página, ou um grupo de páginas, permitindo personalização e tornando “praticamente impossível” que alguém deliberadamente engane o sistema para ganhar um ranking mais alto.

Dado: calcular o PageRank de 26 milhões de páginas podia ser feito em poucas horas com uma workstation de tamanho médio.

Links

Links dão descrições melhores da página para a qual levam, do quê as próprias páginas dariam de si mesmas. Também, links permitem indexar conteúdos que normalmente não poderiam sê-lo por mecanismos de busca textuais, como imagens, programas, e bancos de dados.

Copiando a Web

Rodar um web crawler é uma tarefa desafiadora. Há problemas capciosos de desempenho e confiabilidade, e mais importantemente, há problemas sociais. Crawling é a aplicação mais frágil, dado que envolve interagir com centenas de milhares de servidores web, e vários servidores de nomes de domínio, estando todos além do controle do sistema.

 

[…]

 

Ocorre que rodar um crawler que conecta-se a mais de meio milhão de servidores, e gera dezenas de milhares de entradas de log, gera uma boa quantia de e-mails e chamadas telefônicas. Por conta do vasto número de pessoas vindo à linha, há sempre aquelas que não sabem o que um crawler é, pois este é o primeiro que viram. Quase que diariamente, nós recebemos um e-mail como “Uau, você olhou um bocado de páginas no meu website. Que achou dele?”. Há também algumas pessoas que não conhecem o protocolo de exclusão de robôs, e pensam que suas páginas devem estar protegidas de serem indexadas por conta de uma declaração como “Esta página é protegida por copyright e não deve ser indexada”, o que, não é nem necessário dizer, é difícil para web crawlers entenderem. […] Uma vez que sistemas grandes e complexos como crawlers irão invariavelmente causar problemas, é preciso haver significantes recursos dedicados a ler os e-mails e solucionar estes problemas conforme apareçam.

 

— Seção 4.3: Rodando um Web Crawler.

Propaganda e conflitos de interesse

Atualmente, o modelo de negócios predominante para mecanismos de busca comerciais é a propaganda. Os objetivos do modelo de negócios de propaganda não sempre corresponde a prover busca de qualidade para os usuários. Por exemplo, em nosso mecanismo de busca prototípico, um dos principais resultados para uma busca por “telefone celular” é “O Efeito do Uso de Telefone Celular Sobre a Atenção dos Motoristas”, um estudo que explica em grande detalhe as distrações e riscos associados com conversar num celular enquanto dirige. Este resultado de busca veio em primeiro, devido à sua alta importância conforme julgada pelo algoritmo PageRank, uma aproximação da importância de citação na web. É claro que um mecanismo de busca que estivesse recebendo dinheiro para exibir propagandas de telefones celulares teria dificuldade em justificar a página que nosso sistema retornou, para os seus anunciadores pagantes. Por este tipo de razão, e experiência história com outra mídia, nós expectamos que mecanismos de busca financiados por propagandas serão inerentemente enviesados rumo aos anunciantes, e distante das necessidades dos consumidores.

 

 

Dado que é bem difícil, mesmo para especialistas, avaliar mecanismos de busca, o viés de mecanismos de busca é particulamente insidioso. Um bom exemplo foi o OpenText, que reportadamente vendia a companhias o ireito de ser listada no topo de resultados de busca para pesquisas específicas. Este tipo de viés é muito mais insidioso do quê a propaganda, pois não é claro quem “merece” estar ali, e quem está disposto a pagar dinheiro para ser listado. Este modelo de negócios resultou em uma revolta, e o OpenText deixou de ser um mecanismo de busca viável. Mas, vieses menos gritantes têm a probabilidade de serem tolerados pelo mercado. Por exemplo, um mecanismo de busca poderia adicionar um pequeno fator para resultados de busca de companhias “amigáveis”, e subtrair um fator de resultados dos competidores. Este tipo de viés é bem difícil de detectar, mas poderia ainda assim ter um efeito significativo no mercado. Além disto, faturamentos de propaganda com frequência provêem um incentivo para prover resultados de busca de má qualidade. Por exemplo, nós notamos que um grande mecanismo de busca não retornava a página inicial de uma companhia aérea quando o nome desta companhia era inserido numa busca. Aconteceu então que a companhia aérea colocou uma propaganda cara, linkada à busca que consistia de seu nome. Um mecanismo de busca melhor não iria requerer esta propaganda, e possivelmente resultaria em perda de rendimentos da companhia aérea para o mecanismo de busca. No geral, poderia ser argumentado que, do ponto de vista do consumidor, quão melhor for o mecanismo de busca, tanto menos propagandas serão necessárias para o consumidor encontrar o que ele deseja. Isto, é claro, erode o modelo de negócio suportado por propagandas dos mecanismos de busca existentes. Entretanto, sempre haverá dinheiro dos anunciantes que querem que um cliente mude de produtos, ou tenha algo que é genuinamente novo. Mas nós acreditamos que o problema da propaganda causa conflito de interesses o bastante para que seja crucial ter um mecanismo de busca competitivo que seja transparente e no âmbito acadêmico.

 

— Apêndice A.


Warning: simplexml_load_file(): https:// wrapper is disabled in the server configuration by allow_url_fopen=0 in /var/sites/milharal/wordpress/wp-content/plugins/wp-gnusocial/includes/gsfluo/gsfluo.php on line 52

Warning: simplexml_load_file(https://quitter.es/api/statusnet/conversation/6668986.atom): failed to open stream: no suitable wrapper could be found in /var/sites/milharal/wordpress/wp-content/plugins/wp-gnusocial/includes/gsfluo/gsfluo.php on line 52

Warning: simplexml_load_file(): I/O warning : failed to load external entity "https://quitter.es/api/statusnet/conversation/6668986.atom" in /var/sites/milharal/wordpress/wp-content/plugins/wp-gnusocial/includes/gsfluo/gsfluo.php on line 52

Warning: Invalid argument supplied for foreach() in /var/sites/milharal/wordpress/wp-content/plugins/wp-gnusocial/includes/gsfluo/gsfluo.php on line 59

Deixe uma resposta

*

Klaku ĉi tie por sendi komenton per quitter.es

Se vi havas uzanton ĉe Array vi povos rekte komenti. Se vi havas uzanton ĉe alia nodo de GNU social, vi devas sekvi la uzanton andersbateva por ke la konversacio aperu en via nodo kaj vi povu aldoni komentojn al ĝi.