Propriedade Intelectual pelas lentes do Culturomics

O colunista relata os resultados de seu experimento no Ngram Viewer com termos da área de Propriedade Intelectual.

1/9/2014

Ygor Valerio e Gabriela Muniz Pinto Valerio

Como fruto do encontro entre uma pesquisa de doutorado em Harvard e a notória porosidade à inovação típica da Google Inc. surgiu, em 2011, uma área nova das ciências denominada Culturomics¹, dedicada a estudar o comportamento humano e as tendências culturais de um modo quantitativo. A pretensão de realizar algo do gênero já existia² havia muito tempo, mas faltavam dados fidedignos que permitissem que esse tipo de análise fosse levado a cabo. Afinal de contas, como reduzir algo tão complexo como a cultura humana a uma análise numérica? E, havendo essa possibilidade, onde estaria localizado esse registro cultural que pudesse ser submetido a tal investigação?

Uma parte da resposta seria encontrada naquele que é o maior repositório digital concentrado de registros da cultura humana, a base de dados do Google Books³ que, em abril de 2013, contava já com mais de 30 milhões de livros digitalizados⁴ - algo próximo de 23% de todos os livros já publicados pela humanidade⁵. Se não se pode dizer que nossa cultura se reduz a nossos livros, já que o mero filtro editorial imprime ao corpus de obras publicadas uma certa visão do que merece ou não ser divulgado, é indiscutível que os livros são fidedignos guardiães de algumas idéias predominantes de uma determinada época.

É certo que tanto quanto hoje se publicam inúmeros livros dedicados, exemplificativamente, ao estudo do fenômeno da internet, da sustentabilidade ambiental, das crises econômica atuais, notaremos também um aumento do número de livros sobre direitos do consumidor a partir de 1962, ano em que o presidente americano John F. Kennedy proferiu discurso sobre o tema ao congresso estadounidense⁶, ou sobre a União Européia logo após o Tratado de Roma, de 1957, e após o Tratado de Maastricht, de 1992. A presença de temas em livros, portanto, nos conta uma história própria, muitas vezes vinculada àquilo que é importante para a sociedade no momento de sua publicação.

Michel e Aiden, estudantes de doutorado em Harvard, apostaram nessa percepção da história da cultura humana e desenvolveram pesquisa e ferramenta voltadas à utilização dessa imensa base de dados dos registros da produção impressa da humanidade, o Google Books, para construir aquilo a que chamaram de Ngram Viewer, um software poderoso que mede a frequência de termos escritos em toda essa base se dados.

Com qual frequência (quantas vezes a cada 1000 mil palavras) o termo “Direitos Autorais” aparece em todos os livros da base do Google Books desde 1700? Essa frequência muda ao longo do tempo? Se muda, há eventos que contribuem para esse aumento ou diminuição? Mais: como se compara a frequência entre dois, três, dez termos nas publicações dos últimos 200 anos? Depois da construção do Ngram viewer, podemos, todos, tirar as nossas próprias conclusões.

Utilizamos o Ngram viewer para, despretensiosamente, buscar termos de nossa área de modo a extrair dos resultados algumas conclusões interessantes, ou tentar comprovar idéias estabelecidas, como a supremacia do TRIPS em importância sobre as convenções de PI do passado. Vejamos os resultados⁷.

Convenção de Berna, Convenção de Paris e o Acordo TRIPS

A partir do início da Rodada Uruguai do GATT, em 1986, que culminou com a criação da OMC, discutiu-se a adoção de termos mínimos de proteção da propriedade intelectual por todos os países participantes dessa nova organização internacional. Esses termos mínimos foram agrupados no anexo 1C à convenção da OMC, denominado TRIPS (Trade-Related Aspects of Intellectual Property Rights), ou ADPIC, que incorpora a maioria das normas internacionais substantivas sobre propriedade intelectual preexistentes – a Convenção de Berna sobre direitos autorais, e a Convenção de Paris, sobre propriedade industrial.

A incorporação dessas normas ao TRIPS tornou-o o novo referencial de normas internacionais relacionadas à propriedade intelectual. Vejamos como isso se reflete em uma pesquisa que fizemos na base de livros do Google Books usando o Ngram viewer:

A linha azul representa a frequência da soma de todas as aparições dos termos "Convenção de Berna" e "Convenção de Paris" desde 1850 na base do Google Books, enquanto a linha vermelha representa a frequência da soma dos termos "TRIPS" e "ADPIC"⁸.

Fica claro como os termos TRIPS e ADPIC começam a surgir depois de 1986, ao mesmo tempo em que a nossas velhas e saudosas Convenções de Berna e Paris iniciam uma queda acentuada em frequência, rumo a um possível e aparentemente anunciado sumiço das páginas dos livros que publicamos atualmente. Pelas lentes dessa ferramente quantitativa de Big Data, vemos claramente como o TRIPS as supera em importância nas nossas publicações.

Outras conclusões bastante interessantes podem ser tiradas dos aumentos bruscos na linha azul: os picos de frequência podem, todos, ser associados a revisões das convenções de Berna e Paris, e as duas guerras mundiais se fazem sentir com bastante clareza nos vales de frequência que a linha azul mostra até a metade da década de 1940.

A doutrina do Fair Use

Nos Estados Unidos, a doutrina do Fair Use deixou o common law e se tornou regra codificada a partir do Copyright Act de 1976. Sabemos que aquele país se baseia no sistema de common law até hoje, e que o precedente judicial tem enorme importância no estabelecimento de regras e interpretações da lei escrita, mas veja-se o efeito que a positivação teve sobre a importância do tema para a cultura jurídica daquele país.

Proteção jurídica do software

A questão da proteção jurídica do software não poderia existir antes que o próprio software como tal fosse um produto comercializável e presente no cenário tecnológico. O modelo inicial de distribuição de software era, evidentemente, o modelo de distribuição embarcada, em que se comprava a máquina, e se levava um conjunto de hardware e software.

O surgimento de um modelo unbundled, que permitiu ao software um mercado autônomo, independente do hardware, começou a dar sinais de existência na década de 1960 e, a julgar pelos resultados dessa nossa pesquisa, a primeira idéia era que se protegesse o software via patentes (linha azul, software patent).

Em 1972, o caso Gottschalk v. Benson⁹ arrefece as expectativas de um sistema patentário de proteção ao software nos EUA, e logo depois, em 1978, a Suprema Corte dos EUA decide Parker v. Flook¹⁰ em desfavor dos inventores. A hipótese que os dados do Ngram viewer nos oferece é que, a partir desses casos, a alternativa de proteção do software via copyright ganhou força e se apresenta claramente como idéia predominante nas publicações sobre o tema naquele país.

Nota-se, entretanto, uma tendência de aumento às menções a software patent (linha azul) depois de 1981, data do julgamento do caso Diamond v. Diehr¹¹ (julgado em favor dos inventores) e uma escalada íngrime a partir de 1994. Qual seria a razão? A história nos dá duas respostas: Bruce Lehman, chefe do USPTO convoca audiências públicas para debater o tema das patentes de software¹² justamente em 1994, e neste mesmo ano o Federal Circuit profere importante decisão em favor do patenteamento no caso In re Alappat¹³.

Uma potencial area de pesquisa para o Direito

Não há um Ngram viewer para livros em português. A base, disponível para consulta (clique aqui), apresenta um arquivo de pesquisas de livros em inglês americano, inglês britânico, francês, alemão, hebreu, italiano, russo e espanhol, mas a "última flor do lácio" permanece fora das atuais possibilidades, talvez por questões regulatórias, talvez por não haver uma base relevante de obras digitalizadas em português para permitir uma análise relevante.

Qualquer interessado no fenômeno jurídico seria incapaz de resistir à possibilidade de medir a penetração de ideias, temas, teses jurídicas em todo o corpus de conhecimento jurídico publicado em uma determinada época. Essa medição poderia resultar em inferências importantes, permitindo análises que nunca pudemos fazer sem acesso a esse mundo de dados que a digitalização de livros nos permite. Esperamos, ansiosamente, por essa possibilidade.

__________

¹MICHEL, Jean-Baptiste; AIDEN, Erez Liberman. Quantitative Analysis of Culture Using Millions of Digitized Books. Science, 331 (6014).

²O artigo de MICHEL e AIDEN (nota 1) cita G.K. Zipf, The Psycho-biology of Language, de 1935, como um primeiro tiro nessa direção, sem que muito avanço fosse obtido pela ausência de dados relevantes à época.

³Google books.

⁴Há uma mistura entre livros já disponibilizados originalmente em formato digital ao Google, e outros digitalizados pela própria companhia, a partir de livros físicos de bibliotecas de universidades.

⁵A estimativa da própria empresa é baseada em uma pesquisa de mais de 150 bancos de dados de registros de livros, como o ISBN. Veja mais neste link.

⁶Deixo, neste ponto, um agradecimento ao Dr. Rodrigo Leme Freitas, com quem tanto tenho trocado idéias sobre projetos e temas jurídicos, e de quem tomei uma lição sobre história do direito consumerista.

⁷Todos os gráficos deste artigo foram extraídos de pesquisas realizadas no Ngram Viewer da Google Inc., disponível para consulta. Em seu livo Uncharted, Big Data as a Lens on Human Culture, Michel e Aiden solicitam que a utilização de gráficos do Ngram Viewer em publicações mencionem a seguinte referência bibliográfica: "Jean-Baptiste Michel, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak and Eres Lieberman Aiden". "Quantitative Analysis of Culture Using Millions of Digitized Books", Science 331, no. 6014 (January 14, 2011; published online ahead of print December 16, 2010): 176-82.

⁸Fizemos a pesquisa na base dos livros em francês, para evitar uma contaminação do resultado pela palavra trips que, em inglês, é tambem a conjugação da terceira pessoa do singular do verbo "to trip" (tropeçar).

⁹Sobre o caso Gottschal v. Benson, ver nosso artigo.

¹⁰Sobre o caso Parker v. Flook, ver nosso artigo.

¹¹Sobre o caso Diamond v. Diehr, ver nosso artigo.

¹²Para um excelente relato evolutivo, ver Will the Supreme Court Save us from software patents?

¹³In re Alappat.

Colunista