Sunteți pe pagina 1din 10

The NBER U.S.

Patent Citations Data


File: Lessons, Insights, and
Methodological Tools
These data comprise detail information on almost 3 million U.S. patents granted
between January 1963 and December 1999, all citations made to these patents between
1975 and 1999 (over 16 million), and a reasonably broad match of patents to Compustat
(the data set of all firms traded in the U.S. stock market).
These data are described in detail in
Hall, B. H., A. B. Jaffe, and M. Trajtenberg (2001). "The NBER Patent Citation Data
File: Lessons, Insights and Methodological Tools." NBER Working Paper 8498.
ALL USERS OF THESE DATA SHOULD READ THIS PAPER, AND SHOULD CITE
IT AS THE SOURCE OF THE DATA
Further documentation on uses of the patent citation data, including the methodology
paper and a CD containing the complete dataset itself, is available in the book Patents,
Citations and Innovations: A Window on the Knowledge Economy by Adam Jaffe and
Manuel Trajtenberg, MIT Press, Cambridge (2002). The book may be ordered from
MIT Press. ISBN 0-262-10095-9.
The CUSIP match is based on the 1989 universe of companies
UPDATES
The NBER is working on a major NSF-funded update and extension of this data. A new
release of these files, bringing existing data up to date through December 2004, is
anticipated for 2010 or 2011. A variety of additional fields and indexes will also be
provided. These are anticipated to include "link-out" tables connecting patent numbers
to geographic entities (e.g. SMSAs), and a codification of inventor names.
The PI for this project is Iain Cockburn. Please contact him if you have questions or
comments, or would like to contribute to this project.
Updates are available at https://sites.google.com/site/patentdataproject/Home.

The data are freely available below in two compressed (".zip") formats: SAS transport
(.tpt) files and ASCII comma-separated variable (.csv) files. The program read_tpt.sas
can be used to convert the .tpt files to native SAS data sets. Lines in the ASCII CSV
files are terminated by the newline character "\n". "CSV" stands for comma separated
values. All values in the ASCII CSV files are separated by commas. In addition, the
character values are enclosed by double quotes. The compression ratio for the
compressed files is about 75%. The ".zip" files can be uncompressed with winzip or
pkunzip. To check your ability to uncompress these files, download the small file
compress.zip. The SAS ".tpt" files are transferable to other formats using software such

as Stat/Transfer or DBMS/Copy, and can be used directly by Stata using the fdause
command.
To download files in Internet Explorer, right click on them and select "Save Target
As...".
Internal users can access the data at /home/data/patents
You will need a major database, statistical program, or programming language to use
these files. Most of the datasets are too large to load completely into MS Excel 2000,
which has a maximum of 65,536 observations, though Access can be used to read the
ASCII datafile. View variable descriptions and observations per file in the
"Documentation" column of the table below.
U.S. patent information can also be downloaded or purchased from the United States
Patent and Trademark Office, which also has a U.S. to IPC concordance.
To search patents, try Google -> more -> patents or http://www.freepatentsonline.com
For international patent databases check FIZ Karlsruhe, the British Library (Derwent is
one Patent Copy Service that delivers patents from the British Library.), the German
Patent and Trade Mark Office, Espacenet, Micropat, the French Intellectual Property
Institute, the IciMarques database, or the EP-CESPRI database, a database along the
lines of the NBER dataset, but for European Patent Office data.
Many of the sources above were obtained from InfoToday. Derwent has a searchable
patent glossary and a link to a text patent glossary made by The Minerals, Metals &
Materials Society. For principles and sources for patents searching see Free Pint articles
by Ron Kamenicki and Stephen Adams.
More recent data can be obtained from the U.S. Patent Office's ftp site.
Updates and changes.

Description

Documentation

Data -- Pkzipped
SAS .tpt

ASCII CSV

Overview

overview.txt

--

Pairwise citations data

Cite75_99.txt

Cite75_99.zip -- acite75_99.zip -(68 Mb)


(82 Mb)

Patent data, including


constructed variables

pat63_99.txt

pat63_99.zip -(90Mb)

apat63_99.zip -(56Mb)

Assignee names

coname.txt

coname.zip -(2Mb)

aconame.zip -(2Mb)

Contains the match to CUSIP match.txt


numbers

match.zip -(130Kb)

amatch.zip -(98Kb)

Individual inventor records

inventor.txt

inventor.zip -(98Mb)

ainventor.zip -(82Mb)

Class codes with


corresponding class names

classes.txt

--

Country codes with


countries.txt
corresponding country names
Class, technological category, class_match.txt
and technological subcategory
crosswalk
Technological category and
subcategory labels
SAS program to convert .tpt
files to native SAS format

subcategory.txt
--

-read_tpt.sas

subcategory.csv
--

U.S. Patent Classification (USPC) System and the Standard Industrial Code (SIC)
System

Oficina Nacional de Investigacin Econmica

PGINA PRINCIPAL
test3_fe

test3_fe

default_collection

Search

xml_no_dtd

UTF-8

UTF-8

Search the NBER

El archivo de datos de la patente de


EE.UU. NBER Citas: Lecciones,
ideas y herramientas metodolgicas
Estos datos comprenden informacin detallada en casi 3 millones de
patentes estadounidenses otorgadas entre enero de 1963 y diciembre de 1999,
todas las citas que se hacen sobre estas patentes, entre 1975 y 1999 (ms de
16 millones), y una razonable concordancia amplia de las patentes de
Compustat (el conjunto de datos de todos las empresas que cotizan en el
mercado de valores de Estados Unidos).
Estos datos se describen en detalle en
Hall, BH, AB Jaffe y Trajtenberg M. (2001). "El expediente de la patente
NBER Cita de datos: Lecciones, percepciones y herramientas
metodolgicas." NBER Working Paper 8498.
TODOS LOS USUARIOS de estos datos debe leer el presente documento y
deben citar COMO LA FUENTE DE LOS DATOS
Puede obtenerse informacin adicional sobre los usos de los datos de citas
de patentes, incluido el documento sobre la metodologa y un CD que
contiene el mismo conjunto de datos completo, est disponible en las
Patentes de libros, referencias e innovaciones: una ventana en la economa
del conocimiento por Adam Jaffe y Manuel Trajtenberg, MIT Press,
Cambridge (2002). El libro se puede pedir de MIT Press . ISBN 0-26210095-9.
El partido CUSIP se basa en el universo de empresas 1989
ACTUALIZACIONES

El NBER est trabajando en una actualizacin importante por la NSF y la


extensin de estos datos. Una nueva versin de estos archivos, con lo que
los datos existentes hasta la fecha a diciembre de 2004, se prev que para el
ao 2010 o 2011. Tambin se ofrecer una variedad de campos e ndices
adicionales. Estos se prevn para incluir tablas "link-out" que conectan los
nmeros de patente de entidades geogrficas (por ejemplo SMSAs), y una
codificacin de nombres de inventores.
El PI para este proyecto es Iain Cockburn. Por favor, pngase en contacto
con l si tiene alguna pregunta o comentario, o si le gustara contribuir a este
proyecto.
Las actualizaciones estn disponibles en
https://sites.google.com/site/patentdataproject/Home .

estn libremente disponibles a continuacin en dos ( ".zip") comprimido


formatos de datos: Los archivos de transporte SAS (.tpt) y ASCII variables
separados por comas (.csv). El programa read_tpt.sas se pueden utilizar para
convertir los archivos de .tpt a conjuntos de datos SAS nativas. Las lneas en
los archivos CSV ASCII se terminan por el carcter de nueva lnea "\ n".
"CSV" es sinnimo de valores separados por comas. Todos los valores en los
archivos CSV ASCII estn separados por comas. Adems, los valores de
caracteres se encierran entre comillas dobles. La relacin de compresin
para los archivos comprimidos es de aproximadamente 75%. Los archivos
".zip" se pueden descomprimir con winzip o pkunzip . Para comprobar su
capacidad para descomprimir estos archivos, descargue el archivo pequeo
compress.zip . Los archivos de SAS ".tpt" son transferibles a otros formatos
utilizando un programa como Stat / Transfer o DBMS / Copiar , y pueden ser
utilizados directamente por Stata utilizando el comando fdause.
Para descargar archivos en Internet Explorer, haga clic derecho sobre ellos y
seleccione "Guardar destino como ...".
Los usuarios internos pueden acceder a los datos en / home / datos / patentes
Usted necesitar una importante base de datos, programa estadstico, o
lenguaje de programacin para utilizar estos archivos. La mayora de los
conjuntos de datos son demasiado grandes para cargar completamente en MS
Excel 2000, que tiene un mximo de 65.536 observaciones, aunque de acceso
se puede utilizar para leer el archivo de datos ASCII . Ver descripcin de
variables y observaciones por archivo en la columna "Documentacin" de la
tabla de abajo.
Informacin sobre patentes de Estados Unidos tambin puede ser
descargado o adquirido de la Patente de Estados Unidos y la Oficina de
Marcas , que tambin tiene una concordancia de Estados Unidos con el IPC .
Para buscar patentes, probar Google -> ms -> patentes o
http://www.freepatentsonline.com

Para bases de datos internacionales de patentes comprobar FIZ Karlsruhe , la


Biblioteca Britnica ( Derwent es un servicio de copia de Patentes que
entrega las patentes de la Biblioteca Britnica.), La Alemana de Patentes y
Oficina de Marcas , Espacenet , Micropat , el Instituto Francs de la
Propiedad Intelectual , la IciMarques base de datos o el documento EPCESPRI base de datos, una base de datos a lo largo de las lneas del conjunto
de datos NBER, pero para los datos de la Oficina Europea de Patentes.
Muchas de las fuentes anteriores se obtuvieron de InfoToday . Derwent
tiene una bsqueda glosario de patentes y un enlace a un texto glosario de
patente presentada por los minerales, metales y materiales Sociedad. Para
principios y las fuentes de patentes que buscan ver artculos pinta gratis por
Ron Kamenicki y Stephen Adams .
Los datos ms recientes se pueden obtener a partir de la Oficina de Patentes
de Estados Unidos sitio ftp .
Las actualizaciones y cambios .

Descripcin

Documentacin

Datos - Pkzipped
.tpt SAS

CSV ASCII

Visin de conjunto

overview.txt

Datos de citas por


pares

Cite75_99.txt

Cite75_99.zip acite75_99.zip - (68 Mb)


(82 Mb)

Los datos de patentes, pat63_99.txt


incluidas las variables
construidas

pat63_99.zip - apat63_99.zip (90Mb)


(56MB)

nombres cesionario

coname.txt

coname.zip (2Mb)

aconame.zip (2Mb)

Contiene el partido a
los nmeros CUSIP

match.txt

match.zip (130Kb)

amatch.zip (98Kb)

Registros inventor
individual

inventor.txt

inventor.zip - ainventor.zip (98 MB)


(82 MB)

Cdigos de clase con


los nombres de clases
correspondientes

classes.txt

Los cdigos de pas


countries.txt
con nombres de pases
correspondientes
Clase, categora
tecnolgica, y paso de
peatones subcategora

class_match.txt

tecnolgica
Categora tecnolgica subcategory.txt
y etiquetas
subcategora
Programa SAS para
convertir archivos a
formato .tpt SAS
nativa

subcategory.csv

read_tpt.sas

La patente de Estados Unidos Clasificacin (USPC) el Sistema Estndar


Industrial Cdigo (SIC) y el Sistema

Patent citation network


Dataset information
U.S. patent dataset is maintained by the National Bureau of Economic Research. The data set
spans 37 years (January 1, 1963 to December 30, 1999), and includes all the utility patents
granted during that period, totaling 3,923,922 patents. The citation graph includes all citations
made by patents granted between 1975 and 1999, totaling 16,522,438 citations. For the patents
dataset there are 1,803,511 nodes for which we have no information about their citations (we
only have the in-links).
The data was originally released by NBER.

Dataset statistics
Nodes

3774768

Edges

16518948

Nodes in largest WCC

3764117 (0.997)

Edges in largest WCC

16511741 (1.000)

Nodes in largest SCC

1 (0.000)

Edges in largest SCC

0 (0.000)

Average clustering coefficient

0.0757

Number of triangles

7515023

Fraction of closed triangles

0.02343

Diameter (longest shortest path)

22

90-percentile effective diameter

9.4

Source (citation)

J. Leskovec, J. Kleinberg and C. Faloutsos. Graphs over Time: Densification Laws,


Shrinking Diameters and Possible Explanations. ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining (KDD), 2005.

Files
File

Description

cit-Patents.txt.gz

US Patent citation network 1975-1999

NBER Patents

Complete US Patent data (includes time, classification, and patent


invernetor data)

la red de citas de patentes


Dataset information la informacin del conjunto
US patent dataset is maintained by the . Conjunto de datos de patentes de Estados Unidos es
mantenida por la Oficina Nacional de Investigacin Econmica . The data set spans 37 years
(January 1, 1963 to December 30, 1999), and includes all the utility patents granted during that
period, totaling 3,923,922 patents. El conjunto de datos se extiende por 37 aos (1 de enero de
1963 y el 30 de diciembre de 1999), e incluye todas las patentes de utilidad concedidos durante
dicho periodo, por un total de 3,923,922 patentes. The citation graph includes all citations made

by patents granted between 1975 and 1999, totaling 16,522,438 citations. El grfico de la cita
incluye todas las citas hechas por las patentes concedidas entre 1975 y 1999, por un total de
16,522,438 citas. For the patents dataset there are 1,803,511 nodes for which we have no
information about their citations (we only have the in-links). Para las patentes 1,803,511
conjunto de datos que hay nodos para los cuales no tenemos informacin acerca de sus citas
(slo tenemos las de los enlaces).
The data was originally released by . Los datos fueron publicados originalmente por el NBER .

Dataset statistics estadsticas del conjunto de datos


Nodes Los nodos

3774768 3774768

Edges bordes

16518948 16518948

Nodes in largest WCC Los nodos de mayor CMI

3764117 (0.997) 3764117


(0.997)

Edges in largest WCC Los bordes en mayor CMI

16511741 (1.000) 16511741


(1.000)

Nodes in largest SCC Los nodos de mayor SCC

1 (0.000) 1 (0.000)

Edges in largest SCC Los bordes ms grande en SCC

0 (0.000) 0 (0.000)

Average clustering coefficient Coeficiente medio de la


agrupacin

0.0757 0.0757

Number of triangles Nmero de tringulos

7515023 7515023

Fraction of closed triangles Fraccin de tringulos cerrados

0.02343 0.02343

Diameter (longest shortest path) Dimetro (ruta ms corta


ms larga)

22 22

90-percentile effective diameter 90-percentil dimetro


efectivo

9.4 9.4

Source (citation) Fuente (cita)

J. Leskovec, J. Kleinberg and C. Faloutsos. . J. Leskovec, J. y C. Kleinberg Faloutsos.


Los grficos en el tiempo: La ley de densificacin, la reduccin de los dimetros y las
posibles explicaciones . ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining (KDD), 2005. Conferencia Internacional ACM SIGKDD de
Descubrimiento de Conocimiento y Minera de Datos (KDD), 2005.

Files archivos
File Archivo

Description Descripcin

cit-Patents.txt.gz

US Patent citation network 1975-1999 la red de citas de patentes de


Estados Unidos 1975-1999

Las patentes
NBER

Complete US Patent data (includes time, classification, and patent


invernetor data) Los datos completos de patentes americanas (incluye
datos de tiempo, clasificacin y invernetor patente)

S-ar putea să vă placă și