ויקינתונים: הורדת מסד הנתונים

Wikidata מציעה עותקים של התוכן הזמין להורדה לכל אחד.


השלכת מסדי נתונים

There are several different kinds of data dumps available. Note that while JSON and RDF dumps are considered stable interfaces, XML dumps are not. Changes to the data formats used by stable interfaces are subject to the Stable Interface Policy.

השלכות JSON (מומלץ)

JSON dumps containing all Wikidata entities in a single JSON array can be found under https://dumps.wikimedia.org/wikidatawiki/entities/. The entities in the array are not necessarily in any particular order, e.g., Q2 doesn't necessarily follow Q1. The dumps are being created on a weekly basis.

This is the recommended dump format. Please refer to the JSON structure documentation for information about how Wikidata entities are represented.

רמז: כל אובייקט ישות (פריט נתונים או מאפיין) ממוקם בשורה נפרדת בקובץ JSON, כך שאפשר לקרוא את הקובץ שורה אחר שורה, ולפענח כל שורה בנפרד כאובייקט JSON בודד.

שים לב שהקבצים משתמשים בדחיסה מקבילה, מה שאומר שכמה מדחסים לא יכולים לפרוק את הקבצים באופן מהימן. אם אתה משתמש ב- Windows תוכל להשתמש למשל. Bzip2.

You can currently download a fairly recent dump using a torrent. wikidata-20240101-all.json.gz (130.53 GiB) on academictorrents.com (  magnet)

  • JsonDumpReader is a PHP library for reading the dumps.
  • gitlab.com/tozd/go/mediawiki is a Go library for processing Wikipedia and Wikidata dumps.
  • WDSub is a Scala library that processes JSON Wikibase dumps and can generate subsets using entity schemas as inputs
  • simple-wikidata-db is a JSON dump parser written in Python
  • qwikidata supports JSON dumps and is written in Python

מזבלות RDF

First, canonical RDF dumps using the Turtle and NTriples formats can be found under https://dumps.wikimedia.org/wikidatawiki/entities/. The mapping is described here. These full statements are noted as all.

Secondly, so called truthy dumps are provided. They use the nt format. They are in the same format as the full dumps, but limited to direct, truthy statements. Therefore, they do not contain meta data such as qualifiers and references.

השלוחים השלמים מכילים יחד את כל פרטי הישויות בוויקינתונים, למעט סדר (של כינויים, הצהרות וכו '), שאינו מיוצג באופן טבעי ב- RDF. Dumpים מפושטים מקודדים הצהרות שאין להן מסמכים כשלשות RDF בודדות (הפניות הושמטו).

The dumps of Wikidata Lexeme namespace in Turtle and NTriples formats can be found in the same place with lexemes suffix.

For details on the RDF dump format please see the page RDF Dump Format.

Partial RDF dumps

WDumper is a third-party tool to create custom Wikidata RDF dumps. Entities and statements may be filtered.

XML dumps

אפשר למצוא גיבויים להורדה כאן.

Warning: The format of the JSON data embedded in the XML dumps is subject to change without notice, and may be inconsistent between revisions. It should be treated as opaque binary data. It is strongly recommended to use the JSON or RDF dumps instead, which use canonical representations of the data!

גם גיבויים תוספתיים (incremental dumps או "גיבויי תוספות ושינויי", add/change dumps) של ויקינתונים זמינים להורדה. הגיבויים האלה מכילים דברים שנוספו ב־24 השעות האחרונות, ומפחיתים את הצורך להוריד גיבוי מלא של מסד הנתונים. הגיבויים האלה קטנים בהרבה מאלה של הגיבויים המלאים.

הגיבויים האלה זמינים כאן.

Old JSON and RDF dumps

Data model

The data model can be looked up here. The data model describes the fundamental building blocks of Wikidata's data.

Database schema

An overview over the schema of the database can be found at this page. (This is not the schema of the data in Wikidata.)


בקרוב אפשר יהיה להוריד עותקים של כל התוכן הזמין. אפשר להשתמש במסדי הנתונים האלה לצרכים אישיים ומסחריים, לגיבויים וגם בלי חיבור לרשת. כל הנתונים המבניים מהמרחב הראשי וממרחב המאפיינים זמינים לפי תנאי רישיון [$url1 הקדשה לנחלת הכלל של קריאייטיב קומונז (CC0 גרסה 1.0)]. טקסט במרחבי שמות אחרים זמין לפי תנאי [$url2 ייחוס-שיתוף זהה 3.0 לא מותאם של קראייטיב קומונז (CC BY-SA גרסה 3.0)]; ייתכן שיחולו תנאים נוספים. פרטי מדיה ותוכן אחר זמינים ברישיונות אחרים, כפי שמפורט בדפי התיאור שלהם.

