query-51252a4625f892d6ba2907a9bbe088a0

rq turtle/ttl

Wikidata plutôt que CommonsBonjour, que Wikidata va planter si le wiki charge cette quantité de données. Dans un premier temps, il faut convaincre la communauté de Commons du bien-fondé du projet, même si les données météo de New York ont été acceptées, parce que le nombre de données est nettement plus vaste (si j'ai bien analysé le dossier) et porte sur beaucoup de stations météo. mentionne égalementJe crois que Commons est le plus approprié pour cette masse de données. En effet, Commons joue le rôle d'entrepôt de données, alors que Wikidata est, de façon sommaire, un catalogue. Le contributeur Pasleim ]reply[16:51, 22 October 2017 (UTC)) talk (Cantons-de-l'Est]reply[00:26, 23 October 2017 (UTC)) talk (Simon VilleneuvePerso, je ne suis pas sûr qu'obtenir l'aval préalable de la communauté Commons est nécessaire. Le fichier de New York fait environ 80 ko. Si on estime à 100 ko par station météo de EC et que cet organisme possède environ 9 000 stations, ça fait environ 900 Meg, ce qui n'est rien par rapport à l'espace occupé par les autres fichiers de cette banque de fichiers multimédias libre. -- ]reply[11:22, 6 November 2017 (UTC)) talk (VIGNERON: oui mais la consultation de la page on s'en fout un peu, non ? Je veux dire, l'important c'est que cela ne mouline pas sur Wikipédia. En plus cet élément contient 5113 déclarations, largement au-dessus des 600 que tu mentionnes. Pour tester, j'ai mis ci-dessous dessous un requête et un graph sur le nombre de personnes par initiale du prénom des auteurs de cet articles, l'affichage est virtuellement instantané. Cdlt, Simon Villeneuve@ ]reply[16:22, 1 November 2017 (UTC)) talk (Simon Villeneuve. Je sais pas pour vous, mais pour moi, mon ordi mouline fort seulement pour consulter cette page. (Q21558717)Combined Measurement of the Higgs Boson Mass in p p Collisions at √s=7 and 8 TeV with the ATLAS and CMS Experiments Attention. Je sais bien que le Query Service peut traiter des dizaines de milliers d'éléments. Ici, le problème ne concerne pas le nombre d'éléments à traiter, mais le nombre de déclarations pour UN élément. Vous pouvez avoir un exemple en visitant l'élément qui possède le plus de déclarations : ]reply[11:55, 1 November 2017 (UTC)) talk (VIGNERON et de tester ;) Cdlt, (Q42393053)Bagotville A Je n'ai pas d'avis tranché mais je sais que 600 valeurs, ce n'est rien du tout pour SPARQL (en tout cas pour le Query Service, j'ai déjà fait de requêtes sur des dizaines de milliers d'éléments, après cela dépend aussi des calculs et de la façon dont les données sont stockées). Le mieux c'est de se servir de l'exemple de ]reply[11:40, 28 October 2017 (UTC)) talk (Simon VilleneuveMon feeling est que pendant que nous ferons tout cela, les modèles exploitant les données de Commons auront évolués et permettront une utilisation étendue sur les autres wikis. --En fait, ce que j'essaie de faire comprendre, c'est que l'on sait que la piste Commons fonctionne pour l'acceptation des données et l'exploitation de ces dernières (pour le moment, y a un seul modèle, mais on nous dit que c'est possible d'en faire d'autres), alors que la piste Wikidata est encore à créer (les propriétés n'existent pas encore et on nous dit que le site n'arrive pas à exploiter une grande quantité de données liées à une seule propriété d'un élément). Dans cette optique, l'importation de l'ensemble des données sur Commons me semble prioritaire puisqu'elle ne demande qu'une conversion des fichiers en .tab (et je crois comprendre que ce ne serait pas difficile). Par la suite, on pourrait procéder à une importation progressive des données sur Wikidata pour vérifier si le site est vraiment incapable d'exploiter une grande quantité de données. Par exemple, supposons que nous demandons et obtenons la création de la nouvelle propriété « précipitations » et que nous importons les données mensuelles de Bagotville sur son élément dédié pour, disons, 50 ans. Ça fait 50 x 12 = 600 valeurs pour cette propriété. On pourra faire des requêtes SPARQL (ou dans un autre langage) par la suite pour voir si on arrive à utiliser ces 600 données à partir de Wikidata. Si oui, on vérifie à partir de quelle quantité de données ça chie (genre on ajoute les données quotidiennes de précipitations) et/ou on demande la création d'une autre propriété (genre « température moyenne ») pour faire d'autres tests. Une fois déterminées les limites du système, on regarde s'il y a moyen ou non de repousser ces dernières. ]reply[11:03, 28 October 2017 (UTC)) talk (Dirac , je n'ai pas de préférence pour SPARQL vs Lua. C'est plutôt une mauvaise maîtrise des conceptes de ma part. Je comprends de ta réponse qu'il est possible de faire des opérations mathématiques sur WikiCommons via Lua, et sur Wikidata via SPARQL. Si c'est le cas, je n'ai pas de préférence pour l'un ou l'autre et on pourra tester les deux solutions.Simon Villeneuve ]reply[13:00, 27 October 2017 (UTC)) talk (Simon VilleneuvePendant ce temps, rien n'empêche ceux qui se sentent capables avec les graph/Lua de développer des modèles graph/Lua pour exploiter autrement les données des fichiers .tab. 6- Répéter les étapes 3 à 5 pour d'autres propriétés.5- Voir le comportement réel de l'outil lorsque l'on effectue différentes requêtes SPARQL sur ces données,4- Importer les données de cette propriété sur les éléments des stations,3- Demander la création sur Wikidata d'une propriété météo que l'on juge la plus alléchante/facilement exploitable en SPARQL,2- Créer les stations météo sur Wikidata, lier celles-ci aux fichiers Commons,1- Convertir les données de EC en fichiers .tab et importer ces derniers sur Commons,Puisque tu sembles plus à l'aise avec le côté SPARQL que Lua, je pense donc qu'il faudrait, dans l'ordre, dit plutôt que toutes les données pourraient être placées sur Commons et qu'une partie d'entre-elles pourraient être importées sur Wikidata. Perso, j'adhère à cela. On sait que c'est possible de tout mettre et ré-exploiter sur Commons, alors qu'il y a des doutes pour Wikidata (il faut créer les propriétés manquantes, ce qui n'est pas nécessairement gagné d'avance, et il faut réussir à les ré-exploiter).VIGNERONJe crois que ]reply[13:23, 24 October 2017 (UTC)) talk (Dirac Je tiens à souligner que la puissance du calcul est impressionnante: il est rapide de faire la moyenne de toutes les températures. Il faudra faire des tests, mais dans un premier temps ça me semble suffisant pour que ce soit un ajout important par rapport à l'accès aux données brutes. Basé sur cette réponse, je propose d'y aller avec Wikidata. Se pose encore la question du format, que l'on pourrait adapter selon que les observations sont sur une base almanach/mensuelle/quotidienne/horaire. On pourrait faire un exemple pour chacun des types. ]reply[09:36, 24 October 2017 (UTC)) talk (VIGNERONCdlt, Après, rien n'interdit de faire les deux, au contraire c'est peut-être la meilleure solution (avec peut-être les données complètes sur Commons et juste les données essentielles/importantes sur Wikidata). Je dirais que cela dépend du type de données, de leur quantité (et plus précisément de leur répartition : combien d'affirmations par élément), etc.. Commons est effectivement peut-être plus adapté pour importer un tableau en un bloc mais pour le moment ce n'est pas encore parfait (impossible de faire une requête SPARL ou même un équivalent). Hummm, c'est un débat récurrent depuis quelques temps, Commons ou Wikidata... :Dirac, Simon Villeneuve, Cantons-de-l'Est@ ]reply[11:48, 25 October 2017 (UTC)) talk (Simon Villeneuve, qui semble bien impliqué dans le « projet New York », et il dit qu'une simple annonce sur le Village Pump devrait suffire. discuté avec YurikJ'en ai ]reply[09:16, 24 October 2017 (UTC)) talk (Dirac De plus, l'ordre de grandeur des données pour le Canada, selon ce qu'on décide d'y mettre, peut aller chercher autour de 10 Go, tout au plus. Bien que ça pourrait être gérable sans avertissement sur Commons, je pensais quand même les aviser, histoire qu'ils soient au courant lorsqu'on activera les robots pour injecter les données. ).#Données bidonsJ'ai une discussion à ce propos avec un responsable de Wikidata et il n'était pas réfractaire à l'idée de mettre les données sur Wikidata. Cela se jouera selon moi sur l'endroit qui donne accès au plus grand nombre de fonctionnalités pour identifier et télécharger les données (voir liste dans la secton

Use at

PREFIX wdt: <http://www.wikidata.org/prop/direct/>
PREFIX wd: <http://www.wikidata.org/entity/>
SELECT ?initial (count (?initial) as ?count ) WHERE {
  wd:Q21558717 wdt:P2093 ?value .
  bind (substr(?value, 1, 1) as ?initial)
}
GROUP BY ?initial
ORDER BY DESC(?count)

Query found at

graph TD classDef projected fill:lightgreen; classDef literal fill:orange; classDef iri fill:yellow; v4("?count") v3("?initial"):::projected v2("?value") c1(["wd:Q21558717"]):::iri c1 --"wdt:P2093"--> v2 bind0[/"substring(?value,'1^^xsd:integer','1^^xsd:integer')"/] v2 --o bind0 bind0 --as--o v3 bind2[/"count(?initial)"/] v3 --o bind2 bind2 --as--o v4