query-a0a04c4f0d29e1b15b88868646aff21c
Parenthèses 19:53, 2 April 2016 (UTC)) talk (Thierry Caro, les dates, etc. (homme politique)Bonjour. Comment repérer et corriger rapidement les libellés en français qui comportent des parenthèses de redirection provenant de Wikipédia ? Il est peut-être temps de leur faire un sort et je me porte volontaire pour les traiter s'il faut le faire manuellement. Autrement, un bot peut sans doute se débrouiller seul pour enlever les choses les plus courantes, par exemple PPPS: sans le REGEX (qui ne marche pas sur WQS ?), voici une requête qui fonctionne (limité aux 100 premiers résultats sinon la requête n'aboutit pas et qui contient de nombreux faux-positifs à ne pas corriger contrairement à ma liste ci-dessus qui sont presque tous à corriger) : .Q21155030, Q21733127, Q21091439, Q20963419, Q20871744, Q20247671, Q20019197, Q19958728, Q19630999, Q19630848, Q19630782, Q19630572, Q19629873, Q19629756, Q19629542, Q19629528, Q19629505, Q19629498, Q19629398, Q19343712, Q19628622, Q19611070, Q17630967, Q17393966, Q17385787, Q16269501, Q16269437, Q19588521, Q18128102, Q17817294, Q16931030, Q17398296, Q16267725, Q16267559, Q16267029, Q16266804, Q16266799, Q16266671, Q16266621, Q16266583, Q16266540, Q16265389, Q16262880, Q16262790, Q16259823, Q16259797, Q16252445, Q17256326, Q16238767, Q16234350, Q16231343, Q16224245, Q16222795, Q16222669, Q16185899, Q16185728, Q16185711, Q16167790, Q16167519, Q16545331, Q16219230, Q16218153, Q16216462, Q16214290, Q16156882, Q16150917, Q16025555, Q16194953, Q16186089, Q16186030, Q16269637, Q15973937, Q15973843, Q15970715, Q15970707, Q15970696, Q15970692, Q15970683, Q15970666, Q15973795, Q15973758, Q15973710, Q15973683, Q15970659, Q15970632, Q15970601, Q15970430, Q15973649, Q15973524, Q15973310, Q15974267, Q15970398, Q15970337, Q15973473, Q15973438, Q15967110, Q15967104, Q15967097, Q15967071, Q15970213, Q15970191, Q15970180, Q15970030, Q15974004, Q15967037, Q15966940, Q15944885, Q15972542, Q15972022, Q15969951, Q15969927, Q15969881, Q15969748, Q15969714, Q15971995, Q15971839, Q15971827, Q15971761, Q15971756, Q15971752, Q15971750, Q15971738, Q15971644, Q15971595, Q15971026, Q15968728, Q15968688, Q15970952, Q15970916, Q15970875, Q15970761, Q15970738, Q15969511, Q15968454, Q15968412, Q15968384, Q15968334, Q15968094, Q15968089, Q15070025, Q15069932, Q15556430, Q15967984, Q15967982, Q15967909, Q15967905, Q15967867, Q15069894, Q15040607, Q15967804, Q15967792, Q15454735, Q15967721, Q15967675, Q15967632, Q15967620, Q15967556, Q11985004, Q11984966, Q11984963, Q15427563, Q15967277, Q15967194, Q15967144, Q15967143, Q15967141, Q11984898, Q11984873, Q11984842, Q15730844, Q15407392, Q15407380, Q15407353, Q15407332, Q15407330, Q15407317, Q15407269, Q15407102, Q15407049, Q15407032, Q15406989, Q15406972, Q15406936, Q15406933, Q13608198, Q15630951, Q15627817, Q15620798, Q15304847, Q15292744, Q12798753, Q8318736, Q7192335, Q8343669, Q8341910, Q8340353, Q8307462, Q5129087, Q8340048, Q6282058, Q8304272, Q7029512, Q5624550, Q6686710, Q6308750, Q4297124, Q3588670, Q3588667, Q3557148, Q3557147, Q3591134, Q3559520, Q3557418, Q3425824, Q3438785, Q3386072, Q3419205, Q3383747, Q3383721, Q3322222, Q3189364, Q3300475, Q3300398, Q3280407, Q3261225, Q3262782, Q3171077, Q3171062, Q3170965, Q3170928, Q3173130, Q3170279, Q3171438, Q3169453, Q3163915, Q2898191, Q3130792, Q3106416, Q3102240, Q3084081, Q3022907, Q2971908, Q2966300, Q2966294, Q2966269, Q2966178, Q2959758, Q2965507, Q2965489, Q2965464, Q2965462, Q2965401, Q2965390, Q2965379, Q2966075, Q2959569, Q2959407, Q2959399, Q2965325, Q2965283, Q2965248, Q2965206, Q2959270, Q2898154, Q2898073, Q2898072, Q2898060, Q2898032, Q2959026, Q2965026, Q2847847, Q2853610, Q1685623, Q2897924, Q2897919, Q2897910, Q2897817, Q2926792, Q2926777, Q2926776, Q2965010, Q2964984, Q2964709, Q2962844, Q2961065, Q2926585, Q2956520, Q2948004, Q2947262, Q2943759, Q2958975, Q2958973, Q2958969, Q2958961, Q2958959, Q2958953, Q2958867, Q2958865, Q2960575, Q2960571, Q2960553, Q2960549, Q2960546, Q2960544, Q2960499, Q2960444, Q2960432, Q2958772, Q2958624, Q2897713, Q2897607, Q2897545, Q2960686, Q2960673, Q2960672, Q2960653, Q2960647, Q2960629, Q2960591, Q2960583, Q2940879, Q2938044, Q2938042, Q2935060, Q2958560, Q2958545, Q2958476, Q2910810, Q2910113, Q2907479, Q2902145, Q2901737, Q2960310, Q2960309, Q2960305, Q2960267, Q2960231, Q2960198, Q2960144, Q2897468, Q2897467, Q2897411, Q2896685, Q2960135, Q2959974, Q2959959, Q2899764, Q2899632, Q2899631, Q2896563, Q2896324, Q2896301, Q2958262, Q2935054, Q2934999, Q2959851, Q2959850, Q2899549, Q2899534, Q2934867, Q2929972, Q2929654, Q2898750, Q2898719, Q2887628, Q2872019, Q2871851, Q2926954, Q2926950, Q2861930, Q2898475, Q2871551, Q2871426, Q2861766, Q2861763, Q2885921, Q2885806, Q2884655, Q2884256, Q2884147, Q2882362, Q2847796, Q2847780, Q2847736, Q2847722, Q2847701, Q2847690, Q2847671, Q2898387, Q2898368, Q2898258, Q2898229, Q2859685, Q2857420, Q2857281, Q2847598, Q2847552, Q2871192, Q2871123, Q2880163, Q2878445, Q2876682, Q2874524, Q2874451, Q2871055, Q2847372, Q2847319, Q2850105, Q2849349, Q2856928, Q2847313, Q2847124, Q2837071, Q2836458, Q2856665, Q2865225, Q2865079, Q2865073, Q2864966, Q2864964, Q2848836, Q2848789, Q2848788, Q2848769, Q2848738, Q2856595, Q2854264, Q2854213, Q2863333, Q2863315, Q2848622, Q2848577, Q2835376, Q2848206, Q2848128, Q2848107, Q2848106, Q2848073, Q2848063, Q2848060, Q2848034, Q2863051, Q2853896, Q2853858, Q2853740, Q2853733, Q2853710, Q2835164, Q2834932, Q2848528, Q2848524, Q2848430, Q2848426, Q2848410, Q2831528, Q2831430, Q2831374, Q2831368, Q2853606, Q2842411, Q2842341, Q2834513, Q2852998, Q2851741, Q2848368, Q2848329, Q2848272, Q2848269, Q2848263, Q2848240, Q2848226, Q2848223, Q2831657, Q2840000, Q2831064, Q2831016, Q2847997, Q2847988, Q2847982, Q2847910, Q2847897, Q2831360, Q2831359, Q2831150, Q2831147, Q2833817, Q2833635, Q2833632, Q2833630, Q2829575, Q2829556, Q2829555, Q2830906, Q2830548, Q2830225, Q2833458, Q2827991, Q2827611, Q2830120, Q2830110, Q2830109, Q2830106, Q2830006, Q2829969, Q2829888, Q2825227, Q2829873, Q2829834, Q2829678, Q2829677, Q2829604, Q2824759, Q2824068, Q2522354, Q2821505, Q2821360, Q2787574, Q2455359, Q2144623, Q1986693, Q1977192, Q2093402, Q2093274, Q2093271, Q2093218, Q1871487, Q1871436, Q2087776, Q2087651, Q2087606, Q1957717, Q1685497, Q1685495, Q1605975, Q1605955, Q1605853, Q1808122, Q1685229, Q1684979, Q1930899, Q1684952, Q1684914, Q1684835, Q1684831, Q1684769, Q1911364, Q2058903, Q1893128, Q1678091, Q1677940, Q1677902, Q2164844, Q1875296, Q1707636, Q1703212, Q1605827, Q1605776, Q1605758, Q1373556, Q1373425, Q1685961, Q1685946, Q1685829, Q1557532, Q1614839, Q1451085, Q1451045, Q1536636, Q1450920, Q1096945, Q1096620, Q1096383, Q1524522, Q1435840, Q1086367, Q1349571, Q1509018, Q1508933, Q1508923, Q1508851, Q1066613, Q1066565, Q1066079, Q1064478, Q1240579, Q1236540, Q1479401, Q1010351, Q1451245, Q1187326, Q1173998, Q1153226, Q978447, Q752061, Q609732, Q945331, Q691219, Q677802, Q586765, Q586317, Q482193, Q521370, Q518326, Q517594, Q517173, Q299841, Q290040, Q198628, Q289732, Q285998, Q278945, Q274922, Q274909, Q314861, Q274392, Q274389, Q274275, Q1063990PPS: en bonus voici 619 éléments finissant par une parenthèse (trop de cas différents, d'homonymes, etc. pour que j'arrive à les traiter automatiquement) : ).(Q3386072)Pierre Maille et (Q2787574)Pierre Maille , je l'ai traité à la main ; même chose pour (Q3557470)Victor Méric car il aurait eu le même libellé et la même description que (Q3557471)Victor Méric du libellé de 90 éléments (a buggué sur (homme politique), du coup je dois en laisser pas mal à travers les filets...) mais efficace, je viens déjà de retirer (homme politique)PS: de façon un peu inélégante (je n'arrive pas à faire la requête SPARQL donc j'ai pris tout les hommes politiques de Wikidata que j'ai mis dans Excel et j'en ai retiré tout ceux qui ne finissent pas en 09:12, 4 April 2016 (UTC)) talk (VIGNERONCdlt, .quick statements. Ceci dit, les exemples que tu cites sont automatisables via des outils comme (Q158600)À Suivre Pour la seconde, il y aura sans doute une bonne partie à traiter à la main vu qu'il y aura des faux-positifs, certains libellés avec des parenthèses étant corrects, par exemple Pour la première partie, c'est sans doute facile en SPARQL (j'ai essayé avec FILTER REGEX mais sans succès, quelqu'un connait bien le fonctionnement de REGEX ?) sinon plus brutalement avec Autolist (sur les 134,580 humains de nationalité française - j'ai commencé sur un groupe spécifique pour éviter que a requête soit trop lourde - j'obtiens 1349 éléments contenant une parenthèse ouvrante). corriger ces libellés lister les libellés contenants des parenthèsesLe problème peut se décomposer en deux parties : .#Précision entre parenthèse d'un élémentFYI, le sujet a été évoqué sur ,Thierry CaroBonjour
Use at
- https://query.wikidata.org/sparql
PREFIX wdt: <http://www.wikidata.org/prop/direct/>
PREFIX wd: <http://www.wikidata.org/entity/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
select ?item ?itemLabel where {
?item rdfs:label ?itemLabel filter (lang(?itemLabel) = "fr"&& contains(?itemLabel, "("))
?item wdt:P31 wd:Q5 .
} limit 100