Google et Occurrences

 

Que penser du nombre d’occurrences

fourni par Google?

 

Depuis que Google existe, connaître le nombre d’occurrences d’un mot ou groupe de mots dans un corpus (nom généralement donné à l’ensemble des documents étudiés) est à la portée de tous. Il suffit de taper le ou les mots en question dans la fenêtre d’interrogation pour que le résultat s’affiche presque instantanément. C’est devenu un jeu d’enfant(s). D’ailleurs qui n’a pas, un jour ou l’autre, recouru à cette fonction, convaincu d’obtenir la réponse qu’il cherche?

Supposons, par exemple, que je veuille connaître la fréquence d’utilisation de concombre de mer, nom généralement attribué à l’holothurie, animal marin fort prisé des Asiatiques. J’interroge alors Google. Il ne s’agit pas ici de savoir si concombre de mer est plus souvent utilisé que holothurie, nom scientifique de cet invertébré. La question ne se pose même pas; les noms scientifiques n’ont jamais eu la cote. Le problème ici est de savoir si le syntagme concombre de mer est souvent utilisé et, si oui, à quelle fréquence. Sans plus.

Pour les besoins de ma démonstration, je vous fais emprunter un chemin inhabituel et beaucoup plus long que nécessaire. Je détermine d’abord la fréquence d’emploi du mot concombre, puis celle de concombre de et finalement celle de concombre de mer. Voici les valeurs obtenues (le 13 mars 2017) :

  • Concombre                 :            7 110 000
  • Concombre de            :           4 410 000
  • Concombre de mer    :             572 000

Ces chiffres nous disent :

  • Que concombre est celui des trois qui est le plus utilisé. Il n’y a là rien de bien surprenant. Utilisé seul, concombre n’a toujours désigné, et ce, depuis au moins 1606, et ne désigne toujours que le légume. Au fait est-ce vraiment un légume? Ne serait-ce pas plutôt un fruit? (1) Mais passons!
  • Que concombre de se rencontre plus souvent que concombre de mer. Encore là, rien de bien surprenant puisque d’autres mots que mer peuvent suivre immédiatement concombre de. À preuve, ces exemples obtenus avec Google : Soupe froide à l’avocat et au concombre de Ricardo  (nom d’un chef cuisinier); Bougie au Soja Ananas & Concombre de Blanc Soja (nom d’une entreprise); Salade de concombre de France à la thaï (marque qui garantit la qualité du produit). Il en est d’autres qui disent la variété du légume : concombre de type hollandais ou de type libanais; concombre de type « Sikkim » ou concombre de forme ronde de type « Apple ».
  • Que concombre de mer arrive bon dernier puisqu’il est le plus spécifique des trois, celui où les contraintes d’emploi sont les plus importantes : concombre suivi immédiatement de la préposition de, elle-même suivie immédiatement de mer.

Avait-on vraiment besoin d’interroger Google pour en arriver à de telles conclusions? Certainement pas. Elles se déduisent de la simple expérience commune de tout un chacun. Le fait que ces valeurs correspondent à ce qu’intuitivement nous savions déjà nous amène à croire que, si les conclusions sont incontestables, les résultats qui nous y ont menés le sont eux aussi.  Et par effet d’entraînement, que toute réponse chiffrée fournie par Google, à quelque question que ce soit, est forcément, elle aussi, incontestable. Mais est-ce vraiment le cas? Voyons voir.

Peut-on vraiment se fier à ces résultats?

Se poser la question, c’est se demander si ces résultats sont précis, s’ils sont exacts. J’utilise ici deux adjectifs qui, pour le commun des mortels, sont synonymes. Ce que lui confirmeront d’ailleurs les dictionnaires. Le Petit Robert dit de précis : Déterminé avec exactitude. L’Académie française (DAF, 9e éd., 1985-…) dit de exact : qui exclut toute approximation, précis. Qui, après cela, osera prétendre qu’on ne peut pas utiliser indifféremment ces deux adjectifs? Personne, mais…

Mais, devant des données chiffrées – comme celles que nous fournit Google –, le scientifique qui sommeille en moi se met à froncer les sourcils. Lui, n’en fait pas le même usage. En science, les deux adjectifs ne disent pas la même chose : exact fait référence à la parfaite correspondance entre une mesure et sa vraie valeur; et précis, au degré de correspondance entre plusieurs mesures d’une même quantité (i.e. on obtient le même résultat lorsqu’on répète plusieurs fois la même mesure). La précision traduit seulement la reproductibilité d’une mesure et non son exactitude. Un résultat peut donc être précis sans pour autant être exact. (2)

Si j’aborde ici la question de la reproductibilité, c’est qu’une bonne amie à moi m’a dit récemment avoir lu (3) que spécifique à est plus courant que spécifique de. Cela m’a étonné, car je m’étais déjà posé la question et Google m’avait dit le contraire. Pourtant je n’avais aucune raison de douter de cette source. Alors comment était-ce possible? Cela voudrait-il dire que Google ne donne pas toujours la même réponse à une même question! Que les résultats affichés ne sont pas reproductibles! OUF… Il ne m’en fallait pas plus pour que je m’intéresse à la chose.

Comment est-ce possible?

Quels seraient les facteurs susceptibles d’influer sur les résultats affichés et, conséquemment, sur les conclusions qu’on peut en tirer? Il en est au moins deux qui me viennent immédiatement à l’esprit. Et dans chacun d’eux, c’est l’utilisateur qui en cause.

  • La formulation de la requête

Si vous tapez concombre de, vous obtiendrez le nombre de fois que concombre et de se retrouvent à proximité, proximité désignant ici beaucoup plus que voisin immédiat. Mais si vous voulez savoir le nombre d’occurrences de concombre suivi immédiatement de la préposition de, il vous faut taper « concombre de » (entre guillemets). Bien des internautes l’oublient ou ne le savent tout simplement pas. Les deux requêtes ne peuvent donner que des résultats différents, puisque Google ne répond pas à la même question.

  • La lecture de la réponse

Vous pourriez être tentés de me dire que le nombre d’occurrences de concombre de mer EST, par exemple, de 572 000. Foi de Google! Mais, si vous lisez attentivement, vous verrez que ce n’est pas ce qui est écrit. Google nous dit avoir obtenu « Environ 572 000 résultats ». Cette valeur ne serait donc qu’une approximation! Si non, pourquoi aurait-on utilisé environ? Quand quelqu’un dit que la fréquence de concombre de mer, établie par Google, EST…, il prend un raccourci, il tourne les coins rond. Il devrait s’habituer à penser et à dire que sa fréquence est de l’ordre de… 572 000. Mais peu le font, pour ne pas dire personne.

Et le caractère approximatif des valeurs fournies par Google est encore plus apparent si l’on compare les résultats obtenus en réponse à diverses requêtes : les nombres affichés se terminent TOUJOURS par 000. Il n’y a ni unités, ni dizaines ni centaines. Uniquement des milliers! (4) Ce qui est, vous en conviendrez, mathématiquement impossible. Au dernier recensement, la population du Canada était de 36 626 083. Et non pas de 36 626 000. Il serait malvenu d’arrondir cette valeur au millier près. Pourtant, c’est ce que Google fait! Tout comme il est malvenu de dire que la fréquence d’un mot ou groupe de mots EST de…, alors qu’elle est ENVIRON de… On n’a pas le droit de faire dire aux chiffres autre chose que ce qu’ils peuvent dire. Mais on l’oublie trop souvent.

Clairement les résultats affichés ne sont pas exacts. Ils ne sont qu’approximatifs.

Face à cette dure réalité, je ne peux que me demander, curieux comme toujours, si ces résultats sont au moins précis. Autrement dit, s’ils sont reproductibles. Le cas échéant, j’obtiendrais le même résultat en posant plusieurs fois la même question. J’ai donc formulé exactement la même requête plusieurs fois dans la même journée, et ce, deux jours consécutifs. Voici les résultats obtenus les 15 et 16 mars 2017, pour concombre de mer (avec et sans guillemets) :

Heure    concombre de mer      « concombre de mer »

  • 12:15               562 000**                    109 000
  • 12:45               564 000                       109 000
  • 13:35               557 000                        109 000
  • 16:00               567 000                       109 000
  • 08:00              580 000                       109 000
  • 09:00              579 000                        109 000
  • 11:45                556 000                        109 000

** Vous comprendrez que les fréquences citées sont de l’ordre de,  environ de… même si je ne le précise pas chaque fois. Je ne voudrais pas que le lecteur m’accuse de faire dire aux chiffres autre chose que ce qu’ils peuvent vraiment dire.

Faut-il s’étonner de voir la fréquence de concombre de mer (sans guillemets) varier avec le temps? NON, parce que le corpus utilisé est un corpus ouvert, i.e. que le nombre de documents qui sont consultés augmente avec le temps. Il est donc concevable que le nombre d’occurrences varie lui aussi. Il n’y a pas non plus à s’étonner de voir que les résultats concernant « concombre de mer » (avec guillemets), eux, ne varient pas. Il est fort possible que, durant ce court laps de temps, aucun nouveau document contenant le terme concombre de mer n’ait été publié.

Ce qui, par contre, est étonnant –  pour ne pas dire inexplicable –, c’est de voir les résultats de concombre de mer (sans guillemets) fluctuer non pas à la hausse, mais occasionnellement à la baisse : la valeur affichée joue entre 556 000 et 580 000. Elle pourrait, étant donné que le corpus est ouvert, augmenter, mais certainement pas diminuer. À moins qu’on enlève de temps à autre des documents du corpus! Ce qui me paraît tout à fait improbable.

Ces résultats, qui n’étaient déjà pas exacts, ne sont même pas précis!

Ceux concernant « concombre de mer » (avec guillemets) sont, par contre, reproductibles. La valeur affichée est toujours la même : 109 000. Ces résultats sont en apparence précis. Il serait bien tentant de croire que, pour obtenir des résultats fiables, la mise entre guillemets du terme étudié s’impose. Cela est en effet très tentant. Mais je me méfie des apparences comme le Diable de l’eau bénite! Avant de prétendre que la mise entre guillemets est essentielle à l’obtention de résultats reproductibles, il est impératif de s’assurer que le phénomène observé avec « concombre de mer » (entre guillemets) n’est pas un cas isolé.

Pour ce faire, je décide d’examiner les fréquences d’emploi de « spécifique à » et de « spécifique de » (les deux entre guillemets). Les résultats devraient me permettre 1- de confirmer ou d’infirmer l’hypothèse que l’emploi des guillemets est garant de la reproductibilité des résultats, comme cela semble être le cas avec « concombre de mer », et 2- de savoir si « spécifique à » est plus souvent ou moins souvent utilisé que « spécifique de ». D’une pierre, deux coups! Voici les résultats obtenus le 16 mars 2017 :

Heure              « spécifique à »              « spécifique de »

  • 12:00                    2 940 000                             671 000
  • 15:00                        734 000                         1 060 000
  • 16:00                     1 190 000                             671 000
  • 17:00                        734 000                          1 060 000
  • 18:00                    2 820 000                          1 060 000

Force est de reconnaître que la mise entre guillemets de ces deux syntagmes n’a rien à voir avec la reproductibilité des résultats. Celle obtenue avec « concombre de mer » n’était donc que le fruit du hasard. Et de rien d’autre.

On ne peut même pas dire que leurs fréquences sont de l’ordre de…, car, dans le cas de « spécifique à » –  le cas le plus flagrant –, les valeurs affichées varient du simple au quadruple! J’ai même déjà obtenu, pour d’autres mots, des fréquences qui variaient encore plus. Presque 6 fois dans le cas du verbe abeausir (une fois, 1480; une autre fois, 8400)!

La seule conclusion qui s’impose est que, dépendamment de l’heure à laquelle vous interrogez Google, les valeurs affichées pourraient vous amener à dire une chose ou son contraire. D’après les résultats obtenus à 12:00, à 16:00 ou à 18:00, vous êtes en droit de dire que « spécifique à » est plus couramment employé que « spécifique de ». Mais d’après ceux obtenus à 15:00 ou à 17:00, vous devez conclure que « spécifique à » est moins couramment employé que « spécifique de ». Aberrant, n’est-ce pas? Moi qui croyais dur comme fer que les données de Google me permettaient de tirer des conclusions incontournables, indiscutables, imparables, parce que chiffrées et basées sur un imposant corpus! J’en reste pantois. Complètement déboussolé.

Ce n’est pas tout. La logique voudrait également que la fréquence de UN mot soit la même qu’on le mette ou pas entre guillemets. Mais tel n’est pas toujours le cas. Pour vérifier ce qu’il en est, j’ai choisi trois mots en fonction de la rareté que je leur attribuais instinctivement : abeausir ne figure que dans le dictionnaire Littré (donc excessivement rare); épenthèse est un terme technique rencontré en étymologie (donc assez rare) ; et machine, un terme courant (donc pas rare du tout). Voici les fréquences affichées le 25 mars 2017 :

sans guillemets          avec guillemets

  • beausir                       1 480                              1 390
  • Épenthèse                289 000                        250 000
  • Machine       1 940 000 000             1 940 000 000

Si les résultats sont identiques dans le cas de machine, pourquoi ne le sont-ils pas dans le cas de épenthèse ou de abeausir? Parce que leurs fréquences sont moins importantes?… Cela n’a aucun sens. N’allez pas croire que ce sont les deux seules incongruités que m’a réservées Google. Il y en a bien d’autres, dont je vous fais grâce.

Si les résultats ne sont ni exacts, ni précis, si ce ne sont que des approximations, le grand responsable ne peut être, me semble-t-il, que Google lui-même.

Comment est-ce possible? Un ordinateur ne fait-il pas uniquement ce qu’on lui dit de faire? Ne fait-il pas uniquement ce qu’on l’a programmé à faire?… Il me semble que oui. De là, la conviction que les résultats affichés par Google sont incontestables. Pourquoi alors n’obtient-on pas le nombre exact d’occurrences d’un mot ou groupe de mots dans un corpus? Pourtant votre ordinateur vous dira combien de fois vous avez utilisé tel ou tel mot dans votre texte. Et le nombre fourni sera non seulement exact, i.e. que la mesure correspondra au nombre réel d’occurrences (vous n’avez qu’à les compter manuellement pour en être certain), mais aussi précis, i.e. que vous obtiendrez toujours la même valeur, quelles que soient la date et l’heure de votre demande. Pourquoi alors Google ne peut-il pas en faire autant? Serait-ce qu’un ordinateur ne fonctionne pas de la même façon qu’un moteur de recherche? Ce dernier utilise pourtant des ordinateurs… Serait-ce alors une simple question de programmation? N’étant pas informaticien, je ne saurais dire. D’autres peut-être le sauraient. Je pars donc à la recherche d’une explication, qui certainement existe. Mais où?…

Eurêka!

À force d’interroger Google, je suis venu à mettre la main sur des articles fort pertinents, publiés en 2005 et rédigés par des professeurs de linguistique et d’informatique qui partageaient  un intérêt commun pour l’analyse statistique du langage. Cet intérêt les a amené inévitablement à s’intéresser à Google. L’un, Jean Véronis, enseignait alors à l’université d’Aix-Marseille (France); l’autre, Mark Liberman, à l’Université de Pennsylvanie (USA).

Je me rends compte, à la lecture de ces articles, qu’ils se sont posés les mêmes questions que moi, mais bien avant moi. Même s’ils attaquent le problème d’un point de vue différent (celui de la logique booléenne), ils n’en sont pas moins arrivés aux mêmes conclusions que moi. Véronis a même intitulé son article, publié le 19 janvier 2005,  Google perd la boole  (par allusion à la logique booléenne). Il y dit :

Bien sûr, je sais que les nombres retournés par Google sont des approximations (d’ailleurs le moteur précise bien environ x résultats), que les valeurs peuvent légèrement varier en fonction des « centres de données » qui traitent la requête et qui peuvent varier d’un moment à l’autre. Ces raisons pourraient expliquer de petites différences, mais pas des différences du simple au double

Est-il nécessaire de rappeler ici que j’ai obtenu, pour « spécifique à », une différence qui allait du simple au quadruple?

Le 26 janv. 2005, il publie un autre article intitulé cette fois Comptes bidons chez Google?

Il commence son article par ces mots :

Il y a quelques jours, j’ai montré que les opérateurs booléens de Google retournaient des nombres totalement aberrants, qui empêchaient toute utilisation sérieuse […].

Il conclut :

En tous cas, je déconseillerais vivement l’utilisation des comptes fournis par Google dans une quelconque application professionnelle (comme par exemple la « linguistique Googléenne » qui semble émerger ces temps-ci).

Cette mise en garde s’applique, je crois bien, à toute application, qu’elle soit linguistique ou pas.

Sur les entrefaites, Liberman contacte une de ses connaissances, qui travaille chez Google, et lui demande des explications à propos des estimations pour le moins étranges (odd estimates of counts) que fournit Google. On lui répond que c’est un problème d’extrapolations. Soit. Mais encore…?

Voici verbatim l’explication fournie :

There are small variations in the number of results due to the fact that index updates are done at different times in different data centers (5). But there are much larger variations due to the fact that these are all estimates, and we just haven’t tried that hard to make the estimates precise. To figure out the number of results in the query [a OR b], we need to intersect two posting lists. But we don’t want to pay the price of intersecting all the way to the end, so we do a prefix and then extrapolate. The extrapolation is done with the help of some parameters that were carefully tuned several years ago, but haven’t been reliably updated as the index has grown and the web has changed, so sometimes the results can be off.

Sometimes?… Vraiment?…  Ne serait-ce pas plutôt quite often, pour ne pas dire trop souvent.

Ça, c’était en 2005. Douze ans plus tard, rien ne semble s’être amélioré.

Bref, les fréquences affichées par Google ne sont pas fiables du tout. Mieux vaudrait s’abstenir d’y faire référence, car le faire revient presque à générer une autre légende linguistique. Il y en assez déjà, me semble-t-il. Point n’est besoin d’en rajouter.

Maurice Rouleau

(1)    Le concombre est généralement considéré comme un légume. Mais botaniquement parlant, c’est un fruit, puisqu’il provient d’une fleur. Tout comme la tomate, d’ailleurs. Compte tenu de qu’en disaient les Académiciens en 1694, on serait tenté de leur attribuer la paternité de cette confusion. En effet, dans leur DAF (1ère éd., 1694), ils définissent concombre de la façon suivante : « Espece de fruit ou de legume de forme longue, & de nature froide & aqueuse qui vient dans les jardins sur des couches. » C’est un fruit ou un légume? Le lecteur de l’époque avait le choix, parce que les Académiciens n’avaient pas, eux, fait le leur!

(2)   Exemple de la différence entre précis et exact. Supposons que vous tirez, à quelques reprises, sur une cible avec une carabine. Trois cas de figure sont possibles.

  • Vos balles se retrouvent à différents endroits de la cible. Vos tirs sont ni précis, ni exacts. L’erreur de tir est accidentelle; elle n’est pas reproductible.
  • Vos balles se retrouvent groupées à 20 cm du centre de la cible. Vos tirs sont précis, mais non exacts. L’erreur commise est systématique, reproductible, preuve d’un mauvais alignement du cran de mire et du guidon de la carabine.
  • Vos balles se logent toutes dans la partie centrale de la cible. Dans le mille!, dira-t-on. Vos tirs sont précis et exacts.

(3)   Dans Le traducteur encore plus averti, il est dit que « quelques recherches de fréquences sur Google montrent que spécifique à semble plus courant que spécifique de ». À remarquer que l’auteur a, fort justement, utilisé le verbe sembler. Mais le lecteur l’oubliera, aussitôt lu, et dira que spécifique à EST plus courant que spécifique de. Ce faisant, il trahit sa source. Il lui fait dire ce qu’elle ne dit pas. Ainsi naissent les légendes linguistiques. Malheureusement!

(4)   Les fréquences affichées se terminent toujours par 000, sauf dans les rares cas où cette fréquence est inférieure à 10 000. Allez savoir pourquoi…

(5)   Les résultats affichés par Google ne proviennent donc pas tous d’un seul et même centre de traitements des données. Google comprend un ensemble de centres répondant aux diverses requêtes en fonction de leur disponibilité. Si l’un des centres est occupé à fournir une réponse, la requête suivante sera dirigée vers un autre centre qui, lui, n’est pas occupé. D’où une « légère variation » des résultats, nous dit l’employé de Google! Étant donné que ces différents sites fournissent des résultats qui varient, faut-il en conclure qu’ils n’utilisent pas le même corpus? OUF…! Mieux vaut ne pas  poser la question.

P-S. — Si vous désirez être informé par courriel de la publication de mon prochain billet, vous  abonner est la solution idéale.

WordPress vient apparemment de simplifier cette opération. Dans le coin inférieur droit de la page d’accès à ce billet, vous devriez noter la présence de « + SUIVRE ». En cliquant sur ce mot, une fenêtre où vous devez inscrire votre adresse courriel apparaîtra. Il ne vous reste plus alors qu’à cliquer sur « Informez-moi ». 

Publicités
Cet article a été publié dans Uncategorized. Ajoutez ce permalien à vos favoris.

4 commentaires pour  Google et Occurrences

  1. Philippe Riondel dit :

    Selon mon expérience, Google pose d’autres problèmes de fiabilité dans le dénombrement des occurrences. Deux des plus évidents sont les suivants :
    1. Beaucoup d’articles sont repris dans plusieurs publications, ou simplement cités dans d’autres pages Web, et Google compte une occurrence à chaque fois. Prenons simplement l’exemple d’un article de l’AFP qui sera repris tel quel dans différents journaux et compté autant de fois. On comprend que le nombre d’occurrences s’en trouve gonflé. Cela devient un vrai problème, d’un point de vue langagier, lorsque que l’article ainsi reproduit contient une tournure fautive et que celle-ci semble alors beaucoup plus fréquente qu’elle l’est en réalité: certains y trouveront là une sorte de validation de la tournure erronée.
    2. Le nombre d’occurrences affiché par Google est souvent faux. Ainsi, il arrive que Google nous signale 12 000 occurrences, mais que l’on ne trouve que trois pages de résultats si on explore les pages suivantes. Mieux, le nombre de ces occurrences tombe inexplicablement à, disons, 72 lorsque l’on regarde le chiffre figurant au bas des pages suivantes. On ne peut donc pas s’arrêter au chiffre de la première page.

    Comme un certain nombre de traducteurs, je me fie en revanche assez souvent au site Le Révélateur (actuellement revenu en phase de test, aux dernières nouvelles – http://lerevelateur.etiennelj.com/_test_v0.6/), qui s’appuie sur le corpus de Google, mais dont l’auteur, Étienne Lehoux-Jobin, semble avoir bien compris et exploité les arcanes du moteur de recherche. Il permet non seulement des dénombrements, mais aussi différentes comparaisons de fréquences d’usage. Selon mon expérience, ses résultats sont assez constants.

    • rouleaum dit :

      Merci beaucoup de votre commentaire.

      Le problème que vous soulevez au point 1 est bien réel. Qu’est-ce qui constitue réellement ce « corpus »? On y fait référence parce qu’on nous le présente comme étant fiable. L’utilisateur moyen, lui, n’en sait rien. Existe-t-il une source qui détaille le contenu de ce « Corpus »? J’aimerais bien la connaître.

      Le problème soulevé au point 2 ne m’est pas inconnu. Entre mes mains, le nombre d’occurrences affiché sur la première page (dans le cas d’abeausir : 1490) réapparaît sur les pages subséquentes, sauf sur la dernière page, où ce nombre diminue de façon phénoménale. En fait, ce dernier nombre correspond à peu près (la valeur n’est pas exacte) au nombre de références réellement affichées. Pour abeausir, on fournit 15 pages complètes de références, à raison de 10 réf./page. Il y en a donc 150. Mais sur la dernière page, on lit : « Page 15 d’environ 148 résultats (0,50 secondes) ». Et si vous poussez encore plus votre recherche et voulez connaître les autres références « plus pertinentes », vous aurez d’autres surprises. (Et que désigne une référence pertinente?)

      Vous dites avoir trouvé un outil plus fiable que Google pour connaître la fréquence d’un mot ou groupe de mots : Le Révélateur. Soit. Mais une question se pose ici. Si, comme vous le dites, Le Révélateur s’appuie sur le corpus de Google, comment expliquer qu’ils fournissent des résultats plus crédibles que ne le fait Google, compte tenu de la réserve que vous avez formulée au point 1 concernant ce corpus?

      • Philippe Riondel dit :

        Votre question au sujet du Révélateur est tout à fait pertinente et je me la suis posée aussi. Je peux juste dire qu’empiriquement, je constate plus de constance dans les résultats. Je pense que l’auteur du site a probablement acquis une certaine maîtrise des opérateurs de recherche.
        Si vous souhaitez le joindre pour en savoir plus, je me permets de vous envoyer par courriel privé ses coordonnées.

        • rouleaum dit :

          Quand vous dites « plus de constance dans les résultats », je comprends qu’il y a quand même variation. Cette dernière va-t-elle toujours dans le même sens? S’il lui arrive de diminuer, alors qu’elle ne devrait qu’augmenter (le corpus est ouvert), on se retrouve avec le même problème. Sans oublier que les résultats peuvent être reproductibles, c’est-à-dire précis sans pour autant être exacts.
          C’est le genre d’interrogation qui va de pair avec des travaux sur de grands corpus, dont les caractéristiques ne sont pas nécessairement connues des utilisateurs. On n’y échappe pas.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s