Il faut toujours tester les trouvailles avant de les mettre en pâture. Ainsi que j’ai créé ma news letter automatique sur les sujets Adsense, Google, Microsoft et Yahoo, je me suis aperçu qu’il y avait des doublons. Je m’explique, lorsque Microsoft veut racheter Yahoo, j’ai une alerte Microsoft et j’ai une alerte Yahoo, et donc deux news doublonées dans ma première version de PIPE. J’ai résolu le problème en rajoutant un opérateur du nom de « Unique« . Voir la photo d’écran. Ils ont pensé à tout ces génies.
Nota : En faisant ces changements dans yahoo pipe, le flux Rss feedburner reste inchangé, ce qui est pratique.
effectivement il n ‘y a pas de filtre parfait cela dit, c’est largement mieux que pas de filtre du tout.
et encore par titre c’est problématique en sachant que beaucoup de blogs se contentent de reprendre le même titre. Attention donc chaque fix est un choix qui a son implication pour le traitement de données…
En réalité dans ta newsletter, il y aura toujours des doublons: la faute à Google Alerte qui puush les news plusieurs fois par semaine et qui ne prend pas en compte les pubdate native des pages qu’il intégre. Par défaut. Google Reader prend la date de reception, ce qui fait que si tu filtre ton Yahoo Pipes avec unmodule Uniqu par date tu aura des doublons quand même ! La solution est double: soit 1. fixer le probleme des pubdates de Google avec un script js. Soit 2. filtrer par description ou par titre …