Si Google a raison, nous voulons utiliser notre technologie dans le futur. Taper sur le clavier et y glisser des boutons va laisser la place à des conversations fluides que nous aurons quotidiennement avec nos appareils. Cependant, la technologie en cours de développement pose un grave problème.
Apparemment, la plupart des données sont extrêmement anciennes et extrêmement étroites. Des projets de collecte d'échantillons sont en cours depuis les années 80, et l'essentiel de ces données provient d'étudiants blancs.
Une initiative de collecte d'échantillons prolifique, par exemple, appelée Call Home. Il offre un service qui offre des appels interurbains gratuits aux étudiants du début des années quatre-vingt-dix. Ces appels ont été enregistrés, transcrits et étiquetés, puis vendus à des scientifiques et des chercheurs.
"Gavalda, responsable de l'intelligence des machines chez Yik Yak et expert en reconnaissance vocale. "La [diversité des voix] reflète la population étudiante d'il y a 30 ans."
Naturellement, cela crée un problème. Le discours global est beaucoup plus varié que votre jeu de pog, de Reebok-pompage et de fanny-pack-baby moyen des années 80. Les accents régionaux rendent l’interaction vocale occasionnelle avec la technologie problématique, et l’industrie craint un "fossé croissant" de la parole qui limite la façon dont ces locuteurs peuvent utiliser des appareils.
Marqué, annoté et transcrit. À cette fin, il semble que Google ait été sollicité.
La diversité des voix reflète la population étudiante il y a 30 ans.
Appen publie des appels pour des échantillons de voix dans divers subreddits. Le premier appel a été repéré à Edimbourg / Edimbourg, ce qui semble être une façon amusante de recueillir beaucoup de données pour s'attaquer à l'accent écossais délicat.
Des appels apparaissent donc dans des sous-titres tels que / r / slavelabour, / r / beermoney et / r / workonline, qui se concentrent sur l'exécution de petites tâches pour le paiement. La société offre 35 $ pour 2 000 phrases enregistrées, chacune prenant entre 3 et 5 secondes pour être énoncée. D'après nos calculs, cela représente environ 15 dollars de l'heure, ce qui n'est pas trop mal. Si vous avez moins de 17 ans, le deal est vraiment plus doux: 26 $ pour 500 phrases.
La société offre 35 $ pour 2 000 phrases enregistrées.
Google Now, Alexa et Siri en raison de leur accent. The Verge a atteint le point de vue. Google et Appen s'intéressent aux accents régionaux dans les États britanniques et américains à survoler ruraux. Des anglophones d’Inde et de Chine sont également en train d’être recrutés.
Espérons que cette recherche facilitera l’engagement du discours vocal dans le monde entier, en comblant le "fossé de la parole" susmentionné.
Que pensez-vous de cette collecte d'échantillons? Votre accent a-t-il déjà compliqué l'utilisation de "OK Google"? Faites-nous savoir dans les commentaires ci-dessous!