Antecedents i desenvolupament

Geekbench AI és desenvolupat per Primate Labs, una empresa de programari irlandesa coneguda per la seva línia de benchmarks de rendiment multiplataforma Geekbench. A partir del marc establert de Geekbench per a les proves de CPU i GPU, Primate Labs va ampliar el seu conjunt d’eines per abordar la creixent rellevància de les càrregues de treball d’intel·ligència artificial executades al dispositiu. El benchmark s’adreça als dispositius Android i iOS, reflectint la implantació generalitzada de capacitats d’inferència d’IA en els telèfons intel·ligents i tauletes de consum moderns. Els resultats els envien els usuaris i s’agrupen en un rànquing públicment accessible, que proporciona un conjunt ampli de dades sobre el rendiment real dels dispositius.

Estructura del benchmark i puntuació

Geekbench AI avalua el rendiment de la inferència d’IA en tres entorns de computació: CPU, GPU i NPU (Neural Processing Unit). Aquest enfocament multi-backend permet al benchmark recollir les diferents vies de maquinari que fan servir els dispositius mòbils moderns per accelerar tasques d’aprenentatge automàtic. Les proves es fan amb tres tipus diferents de precisió de càrregues de treball:

Precisió simple: Operacions estàndard de coma flotant de 32 bits, que representen càrregues de treball d’inferència amb plena precisió.
Precisió mitjana: Operacions de coma flotant de 16 bits, habitualment utilitzades per equilibrar rendiment i precisió en maquinari capaç.
Quantificat: Inferència basada en enters, que reflecteix tècniques d’optimització àmpliament utilitzades per reduir la mida del model i millorar el rendiment en maquinari mòbil.

Cada tipus de càrrega de treball genera la seva pròpia puntuació, i aquestes es combinen en una puntuació composta de Geekbench AI. Totes les puntuacions es calibren respecte a una base de 1.500, que correspon al rendiment mesurat en un processador Intel Core i7-10700. Aquest enfocament de calibratge permet interpretar les puntuacions de dispositius mòbils diversos en un context consistent i comparable.

Casos d’ús i aplicacions

El benchmark compleix diverses finalitats pràctiques per a públics diferents. Per als consumidors, el rànquing disponible públicament ofereix un punt de referència quan es comparen les capacitats d’inferència d’IA dels telèfons intel·ligents i les tauletes abans de comprar. Per a desenvolupadors i investigadors que treballen en aplicacions d’IA mòbil, l’estructura multi-backend i multi-precisió ofereix informació sobre com diferents configuracions de maquinari gestionen demandes d’inferència variables. La inclusió de proves amb NPU és especialment rellevant, ja que els fabricants de dispositius integren cada vegada més maquinari dedicat de processament neuronal en dissenys de sistemes en xip per a mòbils.

Com que els resultats els envien els usuaris i provenen d’una gran varietat de dispositius, el rànquing reflecteix una mostra diversa del maquinari disponible al mercat de consum, incloent-hi tant dispositius insígnia com de gamma mitjana que executen versions actuals i recents d’Android i iOS.

Context dins de l’avaluació comparativa d’IA

Geekbench AI ocupa un nínxol específic dins del panorama més ampli de l’avaluació comparativa d’IA, ja que se centra exclusivament en el maquinari de mòbils i tauletes en lloc de sistemes de centre de dades o d’escriptori. Tot i que altres benchmarks s’adrecen a acceleradors de nivell de servidor o a GPU d’escriptori, Geekbench AI està orientat a la inferència al dispositiu en entorns amb recursos limitats. El seu model aportat pels usuaris i basat en la col·laboració de la comunitat el diferencia dels benchmarks de laboratori controlats, ja que ofereix escala i cobertura de dispositius a canvi d’alguna consistència ambiental. A mesura que el processament d’IA al dispositiu esdevé una característica més destacada en el màrqueting de maquinari mòbil i en la diferenciació de productes, eines com Geekbench AI proporcionen un punt de comparació estandarditzat i accessible per a un públic general.

Geekbench AI Benchmark

Metrics

Categories

Temes

Antecedents i desenvolupament

Estructura del benchmark i puntuació

Casos d’ús i aplicacions

Context dins de l’avaluació comparativa d’IA