I progressi nella visione artificiale promuovono l'autonomia dei trasporti

L'auto autonoma a guida autonoma riconosce i segnali stradali. Visione artificiale e intelligenza artificiale ... [+] concetto.

getty

La vista è un potente input sensoriale umano. Consente attività e processi complessi che diamo per scontati. Con un aumento di AoT™ (Autonomy of Things) in diverse applicazioni che vanno dai trasporti e agricoltura alla robotica e alla medicina, il ruolo delle fotocamere, dell'informatica e dell'apprendimento automatico nel fornire una visione e una cognizione simili a quelle umane sta diventando significativo. La visione artificiale come disciplina accademica è decollata negli anni '1960, principalmente nelle università impegnate nel campo emergente dell'intelligenza artificiale (AI) e dell'apprendimento automatico. È progredito notevolmente nei successivi quattro decenni quando sono stati compiuti progressi significativi nelle tecnologie dei semiconduttori e dell'informatica. I recenti progressi nell'apprendimento profondo e nell'intelligenza artificiale hanno ulteriormente accelerato l'applicazione della visione artificiale per fornire percezione e cognizione dell'ambiente in tempo reale a bassa latenza, consentendo autonomia, sicurezza ed efficienza in varie applicazioni. I trasporti sono un'area che ha beneficiato in modo significativo.

LiDAR (Light Detection and Ranging) è un approccio di imaging ottico attivo che utilizza i laser per determinare l'ambiente 3D attorno a un oggetto. È una delle tecnologie che le soluzioni di visione artificiale (che si basano esclusivamente sulla luce ambientale e non utilizzano i laser per la percezione 3D) stanno cercando di interrompere. Il tema comune è che i conducenti umani non hanno bisogno di LiDAR per la percezione della profondità, quindi nemmeno le macchine dovrebbero farlo. Le attuali caratteristiche commerciali di guida autonoma L3 (autonomia completa in aree geografiche e condizioni meteorologiche specifiche, con il conducente pronto a prendere il controllo in pochi secondi) prodotti oggi usa LiDAR. Le tecniche puramente basate sulla visione non sono ancora state in grado di offrire questa capacità in commercio.

PUBBLICITA

TeslaTSLA
è un sostenitore dominante dell'utilizzo della visione artificiale basata su telecamera passiva per fornire l'autonomia del veicolo passeggeri. Durante il recente evento AI Day dell'azienda, Elon Musk ei suoi ingegneri hanno fornito una presentazione impressionante delle sue capacità di intelligenza artificiale, gestione dei dati e calcolo che supportano, tra le altre iniziative, la funzione Full Self Driving (FSD) su più modelli Tesla. FSD richiede che il conducente umano sia sempre impegnato nell'attività di guida (che è coerente con l'autonomia L2). Attualmente, questa opzione è disponibile su 160,000 veicoli acquistati dai clienti negli Stati Uniti e in Canada. Una suite di 8 telecamere su ciascun veicolo fornisce una mappa dell'occupazione a 360°. I dati della fotocamera (e altri) da questi veicoli vengono utilizzati per addestrare la sua rete neurale (che utilizza l'etichettatura automatica) per riconoscere oggetti, tracciare potenziali traiettorie del veicolo, selezionare quelli ottimali e attivare le azioni di controllo appropriate. Negli ultimi 75 mesi si sono verificati ~12 aggiornamenti della rete neurale (~1 aggiornamento ogni 7 minuti) poiché vengono continuamente raccolti nuovi dati e vengono rilevati errori di etichettatura o di manovra. La rete addestrata esegue azioni di pianificazione e controllo attraverso un'architettura onboard ridondante di elettronica di calcolo appositamente costruita. Tesla prevede che l'FSD alla fine porterà a veicoli autonomi (AV), che forniscono completa autonomia in determinati domini di progettazione operativa senza il coinvolgimento del conducente umano (denominato anche autonomia L4).

Altre aziende come Phiar, Helm.ai e NODAR stanno anche perseguendo la via della visione artificiale. NODAR mira ad espandere significativamente la gamma di immagini e la percezione 3D dei sistemi di telecamere stereo imparando a regolare il disallineamento della telecamera e gli effetti delle vibrazioni attraverso algoritmi di apprendimento automatico brevettati. Recentemente ha raccolto 12 milioni di dollari per la produzione del suo prodotto di punta, Hammerhead™, che utilizza telecamere di livello automobilistico "pronte all'uso" e piattaforme di calcolo standard.

A parte il costo e le dimensioni, un argomento frequente contro l'utilizzo di LiDAR è che ha una portata e una risoluzione limitate rispetto alle fotocamere. Ad esempio, oggi sono disponibili LiDAR con una portata di 200 m e 5-10 M punti/secondo (PPS simile alla risoluzione). A 200 m, piccoli ostacoli come mattoni o detriti di pneumatici registreranno pochissimi punti (forse 2-3 in verticale e 3-5 in orizzontale), rendendo difficile il riconoscimento degli oggetti. Le cose diventano ancora più grossolane a distanze più lunghe. In confronto, le fotocamere megapixel standard che funzionano a 30 Hz possono generare 30 milioni di pixel/secondo, consentendo un riconoscimento degli oggetti superiore anche a lunghe distanze. Fotocamere più avanzate (12 M pixel) possono aumentare ulteriormente questo valore. Il problema è come utilizzare questi enormi dati e produrre una percezione fruibile con latenze di livello di millisecondi, basso consumo energetico e condizioni di illuminazione degradate.

PUBBLICITA

ricono, una società con sede in California, sta cercando di risolvere questo problema. Secondo il CEO Mark Bolitho, la sua missione è “fornire una percezione visiva sovrumana per veicoli completamente autonomi.” L'azienda è stata fondata nel 2017, ha raccolto fino ad oggi 75 milioni di dollari e conta 70 dipendenti. RK Anand, un ex di Juniper Networks, è uno dei co-fondatori e Chief Product Officer. Ritiene che l'utilizzo di telecamere a risoluzione più elevata, con una gamma dinamica > 120 dB, in esecuzione a frame rate elevati (ad esempio, OnSemi, Sony e Omnivision) fornisca i dati necessari per creare informazioni 3D ad alta risoluzione, fondamentali per la realizzazione di AV. Gli abilitanti a questo sono:

ASIC progettati su misura per elaborare i dati in modo efficiente e produrre mappe 3D accurate e ad alta risoluzione dell'ambiente automobilistico. Questi sono fabbricati su un processo TSMC a 7 nm, con una dimensione del chip di 100 mm², operando a una frequenza di 1 GHz.
Algoritmi proprietari di machine learning per elaborare milioni di punti dati offline per creare la rete neurale addestrata, che può quindi funzionare in modo efficiente e apprendere continuamente. Questa rete fornisce la percezione e include la classificazione e il rilevamento degli oggetti, la segmentazione semantica, il rilevamento della corsia, i segnali stradali e il riconoscimento del semaforo
Ridurre al minimo lo storage off-chip e le operazioni di moltiplicazione che richiedono molta energia e creano un'elevata latenza. Il design ASIC di Recogni è ottimizzato per la matematica logaritmica e utilizza l'addizione. Ulteriori efficienze si ottengono raggruppando i pesi in modo ottimale nella rete neurale addestrata.

Durante la fase di addestramento, un LiDAR commerciale viene utilizzato come ground true per addestrare i dati della telecamera stereo ad alta risoluzione e ad alta gamma dinamica per estrarre informazioni sulla profondità e renderla robusta contro il disallineamento e gli effetti delle vibrazioni. Secondo il Sig. Anand, la loro implementazione dell'apprendimento automatico è così efficiente che può estrapolare stime di profondità oltre gli intervalli di addestramento forniti dal LiDAR di calibrazione (che fornisce la verità sul terreno a un raggio di 100 m).

PUBBLICITA

Figura 1: i riquadri verdi mostrano le prestazioni 3D dello stack di percezione di Recogni su dati addestrati a 100 ... [+] portata m. La freccia blu mostra la percezione della profondità a distanze oltre i dati di allenamento a 130 m.

ricono

I dati di allenamento di cui sopra sono stati condotti durante il giorno con una coppia stereo di fotocamere da 8.3 megapixel con frame rate di 30 Hz (~0.5 miliardi di pixel al secondo). Dimostra la capacità della rete addestrata di estrarre informazioni 3D nella scena oltre il raggio di 100 m con cui è stata addestrata. La soluzione di Recogni può anche estrapolare il suo apprendimento con i dati diurni alle prestazioni notturne (Figura 2).

Figura 2: lo stack di percezione di Recogni addestrato sui dati diurni funziona anche con un livello di luce inferiore ... [+] condizioni notturne

ricono

PUBBLICITA

Secondo il Sig. Anand, i dati della gamma sono accurati entro il 5% (a lunghe distanze) e vicino al 2% (a distanze più brevi). La soluzione fornisce 1000 TOPS (trilioni di operazioni al secondo) con una latenza di 6 ms e un consumo energetico di 25 W (40 TOPS/W), leader del settore. I concorrenti che utilizzano la matematica intera sono > 10 volte inferiori su questa metrica. La soluzione di Recogni è attualmente in fase di sperimentazione presso diversi fornitori automobilistici di livello 1.

Profezia ("prevedere e vedere dove si trova l'azione"), con sede in Francia, utilizza le sue telecamere basate su eventi per AV, Advanced Driver Assistance Systems (ADAS), automazione industriale, applicazioni consumer e assistenza sanitaria. Fondato nel 2014, il la società ha recentemente chiuso il suo finanziamento C round di $ 50 milioni, con un totale di 127 milioni di dollari raccolti fino ad oggi. Xiaomi, produttore leader di telefoni cellulari, è uno degli investitori. L'obiettivo di Prophesee è emulare la visione umana in cui i recettori nella retina reagiscono alle informazioni dinamiche. Il cervello umano si concentra sull'elaborazione dei cambiamenti nella scena (soprattutto per la guida). L'idea di base è utilizzare architetture di telecamere e pixel che rilevano i cambiamenti nell'intensità della luce al di sopra di una soglia (un evento) e forniscono solo questi dati allo stack di elaborazione per ulteriori elaborazioni. I pixel funzionano in modo asincrono (non inquadrati come nelle normali fotocamere CMOS) e a velocità molto più elevate poiché non devono integrare fotoni come in una fotocamera convenzionale basata su frame e attendere che l'intero frame finisca prima della lettura dei dati. I vantaggi sono significativi: larghezza di banda dei dati ridotta, latenza decisionale, archiviazione e consumo energetico. Il primo sensore di visione basato su eventi VGA di livello commerciale dell'azienda presentava un'elevata gamma dinamica (>120 dB), un basso consumo energetico (26 mW a livello del sensore o 3 nW/evento). È stata lanciata anche una versione HD (High Definition) (sviluppata in collaborazione con Sony), con una dimensione dei pixel leader del settore (< 5 μm).

Figura 3: Sensore di imaging basato su eventi in formato ad alta definizione con passo pixel di 5 um, sviluppato congiuntamente ... [+] con Sony

Profezia

PUBBLICITA

Questi sensori costituiscono il fulcro della piattaforma di rilevamento Metavision®, che utilizza l'IA per fornire una percezione intelligente ed efficiente per le applicazioni di autonomia ed è in fase di valutazione da più aziende nel settore dei trasporti. Oltre alla percezione rivolta in avanti per AV e ADAS, Prophesee è attivamente impegnata con i clienti per il monitoraggio in cabina del conducente per le applicazioni L2 e L3, vedere la Figura 4:

Figura 4: Monitoraggio del conducente in cabina XPERI basato sulla visione neuromorfica di ispirazione numan

Profezia

Le opportunità automobilistiche sono redditizie, ma i cicli di progettazione sono lunghi. Negli ultimi due anni, Prophesee ha riscontrato un notevole interesse e trazione nello spazio della visione artificiale per le applicazioni industriali. Questi includono il conteggio ad alta velocità, l'ispezione della superficie e il monitoraggio delle vibrazioni.

PUBBLICITA

Figura 5: conteggio elevato utilizzando telecamere basate su eventi

Profezia

Profeta ha recentemente annunciato collaborazioni con i principali sviluppatori di sistemi di visione artificiale per sfruttare le opportunità nell'automazione industriale, nella robotica, nell'automotive e nell'IoT (Internet of Things). Altre opportunità immediate sono la correzione della sfocatura delle immagini per telefoni cellulari e applicazioni AR/VR. Questi utilizzano sensori di formato inferiore rispetto a quelli utilizzati per le opportunità ADAS/AV a lungo termine, consumano ancora meno energia e funzionano con una latenza notevolmente inferiore.

Israele è un innovatore leader nell'alta tecnologia, con importanti investimenti in venture capital e un ambiente di start-up attivo. Dal 2015 sono stati effettuati circa 70 miliardi di dollari di investimenti di venture capital nel settore tecnologico. Una parte di questo è nell'area della visione artificiale. Mobileye ha guidato questa rivoluzione nel 1999 quando Amnon Shashua, uno dei principali ricercatori di intelligenza artificiale presso l'Università Ebraica, ha fondato l'azienda per concentrarsi sulla percezione basata sulla fotocamera per ADAS e AV. La società ha presentato IPO nel 2014 ed è stata acquisita da IntelINTC
nel 2017 per $ 15 miliardi. Oggi è facilmente il protagonista nel campo della visione artificiale e AV e di recente ha annunciato la sua intenzione di presentare una IPO e diventare un'entità indipendente. Mobileye ha registrato un fatturato di 1.4 miliardi di dollari all'anno e perdite modeste (75 milioni di dollari). Fornisce funzionalità di visione artificiale a 50 OEM automobilistici che lo implementano su 800 modelli di auto per funzionalità ADAS. In futuro, intendono guidare nell'autonomia del veicolo L4 (nessun driver richiesto) utilizzando questa esperienza di visione artificiale e capacità LiDAR basate sulla piattaforma fotonica del silicio di Intel. La valutazione di Mobileye è stimata in circa $ 50 miliardi quando finalmente sarà quotata in borsa.

PUBBLICITA

Champel Capitale, con sede a Gerusalemme, è in prima linea negli investimenti in aziende che sviluppano prodotti basati sulla visione artificiale per diverse applicazioni, dai trasporti all'agricoltura, alla sicurezza. Amir Weitman è un co-fondatore e socio amministratore e ha avviato la sua società di venture capital nel 2017. Il primo fondo ha investito 20 milioni di dollari in 14 società. Uno dei loro investimenti è stato in Innoviz, che è diventata pubblica attraverso una fusione SPAC nel 2018 ed è diventata un unicorno LiDAR. Guidato da Omer Keilaf (che proveniva dall'unità tecnologica dell'Intelligence Corps della Israel Defence Force), l'azienda oggi è leader nelle implementazioni LiDAR per ADAS e AV, con molteplici vittorie di design presso BMW e Volkswagen.

Il secondo fondo di Champel Capital (Impact Deep Tech Fund II) è stato avviato nel gennaio 2022 e ad oggi ha raccolto $ 30 milioni (l'obiettivo è di $ 100 milioni entro la fine del 2022). L'obiettivo principale è la visione artificiale, con 12 milioni di dollari distribuiti in cinque società. Tre di questi utilizzano la visione artificiale per i trasporti e la robotica.

TankU, con sede ad Haifa, ha iniziato ad operare nel 2018 e ha raccolto 10 milioni di dollari di finanziamenti. Dan Valdhorn è l'amministratore delegato ed è laureato all'Unità 8200, un gruppo high-tech d'élite all'interno delle forze di difesa israeliane responsabile dell'intelligence del segnale e della decrittazione del codice. I prodotti SaaS (Software as a Service) di TankU automatizzano e proteggono i processi in complessi ambienti esterni per la manutenzione di veicoli e conducenti. Questi prodotti sono utilizzati dai proprietari di flotte di veicoli, auto private, stazioni di rifornimento e di ricarica elettrica per prevenire furti e frodi nelle transazioni finanziarie automatizzate. I servizi di carburante per veicoli generano circa $ 2 trilioni di entrate globali all'anno, di cui i proprietari di flotte di veicoli privati e commerciali consumano il 40% o $ 800 miliardi. Rivenditori e proprietari di flotte perdono circa $ 100 miliardi all'anno a causa di furti e frodi (ad esempio, utilizzando una carta carburante della flotta per veicoli privati non autorizzati). Le frodi CNP (Carta non presente) e la manomissione/furto di carburante sono ulteriori fonti di perdita, soprattutto quando si utilizzano i dettagli della carta rubata nelle app mobili per i pagamenti.

PUBBLICITA

Il prodotto TUfuel dell'azienda facilita il pagamento sicuro con un solo tocco, blocca la maggior parte dei tipi di frode e avvisa i clienti quando sospetta una frode. Lo fa sulla base di un motore di intelligenza artificiale addestrato sui dati delle telecamere a circuito chiuso esistenti in queste strutture e sui dati delle transazioni digitali (inclusi POS e altri dati di back-end). Parametri come la traiettoria e la dinamica del veicolo, l'ID del veicolo, il tempo di percorrenza, il chilometraggio, il tempo di rifornimento, la quantità di carburante, la cronologia del carburante e il comportamento del conducente sono alcuni attributi monitorati per rilevare le frodi. Questi dati aiutano anche i rivenditori a ottimizzare il funzionamento del sito, aumentare la fedeltà dei clienti e implementare strumenti di marketing basati sulla visione. Secondo il CEO Dan Valdhorn, la loro soluzione rileva il 70% della flotta, il 90% delle carte di credito e il 70% degli eventi di frode legati alla manomissione.

Figura 6: TUfuel utilizza i dati in tempo reale dalle telecamere CCTV delle stazioni di servizio e altri dati digitali da ... [+] Attività Point of Service e app mobile

Tank U

Sonole è una società di servizi energetici che possiede e gestisce una rete di 240 stazioni e minimarket in Israele. TUfuel è distribuito nei loro siti e ha dimostrato maggiore sicurezza, prevenzione delle frodi e fidelizzazione dei clienti. Le prove sui prodotti sono in corso negli Stati Uniti in collaborazione con un fornitore globale leader di distributori di benzina e attrezzature per minimarket. Iniziative simili sono in corso anche in Africa e in Europa.

PUBBLICITA

Con sede a Tel Aviv ITC è stata fondata nel 2019 da accademici di machine learning della Ben-Gurion University. ITC crea prodotti SaaS che "misurare il flusso di traffico, prevedere la congestione e mitigarla attraverso la manipolazione intelligente dei semafori, prima che inizino a formarsi ingorghi". Simile a TankU, utilizza i dati di telecamere standard (già installate in numerosi incroci) per ottenere dati sul traffico in tempo reale. I dati provenienti da migliaia di telecamere in una città vengono analizzati e parametri come il tipo di veicolo, la velocità, la direzione di movimento e la sequenza dei tipi di veicolo (camion vs. auto) vengono estratti attraverso l'applicazione di algoritmi di intelligenza artificiale proprietari. Le simulazioni prevedono il flusso del traffico e le potenziali situazioni di ingorgo fino a 30 minuti in anticipo. I semafori vengono regolati utilizzando questi risultati per regolare il flusso del traffico e prevenire gli ingorghi.

Figura 7: i dati di migliaia di telecamere vengono compilati da un VMS all'interno di un controllo del traffico cittadino ... [+] camera. I server ITC elaborano questi dati attraverso algoritmi di intelligenza artificiale addestrati per controllare i semafori

ITC

La formazione del sistema di intelligenza artificiale richiede un mese di dati visivi in una città tipica e prevede una combinazione di apprendimento supervisionato e non supervisionato. La soluzione di ITC è già implementata a Tel-Aviv (classificata al 25° posto tra le città più congestionate del mondo nel 2020), con migliaia di telecamere installate in centinaia di incroci controllati da semafori. Il sistema di ITC attualmente gestisce 75 veicoli, che dovrebbe continuare a crescere. L'azienda sta installando un capacità simile in Lussemburgo e sta iniziando le prove nelle principali città degli Stati Uniti. A livello globale, la sua soluzione gestisce 300,000 veicoli con sedi operative in Israele, USA, Brasile e Australia. Dvir Kenig, il CTO, è appassionato di risolvere questo problema: restituire alle persone tempo personale, ridurre i gas serra, migliorare la produttività generale e, soprattutto, ridurre gli incidenti negli incroci congestionati. Secondo il signor Kenig, "le nostre implementazioni dimostrano una riduzione del 30% degli ingorghi, riducendo il tempo di guida improduttivo, lo stress, il consumo di carburante e l'inquinamento".

PUBBLICITA

Robotica interna Prima fondata nel 2018 ed recentemente ha raccolto 18 milioni di dollari di finanziamenti. L'azienda, con sede vicino a Tel-Aviv, in Israele, sviluppa e vende soluzioni di droni autonomi per la sicurezza interna, il monitoraggio della sicurezza e della manutenzione. Il CEO e co-fondatore, Doron Ben-David, ha una significativa esperienza di robotica e aeronautica accumulata presso IAIIAI
(un importante appaltatore principale della difesa) e MAFAT (un'organizzazione di ricerca avanzata all'interno del Ministero della Difesa israeliano), che è simile alla DARPA negli Stati Uniti. I crescenti investimenti in edifici intelligenti e mercati della sicurezza commerciale alimentano la necessità di sistemi autonomi in grado di utilizzare la visione artificiale e altri input sensoriali in piccoli e grandi spazi commerciali interni (uffici, data center, magazzini e spazi commerciali). Indoor Robotics si rivolge a questo mercato utilizzando droni interni dotati di telecamere standard e sensori di portata termica e a infrarossi.

Figura 8: La flotta di droni autonomi di Indoor Robotics può alimentarsi da sola attraverso un montaggio a soffitto ... [+] piastrella di aggancio. Il Tando Control Bridge elabora i dati e controlla la traiettoria di volo

Robotica interna

Ofir Bar-Levav è il Chief Business Officer. Spiega che la mancanza del GPS ha impedito ai droni interni di localizzarsi all'interno degli edifici (in genere GPS negato o impreciso). Inoltre, mancavano soluzioni di aggancio e alimentazione convenienti ed efficienti. Indoor Robotics risolve questo problema con quattro telecamere montate su droni (in alto, in basso, a sinistra, a destra) e semplici sensori di portata che mappano accuratamente uno spazio interno e i suoi contenuti. I dati della telecamera (le telecamere forniscono dati di localizzazione e mappatura) e i sensori termici (montati anche sul drone) vengono analizzati da un sistema di intelligenza artificiale per rilevare potenziali problemi di sicurezza, protezione e manutenzione e mettere in guardia il cliente. I droni si alimentano da soli attraverso una "piastrella di aggancio" montata a soffitto, che consente di risparmiare spazio prezioso sul pavimento e consente la raccolta di dati durante la ricarica. I vantaggi finanziari dell'automazione di questi processi banali in cui il lavoro umano è complesso e costoso in termini di reclutamento, fidelizzazione e formazione sono evidenti. L'uso di droni aerei rispetto ai robot a terra presenta anche vantaggi significativi in termini di costi di capitale e operativi, migliore utilizzo dello spazio a terra, libertà di movimento senza incontrare ostacoli ed efficienza dell'acquisizione dei dati della telecamera. Secondo Bar-Levav, il TAM (Total Addressable Market) di Indoor Robotics nei sistemi di sicurezza intelligenti per interni ammonterà a 80 miliardi di dollari entro il 2026. Le posizioni chiave dei clienti oggi includono magazzini, data center e campus di uffici delle principali società globali.

PUBBLICITA

La visione artificiale sta rivoluzionando il gioco dell'autonomia: nell'automazione dei movimenti, nella sicurezza, nel monitoraggio degli edifici intelligenti, nel rilevamento delle frodi e nella gestione del traffico. La potenza dei semiconduttori e dell'IA sono potenti fattori abilitanti. Una volta che i computer padroneggiano questa incredibile modalità sensoriale in modo scalabile, le possibilità sono infinite.

Fonte: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/