/ / Moderne datasyn. Problemer og teknologier for datasyn. Computer Vision Programming i Python

Moderne datasyn. Oppgaver og teknologier for datasyn. Programmerer datasyn i Python

Hvordan lære en datamaskin å forstå hva som er avbildet påbilde eller fotografi? Det virker enkelt for oss, men for en datamaskin er det bare en matrise med nuller og ener, som du trenger for å hente ut viktig informasjon.

datamaskin syn

Hva er datasyn? Dette er datamaskinens evne til å "se"

Visjon er en viktig informasjonskilde forperson, ved hjelp av ham får vi, ifølge forskjellige kilder, fra 70 til 90% av all informasjon. Og selvfølgelig, hvis vi vil lage en smart bil, må vi implementere de samme ferdighetene i en datamaskin.

Datasyn oppgave kan væreer ikke klart formulert. Hva er "å se"? Det er å forstå hva som er hvor, bare ved å se. Dette er forskjellen mellom datasyn og menneskesyn. Visjon for oss er en kilde til kunnskap om verden, så vel som en kilde til metrisk informasjon - det vil si evnen til å forstå avstander og dimensjoner.

Semantisk kjerne i bildet

Ser vi på bildet, kan vi karakterisere det i henhold til en rekke funksjoner, så å si, trekke ut semantisk informasjon.

datasyn python

Hvis vi for eksempel ser på dette bildet, kan visi det er utendørs. At dette er en by, trafikk. At det er biler her. Fra konfigurasjonen av bygningen og fra hieroglyfene, kan vi gjette at dette er Sørøst-Asia. Fra portrettet av Mao Zedong forstår vi at dette er Beijing, og hvis noen har sett videosendingene eller har vært der selv, vil han kunne gjette at dette er den berømte Himmelske Freds plass.

Hva mer kan vi si om bildet ved å se påhenne? Vi kan velge objekter i bildet, si, det er mennesker der, her er nærmere - et gjerde. Her er paraplyene, her er bygningen, her er plakatene. Dette er eksempler på svært viktige objektklasser som det nå søkes etter.

Vi kan også trekke ut noen funksjoner eller attributter til objekter. For eksempel kan vi her fastslå at dette ikke er et portrett av noen vanlige kinesere, nemlig Mao Zedong.

Ved bilen kan du bestemme hva det eren bevegelig gjenstand, og den er stiv, det vil si at den ikke deformeres under bevegelse. Vi kan si om flagg at dette er gjenstander, de beveger seg også, men de er ikke stive, de blir konstant deformert. Og det er også vind på scenen, dette kan bestemmes av det flagrende flagget, og du kan til og med bestemme vindretningen, for eksempel blåser den fra venstre til høyre.

Verdien av avstander og lengder i datasyn

Metrisk informasjon er veldig viktig i vitenskapen om datasyn. Dette er alle slags avstander.For eksempel for en rover er dette spesielt viktig, fordi kommandoene fra jorden tar omtrent 20 minutter og svaret er det samme. Følgelig er tur-retur-forbindelsen 40 minutter. Og hvis vi tegner en bevegelsesplan i henhold til jordens kommandoer, så må dette tas i betraktning.

 datamaskinsyn pdf

Vellykket datamaskinsynteknologiintegrert i videospill. Fra videoen kan du bygge tredimensjonale modeller av objekter, mennesker og fra brukerbilder kan du gjenopprette tredimensjonale modeller av byer. Og så gå langs dem.

Datamaskin syn Er et ganske bredt område. Det er tett sammenvevd med forskjellige andre vitenskaper. Delvis datasyn fanger området for bildebehandling og fremhever noen ganger området med maskinens syn, historisk skjedde det.

Analyse, mønstergjenkjenning - måten å skape et høyere sinn på

La oss analysere disse konseptene hver for seg.

datamaskinsynmetoder

Bildebehandling er området algoritmer der input og output er et bilde, og vi gjør allerede noe med det.

Bildeanalyse er et område med datasyn som fokuserer på å jobbe med et todimensjonalt bilde og trekker konklusjoner av det.

Mønstergjenkjenning er abstrakten matematisk disiplin som gjenkjenner data som vektorer. Det vil si at det er en vektor ved inngangen, og vi må gjøre noe med den. Hvor denne vektoren kommer fra, er det ikke så viktig for oss å vite.

Datasyn var opprinneligrekonstruksjon av strukturen fra todimensjonale bilder. Nå har dette området blitt bredere, og det kan tolkes generelt som å ta beslutninger om fysiske objekter basert på bildet. Det vil si at dette er oppgaven med kunstig intelligens.

Parallelt med datasyn, i et helt annet felt, i geodesi, utviklet fotogrammetri - dette er måling av avstander mellom objekter ved bruk av todimensjonale bilder.

Roboter kan "se"

Og den siste er maskinsyn. Maskinsyn refererer til visjonen til roboter. Det vil si løsningen på noen produksjonsproblemer. Vi kan si det datasynet - dette er en stor vitenskap. Den kombinerer noen andre vitenskaper delvis. Og når datasynet mottar et spesifikt program, blir det til maskinsyn.

oppgaver for datasynssystemer

Feltet for datasyn har en massepraktiske applikasjoner. Det er forbundet med automatisering av produksjonen. På bedrifter blir det mer effektivt å erstatte manuelt arbeid med maskinarbeid. Maskinen blir ikke sliten, sover ikke, den har en uregelmessig arbeidsplan, den er klar til å jobbe 365 dager i året. Så ved bruk av maskinarbeid kan vi få et garantert resultat på et bestemt tidspunkt, og dette er ganske interessant. Alle oppgaver for datasynssystemer har en visuell applikasjon. Og det er ikke noe bedre enn å se resultatet rett fra bildet, bare på beregningsstadiet.

På dørstokken til verden av kunstig intelligens

Pluss at området er vanskelig!En betydelig del av hjernen er ansvarlig for synet, og det antas at hvis du lærer en datamaskin å "se", det vil si å bruke datamaskinsyn fullt ut, så er dette en av de fulle oppgavene til kunstig intelligens. Hvis vi kan løse problemet på menneskelig nivå, vil vi mest sannsynlig løse AI-problemet samtidig. Noe som er veldig bra! Eller ikke veldig bra hvis du ser på Terminator 2.

Hvorfor er syn vanskelig? Fordi bildet av de samme objektene kan variere sterkt avhengig av eksterne faktorer. Objekter ser forskjellige ut avhengig av observasjonspunktene.

For eksempel den samme figuren hentet fra forskjelligevinkler. Og mest interessant, en figur kan ha ett øye, to øyne eller ett og et halvt. Og avhengig av konteksten (hvis dette er et bilde av en person i en T-skjorte med trukkede øyne), kan det være mer enn to øyne.

Datamaskinen forstår ikke ennå, men den "ser" allerede

En annen faktor som skaper vanskeligheter erbelysning. Den samme scenen med ulik belysning vil se annerledes ut. Objektenes størrelse kan variere. Videre gjenstander av hvilken som helst klasse. Vel, hvordan kan du si om en person at høyden hans er 2 meter? Aldri. En persons høyde kan være 2,3 m og 80 cm. Liksom gjenstander av andre typer er dette likevel gjenstander i samme klasse.

eksempler på datasyn

Spesielt levende gjenstander gjennomgår mestforskjellige deformasjoner. Hår av mennesker, idrettsutøvere, dyr. Se på bilder av løpende hester, det er rett og slett umulig å bestemme hva som skjer med manen og halen. Hva med overlappingen av objekter i bildet? Hvis du skyver et slikt bilde inn i en datamaskin, vil selv den kraftigste maskinen ha vanskelig for å gi den riktige løsningen.

datasynsprogram

Den neste typen er forkledning.Noen gjenstander, dyr forkled seg som miljø, og ganske dyktig. Og flekkene er de samme og fargene. Likevel ser vi dem, men ikke alltid langtfra.

Et annet problem er bevegelse. Objekter i bevegelse gjennomgår ufattelige deformasjoner.

Mange objekter er svært varierende. Her, for eksempel, på de to bildene nedenfor er det gjenstander av typen "stol".

programmering av datasyn i python

Og du kan sitte på dette.Men å lære en bil at så forskjellige ting i form, farge, materiale alle er gjenstander for "stolen" - det er veldig vanskelig. Dette er oppgaven. Å integrere datasynmetoder er å lære en maskin å forstå, analysere, anta.

 forskjeller mellom datasyn og menneskesyn

Integrering av datasyn i forskjellige plattformer

Datasynet begynte å trenge gjennom massene til og medi 2001, da de første ansiktsdetektorene ble opprettet. Dette ble gjort av to forfattere: Viola, Jones. Det var den første raske og rimelig pålitelige algoritmen som demonstrerte kraften til maskinlæringsmetoder.

Nå har datasyn en ganske ny praktisk applikasjon - ansiktsgjenkjenning.

datamaskin synsfelt

Men å kjenne igjen en person, som vist ifilmer - i vilkårlige vinkler, med forskjellige lysforhold - er det umulig. Men for å løse problemet, enten det er en eller forskjellige personer med forskjellig belysning eller i forskjellige posisjoner, lignende, som på fotografiet i passet, kan du med høy grad av selvtillit.

Kravene til passfotografier skyldes i stor grad den spesielle egenskapen til algoritmer for ansiktsgjenkjenning.

For eksempel, hvis du har et biometrisk pass, kan du på noen moderne flyplasser bruke det automatiske passkontrollsystemet.

Det uløste problemet med datasyn er evnen til å gjenkjenne vilkårlig tekst

Noen kan ha brukt systemetOCR. En av disse er Fine Reader, som er et veldig populært system på Runet. Det er mange skjemaer der du trenger å fylle ut data, de er perfekt skannet, informasjonen gjenkjennes veldig godt av systemet. Men med fri tekst på bildet er situasjonen mye verre. Denne oppgaven forblir fortsatt uløst.

Spill som involverer datasyn, bevegelsesfangst

Et eget stort område er skapelse3D-modeller og motion capture (som er ganske vellykket implementert i dataspill). Det første programmet som bruker datasyn er et system for interaksjon med en datamaskin ved hjelp av bevegelser. Under opprettelsen ble det oppdaget mange ting.

Algoritmen i seg selv er ganske enkel, men for dettilpasning kreves for å lage en generator av kunstige bilder av mennesker for å få en million bilder. Superdatamaskinen brukte dem til å velge parametrene til algoritmen, ifølge hvilken den nå fungerer på den beste måten.

Det er en million bilder og en ukes tellingsuperdatamaskin tid tillatt å lage en algoritme som bruker 12% av kraften til en prosessor og lar deg oppfatte en persons stilling i sanntid. Dette er Microsoft Kinect-systemet (2010).

dataprogram for visjon

Ved å søke etter bilder etter innhold kan du laste opp et bilde til systemet, og som et resultat vil det returnere alle bilder med samme innhold og tatt fra samme vinkel.

Eksempler på datasyn: 3D- og 2D-kart er nå laget med den. Kart for bilnavigatorer oppdateres jevnlig i henhold til dataene fra DVR-ene.

Det er en database med milliarder bilder frageotags. Ved å laste opp et bilde til denne databasen kan du bestemme hvor det er tatt og til og med fra hvilken vinkel. Naturligvis, forutsatt at stedet er populært nok til at turister på en gang har besøkt det og tatt en rekke bilder av området.

Roboter er overalt

Robotikk er overalt i dag, uten detaldri. Nå er det biler der det er spesielle kameraer som gjenkjenner fotgjengere og veiskilt for å sende kommandoer til sjåføren (på en måte et dataprogram for syn som hjelper bilentusiasten). Og det er helautomatiske robotbiler der ute, men de kan ikke stole på et videokamerasystem alene uten å bruke mye tilleggsinformasjon.

Et moderne kamera er en analog av et pinhole-kamera

La oss snakke om digital bildebehandling.Moderne digitale kameraer er designet som et pinhole-kamera. Bare i stedet for et hull som en lysstråle trenger gjennom og projiserer omrisset av en gjenstand på bakveggen til kameraet, har vi et spesielt optisk system som kalles en linse. Dens oppgave er å samle en stor lysstråle og transformere den på en slik måte at alle strålene passerer gjennom ett virtuelt punkt for å oppnå en projeksjon og danne et bilde på en film eller matrise.

datamaskin syn

Moderne digitale kameraer (matrise)består av individuelle elementer - piksler. Hver piksel lar deg måle energien til lyset som faller på denne pikslen totalt, og sende ut et tall ved utgangen. Derfor, i et digitalt kamera, i stedet for et bilde, får vi et sett med målinger av lysstyrken som har falt i en egen piksel - datamaskinens synsfelt. Derfor, når vi forstørrer bildet, ser vi ikke glatte linjer og klare konturer, men et rutenett av firkanter malt i forskjellige toner - piksler.

Nedenfor er verdens første digitale bilde.

datamaskin syn

Men hva mangler i dette bildet? Farge. Hva er farge?

Psykologisk oppfatning av farge

Farge er det vi ser.Fargen på et objekt, det samme objektet for en person og en katt vil være forskjellig. Siden vi (mennesker) og dyr, er det optiske systemet - syn, annerledes. Derfor er farge en psykologisk egenskap for vår visjon som oppstår når vi observerer gjenstander og lys. Ikke en fysisk egenskap til et objekt og lys. Farge er resultatet av samspillet mellom komponentene i lyset, scenen og vårt visuelle system.

datasynteknologi

Computer Vision Programming i Python med biblioteker

Hvis du bestemmer deg for å studere for alvordatasyn, er det verdt å umiddelbart forberede seg på en rekke vanskeligheter, denne vitenskapen er ikke den enkleste og skjuler en rekke fallgruver. Men Computer Vision Programming in Python av Jan Erik Solem er en bok som setter alt på en enklest mulig måte. Her vil du bli kjent med metoder for å gjenkjenne forskjellige objekter i 3D, lære å jobbe med stereobilder, virtual reality og mange andre datasynsapplikasjoner. Det er nok eksempler i Python i boka. Men forklaringene presenteres så å si på en generalisert måte for ikke å overbelaste for vitenskapelig og vanskelig informasjon. Arbeidet passer for studenter, bare amatører og entusiaster. Du kan laste ned denne boken og andre om datasyn (pdf-format) på nettet.

For øyeblikket er det et åpent bibliotekdatasynsalgoritmer, samt bildebehandling og numeriske algoritmer for OpenCV. Den er implementert i de fleste moderne programmeringsspråk og er åpen kildekode. Hvis vi snakker om datasyn, bruker Python som programmeringsspråk, har det også støtte fra dette biblioteket, i tillegg er det i stadig utvikling og har et stort fellesskap.

Microsoft gir sinApi-tjenester som kan trene nevrale nettverk til å jobbe med ansiktsbilder. Det er også mulig å bruke datasyn, og bruke Python som programmeringsspråk.