Title: Sokmagos processzor architekt
1Sokmagos processzor architektúrák
2Áttekintés
- Sok magos processzorok elotérbe kerülése
- 10, 100, 1000, 10000 magos architektúrák
- Érzékelo processzortömbök
3Miért van szükség sok processzorra?
- Egy magos processzorok elérték a maximális
tolerálható fogyasztást - Sok magos processzorok kisebb teljesítményuek
- Sokmagos processzorok nem igényelnek gyártás
technológia váltást - Nanotechnológiás eszközök még messze vannak
4Technológia tartalék
- Mai 45nm technológia
- 1 milliárd tranzisztor
- 4 GHz órajel frekvencia
- Akár 1500 láb
- Pentium
- 4 GHz
- 50 GOps
- 130W
- Intel 8080 processor
- 1975
- 2MHz
- 0.5MOps
- A teljesítménye elég volt egy ZX Spektrum vagy
egy Commodore számítógéphez - 6 ezer tranzisztor
200,000 db 8080-as felteheto egyetlen chipre!!!
2000x nagyobb órajel érheto el ma!!!
Az egy magos Pentium ma mégis csak
100,000-szor nagyobb teljesítményu!!!
5Miért csökken az energia szükséglet a sok magos
rendszerekben?
- Rövidebb jelutak (processzor mellett ott a
memória) - Alacsonyabb órajel, alacsonyabb core feszültség
(fclockUcore) - Fogyasztás arányos a feszültség négyzetével
- Egy CMOS áramkör fogyasztása (Pw f3clock )
- Alacsonyabb órajel frekvenciára tervezett
eszközök energia igénye drasztikusan alacsonyabb - Nem kellenek extra erosíto fokozatok, amelyek a
nagyon gyors jelterjedést biztosítják - Órajel
- Adat
- Utasítás
- Trendek
- Energia növelés nélkül további teljesítmény
növelés - Drasztikus energiacsökkentés, tartva a jelenlegi
teljesítményt
6Sokmagos nagy fogyasztású processzorok
- Pentium család
- Duo
- quad
- Cell processor
- Terascale
7Cell MicroprocessorIBM-Sony-Toshiba
- 1 db Power PC processor
- 512kByte cash
- Max 6.4GFlops/25.6GOps
- Elágazások, ciklusok kezelése
- 8db processzor mag (SPE)
- 256kByte memory
- Max 6.4GFlops/25.6GOps
- Változó szóhossz (8-128 bit)
- SIMD
- Elágazások, ciklusok kezelése
- Kommunikáció
- 200 Gbyte/s belso
- Megosztott (shared) memória modell (DMA-n
keresztül) - 25 Gbyte/s külso
8Cell Microprocessorfobb paraméterek
- Teljes sebesség (3.2 GHz)
- 60 GFlops (single precision)
- 225 GOPs (8 bit)
- 2,5 MByte memória összesen
- 245 millió tranzisztor
- 235 mm2 szilícium
- 90nm technológia (65nm-es verzió már készül)
- 3.2GHz
- 85W (3.2 GHz)
- 2,6 GigaOps/W (3.2 GHz)
- 400 M fejlesztési költség
- Elsodleges alkalmazás Playstation 3
9Intel Terascale, 80 magos processzor
- 8x10 mag
- 1.28 TFolps
- 4GHz
- 275cm2 szilícium felület
- 65 nm technonlógia
- 400 KByte memória összesen
- 100 millió tranzisztor
10Intel Terascale processzor mag
- 2db float MAC
- 2KB adat memória
- 3KB program memória
- Regisztertömb
- Kommunikáció
- 5 bemenet-5 kimenet
- Non-blocking
- Teljes cross bar
- 32GB/s irányonként
11Teljesítmény analízis
- Órajel harmadik hatványával arányos a fogyasztás
- 11-181W
- Hatékonnyság
- 6-27 GFlops/W
12Sokmagos alacsony fogyasztású érzékelo processzor
tömbök
- SCAMP
- 16 ezer processzor
- 20 Gops, 200mW
- analóg processzorok
- Xenon
- 64 processzor
- 10 Gops, 20mW
- Digitális processzorok
13SCAMP-3 (2005)
- 0.35?m CMOS (AMS)
- 1-poly 3-metal
- 128x128 cells
- APE cell
- 50?m ? 50?m
- 20 MIPS
- max. 12?W/cell
- 100 GIPS/W
- max 200mW (total)
Chief Designer Piotr Dudek, Machester
University http//personalpages.manchester.ac.uk/s
taff/p.dudek/
14SCAMP Vision Chip
optical input
lens
SCAMP-2 chip
software instructions
processed images/ features/descriptors
15SCAMP Vision Chip
optical input
SIMD processor array
lens
SCAMP-2 chip
software instructions
processed images/ features/descriptors
16SCAMP Vision Chip
optical input
SIMD processor array
lens
software instructions
processed images/ features/descriptors
17Analogue Registers
N
analogue
E
A
B
C
D
H
K
P
Q
O
busses of four
W
adjacent AP
Es
S
i
i
i
i
i
i
i
i
i
analogue
O
A
B
C
D
H
K
P
Q
bus
i
i
PIX
IN
Comparator activity
-
flag
Photodetector
(PIXEL)
array
column
Input
Output
FLAG
output
(latch)
_
V
ref
Switched-current memory cells
18Transfer A?C
N
analogue
E
A
B
C
D
H
K
P
Q
O
busses of four
W
adjacent AP
Es
S
i
i
i
i
i
i
i
i
i
analogue
A
B
C
D
H
K
P
Q
O
bus
i
i
PIX
IN
Comparator activity
-
flag
Photodetector
(PIXEL)
array
column
Input
Output
FLAG
output
(latch)
_
V
ref
iA ? iC
19Add A?(DH)
N
analogue
E
A
B
C
D
H
K
P
Q
O
busses of four
W
adjacent AP
Es
S
i
i
i
i
i
i
i
i
i
analogue
O
A
B
C
D
H
K
P
Q
bus
i
i
PIX
IN
Comparator activity
-
flag
Photodetector
(PIXEL)
array
column
Input
Output
FLAG
output
(latch)
_
V
ref
iA ? (iD iH)
20Divide (AB)?D
N
analogue
E
A
B
C
D
H
K
P
Q
O
busses of four
W
adjacent AP
Es
S
i
i
i
i
i
i
i
i
i
analogue
O
A
B
C
D
H
K
P
Q
bus
i
i
PIX
IN
Comparator activity
-
flag
Photodetector
(PIXEL)
array
column
Input
Output
FLAG
output
(latch)
_
V
ref
21Conditional IF (AB)gt0
N
analogue
E
A
B
C
D
H
K
P
Q
O
busses of four
W
adjacent AP
Es
S
i
i
i
i
i
i
i
i
i
analogue
A
B
C
D
H
K
P
Q
O
bus
i
i
PIX
IN
Comparator activity
-
flag
Photodetector
(PIXEL)
array
Input
column
Output
FLAG
output
(latch)
_
V
ref
22Optical (Array-Parallel) Input
N
analogue
E
A
B
C
D
H
K
P
Q
O
busses of four
W
adjacent AP
Es
S
i
i
i
i
i
i
i
i
i
analogue
O
A
B
C
D
H
K
P
Q
bus
i
i
PIX
IN
Comparator activity
-
flag
Photodetector
(PIXEL)
array
Input
column
Output
FLAG
output
(latch)
_
V
ref
- Integration FPN below 0.4 (rms)
- Continuous Logarithmic compression
23Local Transfers
to North
N
analogue
E
A
B
C
D
H
K
P
Q
O
busses of four
W
adjacent AP
Es
S
i
i
i
i
i
i
i
i
i
analogue
O
A
B
C
D
H
K
P
Q
bus
i
i
PIX
IN
Comparator activity
-
flag
Photodetector
(PIXEL)
array
column
Input
Output
FLAG
output
(latch)
_
V
ref
from South
24APE Implementation (SCAMP-3)
- 111 transistors
- 67 control signals, 8 bias voltages
- 50 ?m x 50 ?m
- 0.35 ?m technology, 1P3M
- 1.25 MHz clock
- 12 ?W (max.)
- 512 MIPS/mm2,
- 104 GIPS/W
out news
cmp.
in
flag
registers
photo
25Output Bottleneck Issue
32 kB
100s frames/sec
128x128 image
Median Filter
Sobel Edge
26Output Bottleneck Issue
16 kB
100s frames/sec
128x128 image
Median Filter
Sobel Edge
2 kB
1000s frames/sec
Binary Map
27Output Bottleneck Issue
32 kB
100s frames/sec
128x128 image
Median Filter
Sobel Edge
2 kB
1000s frames/sec
Binary Map
n 15
1 Byte
gt104 frames/sec
Cell Count
28Példák SCAMP 3 muködésére
Aktív kontúr követés 30 kép/s
Élkiemelés 25 kép/s 1.2mW a teljes képfelvétel és
az élkiemelés (2000 óra egyetlen ceruza elemrol)
29Finom szemcsés topografikus proceszortömb kínálta
egyéb lehetoségek
- Beágyazott kép vagy egyéb érzékelo tömb
- Diffúzió (ellenállás háló)
- Globális logika, átlag
30On-chip Sensor Integration
- Advantages of near pixel processor arrangement
- Local sensor control (based on the illumination
distribution of a small neighborhood) ? Local
sensor adaptation - Ultra high speed in decision making
- 10,000, 20,000 visual decisions/sec
Global sensor control Local sensor control
312D ellenállás háló
- Elsosorban analóg processzor tömbök
- Adatok azonnal analóg formában vannak
- TeraOPS számítási teljesítmény, mW-okért
- Jól használható muvelet
32Globális logika, átlag
- Bináris képeken van-e fehér folt?
- Globális OR kapcsolat
- 5 ns
- Analóg memóriákkal globális átlag
GLOBAL OR
33Durva szemcsés érzékelo processzortömb Xenon
- 64x64 sensor-processor array
- Neighboring cells are directly interconnected
- Each cell is prepared to process 8x8 pixel array
(scalable) - SIMD
- 10GOPS, 20mW
- 500GOPS/W
- On-chip sensors
- Chief Designer
- Péter Földesy
- Eutecus Inc
- MTA-SZTAKI
34Cell Architecture
- Processors
- Arithmetic
- Morphologic
- Memory
- 8-64 bytes/pixel
- Pixel representation
- 1 bit/pixel (binary)
- 8 or 16 bits/pixel (grayscale)
- Pixel count
- from 1 to 64 pixels/cell
35Achievable Resolution and Speed
- ASIC implementation
- 0.18 micron technology, (on-chip sensor)
- pixel size 32x32 micron
- 256x256 array on 1cm2 silicon
- 1,024 parallel processors
- 100MHz
- 0.1 Tops (100 GOps)
- 90 nanometer technology (off-chip sensor)
- pixel size 12x12 micron
- 720x720 on 1cm2 silicon
- 32,400 parallel processors
- 120MHz
- 3.8 TOps (3,800 GOps)
- FPGA implementation (off-chip sensor)
- Virtex4 LX200
- 160x160 array
- 400 parallel processors
- 150MHz
36Energia hatékonyság
GOps/W 100 10 1 0.1
Érzékelo tömbprocesszorok
1 10 100 1000 10,000 db processzor
37Sok magos eszközök hátránya
- Nincsenek hozzá algoritmusok, szoftverek!
GOps/W 100 10 1 0.1
Konkrét cél alkalmazások (képfeldolgozás)
Érzékelo tömbprocesszorok
Sok magos processzorok FPGA-k
Nagy számítás igényu feladatok (játékok
grafikája, videó kódolás, meterológia)
Egy magos processzorok
Általános célú (PC, szerverek)
1 10 100 1000 10,000 db processzor
Következo 5 év kihívása ilyen algoritmusokat/szoft
vereket készíteni!!!
Playstation 3 500 (Cell microprocessor Linux
alatt)
38Köszönöm a figyelmet!
39Measurement results
Gradient
Original image
Maximum filter
2D membrane waves