Лекция 09: Параллельные вычисления (2)




НазваниеЛекция 09: Параллельные вычисления (2)
Дата конвертации06.02.2013
Размер445 b.
ТипЛекция


АРХИТЕКТУРА СОВРЕМЕННЫХ ЭВМ Лекция 09: Параллельные вычисления (2)

  • ВМиК МГУ им. М.В. Ломоносова, Кафедра АСВК

  • Чл.-корр., профессор, д.ф.-м.н. Королёв Л.Н.,

  • Ассистент Волканов Д.Ю.


План лекции

  • Типовые схемы коммуникации процессоров

  • Примеры параллельных систем



полный граф (completely-connected graph or clique) – система, в которой между любой парой процессоров существует прямая линия связи

    • полный граф (completely-connected graph or clique) – система, в которой между любой парой процессоров существует прямая линия связи
    • линейка (linear array or farm) – система, в которой все процессоры перенумерованы по порядку и каждый процессор, кроме первого и последнего, имеет линии связи только с двумя соседними


    • кольцо (ring) – данная топология получается из линейки процессоров соединением первого и последнего процессоров линейки
    • звезда (star) – система, в которой все процессоры имеют линии связи с некоторым управляющим процессором


    • решетка (mesh) – система, в которой граф линий связи образует прямоугольную сетку
    • гиперкуб (hypercube) – данная топология представляет частный случай структуры решетки, когда по каждой размерности сетки имеется только два процессора.


диаметр – максимальное расстояние между двумя процессорами сети; характеризует максимально-необходимое время для передачи данных между процессорами,

    • диаметр – максимальное расстояние между двумя процессорами сети; характеризует максимально-необходимое время для передачи данных между процессорами,
    • связность (connectivity) – минимальное количество дуг, которое надо удалить для разделения сети передачи данных на две несвязные области,
    • ширина бинарного деления (bisection width) – минимальное количество дуг, которое надо удалить для разделения сети передачи данных на две несвязные области одинакового размера,
    • стоимость – общее количество линий передачи данных в многопроцессорной вычислительной системе.




(Accelerated Strategic Computing Initiative)

  • (Accelerated Strategic Computing Initiative)

    • 1996, система ASCI Red, построенная Intel, производительность 1 TFlops,
    • 1999, ASCI Blue Pacific от IBM и ASCI Blue Mountain от SGI, производительность 3 TFlops,
    • 2000, ASCI White с пиковой производительностью свыше 12 TFlops (реально показанная производительность на тесте LINPACK составила на тот момент 4938 GFlops)


Система с 512-ю симметричными мультипроцессорными (SMP) узлами, каждый узел имеет 16 процессоров

  • Система с 512-ю симметричными мультипроцессорными (SMP) узлами, каждый узел имеет 16 процессоров

  • Процессоры IBM RS/6000 POWER3 с 64-х разрядной архитектурой и конвейерной организацией с 2 устройствами по обработке команд с плавающей запятой и 3 устройствами по обработке целочисленных команд, они способны выполнять до 8 команд за тактовый цикл и до 4 операций с плавающей запятой за такт, тактовая частота 375 MHz

  • Оперативная память системы – 4 TB,

  • Емкость дискового пространства 180 TB



Операционная система представляет собой версию UNIX – IBM AIX,

    • Операционная система представляет собой версию UNIX – IBM AIX,
    • Программное обеспечение ASCI White поддерживает смешанную модель программирования – передача сообщений между узлами и многопотоковость внутри SMP-узла,
    • Поддерживаются библиотеки MPI, OpenMP, потоки POSIX и транслятор директив IBM, имеется параллельный отладчик IBM.


Первый вариант системы представлен в 2004 г. и сразу занял 1 позицию в списке Top500

  • Первый вариант системы представлен в 2004 г. и сразу занял 1 позицию в списке Top500

  • Расширенный вариант суперкомпьютера (ноябрь 2007 г.) по прежнему на 1 месте в перечне наиболее быстродействующих вычислительных систем:

      • 212992 двухядерных 32-битных процессоров PowerPC 440 0.7 GHz,
      • пиковая производительность около 600 TFlops, производительность на тесте LINPACK – 478 TFlops




RoadRunner является наиболее быстродействующей вычислительной системой (2008) и первым в мире суперкомпьютером, производительность которого превысила рубеж 1 PFlops (1000 TFlops):

    • RoadRunner является наиболее быстродействующей вычислительной системой (2008) и первым в мире суперкомпьютером, производительность которого превысила рубеж 1 PFlops (1000 TFlops):


Общее количество узлов 276 (552 процессора). Каждый узел представляет собой:

  • Общее количество узлов 276 (552 процессора). Каждый узел представляет собой:

      • 2 процессора IBM PowerPC 970 с тактовой частотой 2.2 GHz, кэш L1 96 Kb и кэш L2 512 Kb,
      • 4 Gb оперативной памяти на узел,
      • 40 Gb жесткий диск IDE,
    • Операционная система SuSe Linux Enterprise Server версии 8 для платформ x86 и PowerPC,
    • Пиковая производительность 4857.6 GFlops и максимально показанная на тесте LINPACK 3052 GFlops.




Общее количество двухпроцессорных узлов 625 (1250 четырехядерных процессоров Intel Xeon E5472 3.0 ГГц),

    • Общее количество двухпроцессорных узлов 625 (1250 четырехядерных процессоров Intel Xeon E5472 3.0 ГГц),


В настоящее время под кластером типа “Beowulf” понимается вычислительная система, состоящая из одного серверного узла и одного или более клиентских узлов, соединенных при помощи сети Ethernet или некоторой другой сети передачи данных. Это система, построенная из готовых серийно выпускающихся промышленных компонент, на которых может работать ОС Linux/Windows, стандартных адаптеров Ethernet и коммутаторов.

  • В настоящее время под кластером типа “Beowulf” понимается вычислительная система, состоящая из одного серверного узла и одного или более клиентских узлов, соединенных при помощи сети Ethernet или некоторой другой сети передачи данных. Это система, построенная из готовых серийно выпускающихся промышленных компонент, на которых может работать ОС Linux/Windows, стандартных адаптеров Ethernet и коммутаторов.



1994, научно-космический центр NASA Goddard Space Flight Center, руководители проекта - Томас Стерлинг и Дон Бекер:

  • 1994, научно-космический центр NASA Goddard Space Flight Center, руководители проекта - Томас Стерлинг и Дон Бекер:

      • 16 компьютеров на базе процессоров 486DX4, тактовая частота 100 MHz,
      • 16 Mb оперативной памяти на каждом узле,
      • три параллельно работающих 10Mbit/s сетевых адаптера,
      • операционная система Linux, компилятор GNU, поддержка параллельных программ на основе MPI.


1998, Система Avalon, Лос-Аламосская национальная лаборатория (США) , руководители проекта - астрофизик Майкл Уоррен:

    • 1998, Система Avalon, Лос-Аламосская национальная лаборатория (США) , руководители проекта - астрофизик Майкл Уоррен:
      • 68 процессоров (позднее расширен до 140) Alpha 21164A с тактовой частотой 533 MHz,
      • 256 Mb RAM, 3 Gb HDD, Fast Ethernet card на каждом узле,
      • операционная система Linux,
      • пиковая производительность в 149 GFlops, производительность на тесте LINPACK 48.6 GFlops.


2000, Корнельский университет (США), результат совместной работы университета и Advanced Cluster Computing Consortium, образованного компаниями Dell, Intel, Microsoft, Giganet:

    • 2000, Корнельский университет (США), результат совместной работы университета и Advanced Cluster Computing Consortium, образованного компаниями Dell, Intel, Microsoft, Giganet:
      • 64 четырехпроцессорных сервера Dell PowerEdge 6350 на базе Intel Pentium III Xeon 500 MHz, 4 GB RAM, 54 GB HDD, 100 Mbit Ethernet card,
      • 1 восьмипроцессорный сервер Dell PowerEdge 6350 на базе Intel Pentium III Xeon 550 MHz, 8 GB RAM, 36 GB HDD, 100 Mbit Ethernet card,
      • операционная система Microsoft Windows NT 4.0 Server Enterprise Edition,
      • пиковая производительность AC3 Velocity 122 GFlops, производительность на тесте LINPACK 47 GFlops.


2000, Национальный центр суперкомпьютерных технологий (National Center for Supercomputing Applications):

    • 2000, Национальный центр суперкомпьютерных технологий (National Center for Supercomputing Applications):
      • 38 двухпроцессорных систем Hewlett-Packard Kayak XU PC workstation на базе Intel Pentium III Xeon 550 MHz, 1 Gb RAM, 7.5 Gb HDD, 100 Mbit Ethernet card,
      • операционная система ОС Microsoft Windows,
      • пиковая производительностью в 140 GFlops и производительность на тесте LINPACK 62 GFlops.


2004, Ливерморская Национальная Лаборатория (США):

    • 2004, Ливерморская Национальная Лаборатория (США):
      • 1024 сервера, в каждом по 4 процессора Intel Itanium 1.4 GHz,
      • 8 Gb оперативной памяти на сервер,
      • общая емкость дисковой системы 150 Tb,
      • операционная система CHAOS 2.0,
      • пиковая производительность 22938 GFlops и максимально показанная на тесте LINPACK 19940 GFlops (5-ая позиция списка Top500 ).




2007,

    • 2007,
      • 64 вычислительных сервера, каждый из которых имеет 2 двухядерных процессора Intel Core Duo 2,66 GHz, 4 GB RAM, 100 GB HDD, 1 Gbit Ethernet card,
      • пиковая производительность
      • ~3 Tflops
      • операционная система
      • Microsoft Windows.














Оценки предельных возможностей использования кремниевой элементной базы при построении высокопроизводительных систем



Спасибо за внимание!



Похожие:

Лекция 09: Параллельные вычисления (2) iconВведение в параллельные вычисления. Технология программирования mpi (день шестой)
Введение в параллельные вычисления. Технология программирования mpi (день шестой) Антонов Александр Сергеевич, к ф м н., н с лаборатории...
Лекция 09: Параллельные вычисления (2) iconВведение в параллельные вычисления. Технология программирования mpi (день первый)
Введение в параллельные вычисления. Технология программирования mpi (день первый) Антонов Александр Сергеевич, к ф м н., н с лаборатории...
Лекция 09: Параллельные вычисления (2) iconВведение в параллельные вычисления. Технология программирования mpi (день пятый)
Введение в параллельные вычисления. Технология программирования mpi (день пятый) Антонов Александр Сергеевич, к ф м н., н с лаборатории...
Лекция 09: Параллельные вычисления (2) iconПрименение кластерных вычислений в сумгу параллельные вычисления
Параллельные программы могут физически исполняться либо последовательно на единственном процессоре (псевдопараллелизм, «многозадачная»...
Лекция 09: Параллельные вычисления (2) iconWww parallel ru Параллельные вычисления Архитектура компьютеров
Московский государственный университет им. М. В. Ломоносова Институт вычислительной математики ран
Лекция 09: Параллельные вычисления (2) iconЛекция Графематический анализ. Лингвистическая разметка. Параллельные корпусы. В. П. Захаров Санкт-Петербургский государственный университет Графематический анализ (1)
Лекция Графематический анализ. Лингвистическая разметка. Параллельные корпусы
Лекция 09: Параллельные вычисления (2) iconПараллельные вычисления метод распараллеливания
Процессно-ориентированная модель множество параллельно выполняющихся процессов. Процессы взаимодействуют путем посылки сообщений...
Лекция 09: Параллельные вычисления (2) iconАрхитектура современных ЭВМ параллельные вычисления Уровни параллелизма
Три потока. Пустые квадраты означают простой в ожидании данных из памяти (d) Мелкомодульная многопоточность
Лекция 09: Параллельные вычисления (2) iconАссоциативные параллельные вычисления а. Ш. Непомнящая
Контекстно-адресуемая (ассоциативная) память, вертикальная обработка информации, ассоциативный параллельный процессор (апп), система...
Лекция 09: Параллельные вычисления (2) iconОдно из первых устройств, облегчавших вычисления. Вычисления производились перемещением костей или камешков в углублениях досок

Разместите кнопку на своём сайте:
dok.opredelim.com


База данных защищена авторским правом ©dok.opredelim.com 2015
обратиться к администрации
dok.opredelim.com
Главная страница