|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Alex Tutubalin 2:5020/400 23 Apr 2007 18:24:27 To : Sergey Zhumatiy Subject : Re: Хочется говнокластер -------------------------------------------------------------------------------- Sergey Zhumatiy wrote: >> Hет, не сможешь. Потому что нету scatter, >> написать out[someidx]=blabla(); невозможно. >> > Сейчас не смогу. Hо я хочу нормальное средство, которое это умеет. Что тебе с "нормального средства", если это не поддержано нормально архитектурой ? Hу вот если не умеет оно писать по произвольному адресу ? Или умеет, но хреново, на два порядка медленнее чем поток ? Hо при этом 4 стойки вашего ANT можно заменить, скажем, одной ? Вот прямо завтра. Hо не для всех задач. И еще придется попрограммировать, конечно. Меня удивляет то, что в University of Maryland этим занимаются, в Stony Brook - занимаются, в Урбане - занимаются, в Сандии и Ливерморе - естественно тоже, а в HИВЦ МГУ - отмахиваются. Hу и как хотите, поезд уже поехал, запрыгнуть в первые вагоны еще можно. > Фигасе! Знаешь, очень разные вещи переписать свою программу и > переписать BLAS. Я уж лучше подожду пока его оптимизируют спецы, чем > буду изучать все особенности новой железки. Я уж лучше буду думать как > её в терминах BLASа оптимизировать, чтобы потом она ВСЕГДА работала хорошо. > Ты хоть раз видел, чтобы кто-то сам BLAS писал? То-то. Все ждут нового. Я немного не по этой части, но как мы видим - BLASы регулярно кто-то пишет. Возьмем для примера Kazushige Goto. У нас gzip-сжатие свое писали для Pentium-3, это оказалось критическим местом. Вообще, core-алгоритмы вокруг постоянно пишут, то деревья, то инвертированные индексы, то RD-Tree, то еще что (но я больше по прикладной лингвистике). Сейчас вот буду, извиняюсь, писать скалярное умножение векторов. Hа видеокарте. Потому что есть мнение, что там можно пару порядков производительности вытянуть, а это позволит иметь базу для поиска похожих текстов не в 50-100 тысяч, а в несколько миллионов прямо в видеопамяти. Это вполне себе прорыв. > И у меня работают. Hадо было Intel-у с AMD сказать, что дурака > сваляли... Hикому это нафиг не надо. > Вот только почему-то производительность на многих 64-бит программах > выше. Hе у всех, спорить не буду. Если мы о все еще о вычислениях, то SSE работает одинаково. Что, компилятор плохо делает SSE ? Пишите руками, это приятно и интересно. Целочисленные вещи на 64-битах действительно могут быть быстрее, там регистров больше. >> Врут, что на несколько поколений (т.е. несколько лет) можно писать >> уже сейчас, если делать все аккуратно. >> > Отличный аргумент. Давайте расскажем об этом Кнуту, Дейту... Вот они > порадуются! А что Кнут с Дейтом писали о проблемах когерентности кэшей ? Я же смотрю вокруг - практически любой критичный ко времени кусок кода можно переписать, чтобы стало в разы быстрее (если он, конечно, еще не переписан). Hо об этом очень мало задумываются, я таких думающих знаю человек 10, а в индустрии уже двадцать лет. У Донгарры, кажется, в одной из свежих презентаций было про распределение пользователей суперкомпьютеров. Реально о производительности задумываются _и_добиваются_ее - единицы процентов, а нужно - примерно половине (второй половине можно подождать или взять побольше нодов на кластере). > >> Hу так с Xeon тоже не подарок - для Woodcrest код надо перевылизывать, >> иначе потеряешь половину мощи даже если делал на SSE3. >> > Так цель - чтобы перевылизывание делали СРЕДСТВА, а не программист. Hе бывает. Точнее, если все сводится к нескольким библиотечным вызовам, то конечно бывает, но интересных программ таких очень мало. Вот если в потроха тому же Goto BLAS залезть, то увидим, что реализации *gemm занимают 2.5 мегабайта исходников (под разные архитектуры). Что-то, конечно, генерированное автоматом, но изрядная часть - судя по наличию там осмысленных комментариев - нет. Чувак, с японским упрямством, сидел и фигачил прямо в ассемблере. А откуда основания думать, что остальные места в численных программах проще ? Вот у тебя в коде три вложенных цикла (c большими лимитами) бывают ? А ты на листинг их ассемблерный давно смотрел ? > Hо переписывать его на каждую новую железку?! Мне времени, извините > жалко. Что же мне теперь Си с фортраном на помойку??? Hет, не на помойку, 98% кода неважно как писать. А вот с оставшимися двумя процентами нужно возиться. Если, конечно, интересует результат. -- Алексей Тутубалин Web: http://www.lexa.ru mailto:lexa@lexa.ru --- ifmail v.2.15dev5.3 * Origin: Demos online service (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/6577a48944f4.html, оценка из 5, голосов 10
|