C++ och dess framtid att programmera minnessäkert - Hur går utvecklingen? - Programmering och digitalt skapande

2025-03-08 15:38

Medlem

Plats: Norden
Registrerad: Okt 2008

●

Tips om någon vill skriva en komplett webserver i C++. Kombinera något unikt (exempelvis en uuid) samt index för listan. Den här kombinationen används för användare. uuid är mest för säkerhet, index för att snabbt hitta användaren.

man kan förallokera, låt säga att en gräns sätts till 10 000 samtida användare

Den lösningen är fantastiskt snabb och det kommer dröja länge innan servern slår i taket och då handlar det troligen om något helt annat än att max antal användare nåtts.

Rapportera Redigera

Citera flera Citera

2025-03-08 16:41

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av KWARF:

Som din lista visar på så jämför du ju lite äpplen och päron i ditt benchmark när boost tvingas till "traditionell" trådning och Go arbetar med sina lightweight goroutines.

En mer rättvis jämförelse vore att använda async coroutines även i Boost, som det här exemplet (som jag saxade och anpassade från github.com/evilenzo/coroutine-server då jag själv har minimal Boost-erfarenhet):

Klicka för mer information

#include <iostream>
#include <thread>

#include <boost/asio/as_tuple.hpp>
#include <boost/asio/co_spawn.hpp>
#include <boost/asio/detached.hpp>
#include <boost/asio/use_awaitable.hpp>
#include <boost/beast/core.hpp>
#include <boost/beast/http.hpp>

namespace asio = boost::asio;
namespace beast = boost::beast;
namespace http = beast::http;
namespace ip = asio::ip;
using tcp = ip::tcp;

asio::awaitable<void> handle_request(beast::tcp_stream &stream,
                                     http::request<http::string_body> request) {
    http::response<http::string_body> response(http::status::ok, request.version());
    response.set(http::field::content_type, "text/html");
    response.body() = "<h1>Hello, World!</h1>";
    response.prepare_payload();
    co_await http::async_write(stream, response, asio::use_awaitable);
}

asio::awaitable<void> poll_socket(tcp::socket socket) {
  http::request<http::string_body> request;
  beast::tcp_stream stream{std::move(socket)};
  beast::flat_buffer buffer;

  for (;;) {
    auto [ec, size] = co_await http::async_read(
        stream, buffer, request, asio::as_tuple(asio::use_awaitable));
    if (ec) {
      if (ec == http::error::end_of_stream) {
        break;
      }
      std::cerr << ec.message() << std::endl;
      break;
    }

    bool close{request.need_eof()};

    co_await handle_request(stream, std::move(request));

    if (close) {
      break;
    }

    request = {};
  }

  stream.socket().shutdown(tcp::socket::shutdown_send);
}

asio::awaitable<void> poll_connections(asio::ip::address address,
                                       uint16_t port) {
  auto executor = co_await asio::this_coro::executor;

  tcp::endpoint endpoint{address, port};

  tcp::acceptor acceptor{executor};
  acceptor.open(endpoint.protocol());
  acceptor.bind(endpoint);
  acceptor.listen();

  tcp::socket socket{executor};

  for (;;) {
    co_await acceptor.async_accept(socket, asio::use_awaitable);
    asio::co_spawn(executor, poll_socket(std::move(socket)), asio::detached);
    socket = tcp::socket{executor};
  }
}

int main(int argc, char *argv[]) {
  const int threads = std::thread::hardware_concurrency();
  asio::io_context ioc{threads};
  asio::co_spawn(ioc.get_executor(),
                 poll_connections(ip::make_address("0.0.0.0"), 8082),
                 asio::detached);

  std::vector<std::thread> v(threads - 1);
  for (int i = 1; i < threads; i++) {
    v.emplace_back([&ioc] { ioc.run(); });
  }

  ioc.run();
}

Visa mer

Jag får då följande resultat på min Macbook Air:

Ditt Go-exempel	160.82k/s
Ditt Boost-exempel	2.96k/s
async Boost	213.41k/s

Med det sagt skulle även jag välja Go före C++ för webbservrar/applikationer, men det kliade lite för mycket i fingrarna när jag läste att C++ skulle prestera så långsamt. 😅

Gå till inlägget

Danke! Var exakt något likt det där i alla fall jag ville se från @klk.

Och som jag skrev ovan: var min första nätverks-server skriven i boost så förväntande mig inte att den skulle prestera på topp. Minskar man antalet trådar till 2-3 stycken ökar prestanda i den en del, då håller den sig på 1/3 till 1/4-del av async versionen på native Linux 24.04 (som med den versionen presterar långt bättre än MacOS...).

Men om man verkligen ska jämföra äpplen och äpplen finns fortfarande relevanta och andra lite mindre relevanta skillnader.

1. Om du tittar på "Transfers/sec" i wrk kommer du notera att Go-versionen skickar väsentligt mycket mer data trots att det är exakt samma HTML-body. Orsaken är att den alltid lägger till header "Date: " är för att det är ett hårt krav enligt RFC9110.

När det är så lite data i body blir en sådan skillnad högst relevant. Får detta när boost-async versionen och Go versionen producerar exakt samma svar

Go: 94.8k requests/sec, 12.48 MB/s
C++: 84.3k requests/sec, 11.09 MB/s

om man kör med 100k samtida användare.

2. Vilket tar oss till det större problemet med boost/async versionen. Async-boost versionen core-dumpar (testade både på x86 Ubuntu 24.04 och ARM64 Ubuntu 24.04 med exakt samma resultat) när testet avslutas om man har fler än 1017 samtida användare. Detta kräver C++20 (som ingen kompilator än fullt ut implementerar) och väldigt ny version av boost, uppenbarligen inte helt stabilt än.

Den versionen jag postade må använda "gammal" teknik (går att kompilera med C++14), men den kraschade i alla fall inte.

3. Ändå helcoolt att stackless co-routines can ge sådan boost i prestanda. Men just då de är stackless så är det egentligen inte en riktigt "äpplen mot äppen" ställd mot Go (som har beteende motsvarande C++ stackful coroutines). Det finns en del extra begränsningar med stackless coroutines, en är att det är rätt svårt att debugga (precis som await/async i C# visade sig vara horribelt att debugga).

Men framförallt har man begränsningar i anrop av potentiellt blockande funktioner, det går inte att schemalägga en coroutine på en annan OS-tråd, eventuella exceptions som når till "toppen" av en coroutine bara försvinner. Go har ingen av de begränsningarna vilket gör det klart enklare att jobba med då det fungerar "som man är van med".

Här är modifikationen som gör att content blir samma

Klicka för mer information

#include <iostream>
#include <thread>

#include <boost/asio/as_tuple.hpp>
#include <boost/asio/co_spawn.hpp>
#include <boost/asio/detached.hpp>
#include <boost/asio/use_awaitable.hpp>
#include <boost/beast/core.hpp>
#include <boost/beast/http.hpp>

namespace asio = boost::asio;
namespace beast = boost::beast;
namespace http = beast::http;
namespace ip = asio::ip;
using tcp = ip::tcp;

std::string get_http_date() {
    auto now = std::chrono::system_clock::now();
    auto time = std::chrono::system_clock::to_time_t(now);

    std::ostringstream oss;
    oss << std::put_time(std::gmtime(&time), "%a, %d %b %Y %H:%M:%S GMT");
    return oss.str();
}

asio::awaitable<void> handle_request(beast::tcp_stream &stream,
                                     http::request<http::string_body> request) {
  http::response<http::string_body> response(http::status::ok, request.version());
    // Add the Date header (RFC 7231 format)
    response.set(http::field::date, get_http_date());
    response.set(http::field::content_type, "text/html; charset=utf-8");
    response.body() = "<h1>Hello, World!</h1>";
    response.prepare_payload();
    co_await http::async_write(stream, response, asio::use_awaitable);
}

asio::awaitable<void> poll_socket(tcp::socket socket) {
  http::request<http::string_body> request;
  beast::tcp_stream stream{std::move(socket)};
  beast::flat_buffer buffer;

  for (;;) {
    auto [ec, size] = co_await http::async_read(
        stream, buffer, request, asio::as_tuple(asio::use_awaitable));
    if (ec) {
      if (ec == http::error::end_of_stream) {
        break;
      }
      std::cerr << ec.message() << std::endl;
      break;
    }

    bool close{request.need_eof()};

    co_await handle_request(stream, std::move(request));

    if (close) {
      break;
    }

    request = {};
  }

  stream.socket().shutdown(tcp::socket::shutdown_send);
}

asio::awaitable<void> poll_connections(asio::ip::address address,
                                       uint16_t port) {
  auto executor = co_await asio::this_coro::executor;

  tcp::endpoint endpoint{address, port};

  tcp::acceptor acceptor{executor};
  acceptor.open(endpoint.protocol());
  acceptor.bind(endpoint);
  acceptor.listen();

  tcp::socket socket{executor};

  for (;;) {
    co_await acceptor.async_accept(socket, asio::use_awaitable);
    asio::co_spawn(executor, poll_socket(std::move(socket)), asio::detached);
    socket = tcp::socket{executor};
  }
}

int main(int argc, char *argv[]) {
  const int threads = std::thread::hardware_concurrency();
  asio::io_context ioc{threads};
  asio::co_spawn(ioc.get_executor(),
                 poll_connections(ip::make_address("0.0.0.0"), 8082),
                 asio::detached);

  std::vector<std::thread> v(threads - 1);
  for (int i = 1; i < threads; i++) {
    v.emplace_back([&ioc] { ioc.run(); });
  }

  ioc.run();
}

Visa mer

Och än en gång, uppskattar verkligen exemplet! Kul att se coroutines i action (hade aldrig använt dem innan, men hört en hel del om jobbet bakom från bl.a. CppCast postcast:en).

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (2)

2025-03-08 17:04

Permalänk

klk

Medlem

Plats: Norden
Registrerad: Okt 2008

●

Skrivet av Yoshman:

Danke! Var exakt något likt det där i alla fall jag ville se från @klk.

Gå till inlägget

Jag kan inte Go, har det inte på datorerna så hade inte kunnat hjälpa till med att jämföra, däremot hade jag nog kunnat se om boost lösningen var optimalt gjord

MEN, hade jag skrivit samma tror jag det hade negligerats.

Senast redigerat 2025-03-08 17:23

Rapportera Redigera

Citera flera Citera

2025-03-08 17:26

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av klk:

Jag kan inte Go, har det inte på datorerna så hade inte kunnat hjälpa till med att jämföra, däremot hade jag nog kunnat se om boost lösningen var optimalt gjord

MEN, hade jag skrivit samma tror jag det hade hade negligerats.

Gå till inlägget

Frågan var ju efter en bättre presterande C++ version, inte Go version. Misstänkte att den C++/boost jag fick ihop inte på något sätt var optimal, men den gjorde i alla fall rätt sak.

Om du vill testa att göra en "stateful HTTP-server" vore det faktiskt kul att se hur man gör det inom ramen för stackless coroutines. Misstänker att det blir klart med komplicerat jämfört med en stateful Go version (en sådan är rätt simpel).

Man kan simulera ett gäng användare och någon "request data" t.ex. så här med WRK (peka ut skript med -s users.lua)

-- users.lua
math.randomseed(os.time())  -- Seed random generator

request = function()
    local user_id = math.random(1, 10000)
    local arg_val = math.random(1, 20)
    local url = "http://localhost/api?user=" .. user_id .. "&arg=" .. arg_val
    return wrk.format("GET", url)
end

Man får då GET-anrop på formen

http://localhost/api?user=17&arg=42
http://localhost/api?user=66&arg=2
etc.
En superenkel stateful server skulle bara kunna summera arg-värdet per användare och skicka tillbaka det som svar: "user=17\nsum=3466".

Lösning med global tabell + lås fungerar, men lär inte skala speciellt bra. Kanske finns något riktigt spännande trick ihop med C++20 coroutines?

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (3)

2025-03-09 15:40

Permalänk

klk

Medlem

Plats: Norden
Registrerad: Okt 2008

●

Skrivet av Yoshman:

Om du vill testa att göra en "stateful HTTP-server" vore det faktiskt kul att se hur man gör det inom ramen för stackless coroutines. Misstänker att det blir klart med komplicerat jämfört med en stateful Go version (en sådan är rätt simpel).

Gå till inlägget

Om dygnet hade 48 timmar så kanske och skulle jag göra den så hade jag inte gjort den från 0, har rätt mycket generell kod precis som stl för att pussla ihop saker.

Jag gillar inte boost och den främsta orsaken är att det är rejäla nördar som kodat det mesta där. Vad jag vet så är det endast ett fåtal som underhåller och kan underhålla koden. De är självklart fantastiskt duktiga men förstår inte att det mesta är i deras huvud.

Ett annat problem denna typ av kod som nära nog har samma krav som STL får. Koden måste fungera överallt. Det innebär att boost måste hantera sådant som kanske bara en av tiotusen någonsin kommer ha behov av.

För att ta ett exempel.
I stl finns en väldigt användbar klass som heter std::string_view. Den är så bra för att den underlättar utan att att kosta speciellt mycket i prestanda. std::string_view har endast en pekare till en buffer (char*) och dess längd. Så vad är problemet med det?
Längden på strängen är på en 64 bitars dator 8 byte, pekaren är också 8 byte. sizeof( std::string_view ) = 16

Kanon - 16 byte är en multipel på 4, det går in 4 stycken std::string_view på en cache line ( intel processorer ).

Sannolikheten att det behövs 8 byte för att hålla längden i en sträng finns inte idag, så mycket minne har inte datorer, 5 byte hade troligen klarat allt. Men klarar i princip alla scenarior med 4 byte, 4 byte skulle alltså i de allra flesta fall vara tillräckligt för sköta längden i std::string_view

När det gäller just std::string:view är detta inte ett problem, block om 16 byte är ofta att föredra framför 12 byte, det går fortfarande bara in 4 std::string_view på en cache line om den varit 12 byte.

I fallet std::string_view är det inget problem att de slarvar lite med minnesutrymmet.

Problemet uppstår när man gör klasser som behöver mer information än vad std::string_view behöver, en variabel till eller kanske mer ändå.

boost har exempelvis Boost.JSON. Om de inte ändrat senaste åren så varje element i deras JSON objekt är 48 byte. Jämför man med andra generella bibliotek skrivna för att hantera JSON så är deras json objekt nästan alltid 32 byte.

Hur kommer det sig att just boost slarvade så vilket också gör att man inte kan få in 2 json objekt på en cache line.

Förklaringen är just att boost måste anpassa sig för att klara ALLA situationer. Boost kan inte trixa lika mycket som andra bibliotek kan, samma med STL. STL är absolut supersnabbt men det finns gränser i vad de kan göra eftersom de måste klara av att hantera ALLA möjliga situationer.

Så varför då använda boost?
Tror inte det är så många idag som behöver det, de som plockar in boost gör det kanske för någon enstaka. Det finns självklart de som använder en hel del i boost men behovet är inte alls samma som för +5 år sedan. STL har också ätit upp en del av boost.
Största nackdelen med boost som de inte kan göra så mycket åt idag är att det är stort, att dela upp det i delar är ofta komplicerat. Dessutom så är koden till och med svårare att debugga än stl.

Kod för att skriva en webserver eller nätverk generellt är en styrka, Parser (tidigare spirit) tror jag också är mycket användbart för de som behöver den typen av logik. Har man mycket avancerade regex hantering kan det också vara värt. Annars finns det oftast enklare lösningar att välja på annat håll eller skriva koden själv.

Hade jag valt lösning för json trots att man eventuellt redan använder boost hade jag inte valt Boost.JSON, hade plockat in något annat.

Senast redigerat 2025-03-09 16:08

Rapportera Redigera

Citera flera Citera

2025-03-09 21:55

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011