Hateburo: kazeburo hatenablog

Operations Engineer / 運用系小姑 / Perl Monger

電子書籍版5/30、紙版6/4「達人が教えるWebパフォーマンスチューニング 〜ISUCONから学ぶ高速化の実践」が発売されます!

共著で執筆しました「達人が教えるWebパフォーマンスチューニング 〜ISUCONから学ぶ高速化の実践」が発売されます。紙版は6/4日発売、電子書籍版は本日5/30から発売されております。通称 #ISUCON本 です。

ISUCONを例にするWebアプリケーションの主にサーバサイドのチューニングを広く扱うユニークな書籍となっております。ISUCONに参加する方はもちろん、業務でWebアプリケーションの開発運用にあたるエンジニアまで役に立ちそうな内容が盛りだくさんになります。

見本誌が届きましたが、分厚い、そして盛りだくさんな内容となっています。

技術評論社のページ

gihyo.jp

Amazon

ISUCON本 出版記念のイベントも本日やります。お時間あるかた是非どうぞ

isucon.connpass.com

執筆者

著者は、ISUCONの初期から参加者として、あるいは出題者として深く関わってきた豪華メンバーです。

藤原俊一郎さん @fujiwara
2011年より面白法人カヤック。SREチーム所属。ISUCON優勝4回、出題3回

馬場俊彰さん @netmarkjp
株式会社X-Tech 5取締役CTO、株式会社iCARE技術顧問。ISUCON第一回にプロジェクターを持ち込んで参加しSELinux=Enforcingで入賞

中西建登さん @whywaita
株式会社サイバーエージェント所属。ISUCON8にて史上初の学⽣総合優勝

長野雅広 @kazeburo
さくらインターネット株式会社所属。ISUCON1、ISUCON2、ISUCON9予選で問題作成。参加者として優勝も予選落ちも経験

金子達哉さん @catatsuy
株式会社PR TIMES開発本部長CTO。ピクシブ・メルカリを経て現職。ISUCON9予選・ISUCON6本選出題

草野 翔さん @rosylilly
宇宙海賊合同会社代表、株式会社ハンマーキットCTO、株式会社 Tech Consiglie CTO、プロモータル株式会社相談役、IPTech特許業務法人技術顧問。ISUCON9優勝、ISUCON4とISUCON10出題

目次

内容は次のようになっています。チューニングの基礎とモニタリングを最初に扱ったあと、負荷試験を紹介し、データベースやアプリケーションの高速化を扱い、最後にOSなど低いレイヤのチューニングについて書かれています。

また、付録として実際に9章までの知識を使っての private-isu のチューニングの事例、またISUCONのベンチマーカを実装するというなかなか対象読者が限られてしまいそうですが、知ると世界が広がる面白い内容もあります。

1章 チューニングの基礎知識 (@netmarkjp)
2章 モニタリング (@whywaita)
3章 基礎的な負荷試験 (@fujiwara)
4章 シナリオを持った負荷試験 (@fujiwara)
5章 データベースのチューニング (@kazeburo)
6章 リバースプロキシの利用 (@catatsuy)
7章 キャッシュの活用 (@catatsuy)
8章 押さえておきたい高速化手法 (@catatsuy)
9章 OSの基礎知識とチューニング (@whywaita)
付録A private-isuの攻略実践 (@fujiwara)
付録B ベンチマーカーの実装 (@rosylilly)

私の担当は、5章データベースです。データベースで扱う範囲は広く、本書の中で最もページ数の多い章となっています。NoSQL、NewSQLなどデータベースの種類を紹介し、データベースの負荷を知る方法として private-isuを題材にPROCESSLISTやスロークエリログ、pt-query-digestをあげ、そこで見つけた課題をインデックスやN+1を紹介することで解いていける内容となっています。

5-1 データベースの種類と選択
5-2 データベースの負荷を測る
5-3 インデックスでデータベースを速くする
5-4 N+1とは
5-5 データベースとリソースを効率的に利用する
5-6 まとめ

データベースは、ISUCONではありませんが、実際の業務ではクラウドのマネージドサービスを使うことがかなり多くなっているかと思います。執筆時にも悩みポイントではあったのですが、5章では具体的なクラウドの使い方は扱ってなく、ISUCONをベースに書かせていただいています。ISUCONの問題は今でも有用なものが多く、実際のクラウドでのパフォーマンスの問題も解決できるはずです。

本書のねらい

2019年のISUCON9の予選の問題を bokko, catatsuy, sota1235 とやらせていただいたのですが、そこで意識していたのは、着実にスコアがあがる設計をして、参加者の方にISUCONやパフォーマンスチューニングが楽しいと思っていただくということがありました。

この本もやはり、ISUCONやパフォーマンスチューニングの最初の一歩を踏み出せるよう書かせていただきました。プロファイリングを行い、そこから問題点を見つけ、修正する。そしてプロファイリングをしてみると、チューニングの作業は地味にみえるかもしれません。ただ、やれることが増え、目に見える形で結果が改善するとその分楽しくなるはずです。

内容が多く、一度に読むことは難しいかもしれません。1章から付録まで気になるところから行ったり来たり、繰り返し読んだりすることをお勧めします。

謝辞

技術評論社の皆様、共著者の皆様、レビューに協力していただいた皆様、ISUCONを運営しているLINE株式会社の皆様(特に@941さん)、大変ありがとうございました。

今日のワンライナー:meminfoを調べる

某サーバのメモリ使用量に納得がいかないので、わかりやすく表示するワンライナーを書いた。

# cat /proc/meminfo |perl -E 'while(<>){m!^(.+):\s*(\d+)! and $h{$1}=$2} END { @active=qw/MemFree Active(file) Inactive(file) Unevictable Active(anon) Inactive(anon) SReclaimable SUnreclaim KernelStack PageTables VmallocUsed/; map { say "$_\t$h{$_}"; $total+=$h{$_} } @active; say "--"; say "MemTotal\t$h{MemTotal}";say "*Unknown\t".($h{MemTotal}-$total) }'
MemFree 237356
Active(file)    355420
Inactive(file)  171960
Unevictable     15692
Active(anon)    43040
Inactive(anon)  62300
SReclaimable    48644
SUnreclaim      25252
KernelStack     1624
PageTables      7384
VmallocUsed     0
--
MemTotal        993172
*Unknown        24500

Unknownが700MBぐらいになるサーバあって悩んでいます。

以下の記事を参考にさせていただきました。

qiita.com

買ってよかった2021

今週のお題「買ってよかった2021」

去年、Apple Watchを買って

kazeburo.hatenablog.com

如何に動いてなかったかが可視化されてしまったのを契機に、今年の年明けから朝の時間に運動(ウォーキングのちにランニング)するようにしました。子供たちを学校に送りだして、仕事する前にやってます。

そうだ運動をしよう

坂道・階段があるコースを30分ぐらいで3km弱歩いていたのですが、歩いている途中に音楽聴いたりしたいなということで、骨伝導イヤホンを買書いました。骨伝導なら周りの音も聞こえるので安心です。

f:id:kazeburo:20211231165216p:plain

買ったのは、AfterShokz Aeropex。

たまにオンラインの会議でも使っていて、今年買ってよかったものではかなり上位。

このAfterShokz Aeropexは充電コネクタがマグネット式となっていて、ケーブルを近づけるだけでカチッとくっついて充電ができるのも便利なのですが、そのケーブルがちょいと短いので、USBの延長ケーブルがあると便利です。

ウォーキングをするようになって体重も減り始めたのでスマホ連携できる体重計を買った。メトリクス大事。

置いている場所のせいかスマホへの自動転送の成功率があまり高くはない(手動で読み込みかけると転送できる)けど、体重その他の数値が取れ、グラフになるのはよい。グラフ大事。

f:id:kazeburo:20211231171054p:plain

夏に一旦減りがとまったけど、そのあたりからウォーキングからランニングに切り替えて運動強度をあげました。以前から@fujiwaraさんや@mattn_jpさんが走った結果をtwitterにあげているのをみて、勝手に目標とさせてもらっています。

歩くのにはとくに道具は必要ないですが、走るとなるといくつかあった方がいいものがあって、まずはランニングシューズを、また、マウスカバー(!マスク)、上着、手袋、小物を入れて置けるポーチなどを買いました。

ランニング用のジャケットや手袋は軽くていいですね

この成果もあり、12月には月の走行距離が100kmを超えました。

走り初めは、1km走るのに6分以上かかっていたけど、最近は5分切れるようになってきたので調子にのって来年も怪我に気をつけて頑張りたい。

娘の骨折

11月に、娘が左の肘を骨折して、3週間ほどのギブス生活になった。本人大変だっただろうにがんばった。怪我してすぐは病院でもらった白い布の三角巾で腕を吊っていましたが、結んだり外したりが不便で、結び目が首の後ろということもあり、痛がって外してしまうので、病院で使っていいか確認してメッシュでできたアームホルダーを買いました。

(大サイズ(S)) という表記が気になりますが、脱着も楽なのでギブスがとれるまで、多少ほつれて縫ったりもしましたが毎日使えました。

2ヶ月たって骨折は大分よくなっているので安心です。

リフォームしたのでライトを新調

家を少しリフォームして、仕事の机を置く場所ができたので、その上のライトを新調した。レールはそのまま。

f:id:kazeburo:20211231173826p:plain

INTERFORMという照明・家具のメーカーのもので、おしゃれで気に入っている。

interform-inc.com

リビングの時計もここで買ったものを使っています。

来年は何買うかな~

クラウドサービスにおける ReDoS 対策

正規表現のマッチングにかかる処理時間が指数的に増えることでDoS脆弱性が発生し、それを利用した攻撃を ReDoS 攻撃と呼びます。

詳しくは、

owasp.org

最近書かれた、立命館コンピュータクラブの記事もよくまとまっております。

www.rcc.ritsumei.ac.jp

クラウドサービスにおける ReDoS 対策

f:id:kazeburo:20211224094719p:plain

クラウドのサービスでは、お客様にサーバやミドルウェアの設定として正規表現ワイルドカードを入力していただくことがあります。そうした場合に正規表現がReDoSの対象とならないよう、チェックしなければなりません。

さくらのクラウドのエンハンスドロードバランサではコントロールパネルにてワイルドカードを入力する箇所がいくつかあります。ワイルドカードはL7ロードバランサとして利用しているHAProxyの設定では正規表現に変換されて使用されます。

以前は、マッチングの負荷を抑えるため、ワイルドカード文字 *? を利用する数を数個に制限しておりましたが、現在ではその制限を緩和し、 ReDoS につながる正規表現をチェックする以下のライブラリを使って負荷になる正規表現にならないか確認しています。

github.com

safe-regexのREADMEにも書かれてますが、より正確なチェックをするには別のライブラリがおすすめされています。

github.com

また、立命館コンピュータクラブの記事でも紹介されている recheck もあります。

makenowjust-labo.github.io

今回はワイルドカードからの変換であり、自由に正規表現が指定できないので safe-regex を利用しています。

ワイルドカード文字の個数制限をやめてReDoSチェックの導入する提案はフロントエンドのエンジニアから頂き、開発も一緒にやりました。さくらのクラウドの開発チームはフロントエンド、バックエンド、基盤などの役割を問わず改善のアイディアを出し合って開発を進めています。

正規表現チェックサーバ

さくらのクラウドのコントロールパネルは JavaScript/TypeScript で作られていますので、上記のライブラリはフロントエンドそのまま使えますが、APIや基盤の制御、ミドルウェアの設定の生成をするサーバ側はPHPPerlまたはGoといった言語で書かれているので、そのまま使うことはできません。

そこで、davisjam/safe-regex を呼び出すだけのAPIサーバを Node.js で作り hacobune で動作させ、PHP/Perlから利用するようにしました。小さいAPIを作るのは Mackerel の Plugin をインストールするための release Tag キャッシュサーバ と同じアイディアです。

APIサーバのコードは例によってGitHubにあります。

github.com

使い方

$ docker run -p 3000:300 ghcr.io/kazeburo/safe-regex-api:latest

APIはシンプルに、正規表現をPOSTする形となります。

$ curl -sSf -XPOST --data-urlencode 'regexp=[a-z]+' localhost:3000/is_safe_regexp
{"error":false,"is_safe":true}

expressのmiddlewareの機能により、form-urlencodedまたはJSONでPOSTできます。

curl -sSf -XPOST -H 'Content-type: application/json' -d '{"regexp":"[a-z]+"}' localhost:3000/is_safe_regexp 
{"error":false,"is_safe":true}

安全でない正規表現を送るとis_safefalse となることがわかります

$ curl -sSf -XPOST --data-urlencode 'regexp=(a+)+' localhost:3000/is_safe_regexp
{"error":false,"is_safe":false}

まとめ

  • クラウドサービスでもReDoS チェックやってます
  • Node.jsで極小API書いてhacobuneにデプロイし、サーバ側のチェックを実現しています
  • さくらのクラウドの開発チームでは役割を問わず改善のアイディアを出し合って開発を進めています

hirose31/s3surfer でさくらのクラウド オブジェクトストレージにアクセスする

hirose31さん作のAmazon S3にあるファイルリストの閲覧とファイルのダウンロードにとても便利なツール s3surfer にAPIのエンドポイントURLを切り替えるオプションをつけていただきさくらのクラウドのオブジェクトストレージにもアクセスできるようになりました。

github.com

さくらのクラウドのオブジェクトストレージについてははこちら

cloud.sakura.ad.jp

こちらのサービスではS3互換のAPIを提供させていただいています。

使い方

Mac/Linuxの場合はGitHubのリリースページからバイナリをダウンロードしてインストールできます。v1.0.3 以降で --endpoint-url オプションが使えます。

さくらのクラウドのオブジェクトストレージのAPI Endpointを指定して起動します。その他のS3互換ストレージでも利用できるかと思います。

% s3surfer --endpoint-url=https://s3.isk01.sakurastorage.jp/ 

~/aws 以下に credential があるか、AWS_ACCESS_KEY_ID の設定は必要です。

動作イメージ

bucketのファイル一覧を表示するイメージ

f:id:kazeburo:20211217153313p:plain

ファイルのダウンロードもできました。簡単便利

mkr plugin install 時の403 API rate limit exceededエラーを回避する方法

この記事はMackerel Advent Calendar 2021の14日目の記事です。

最近、さくらのクラウドの一部のサービスの監視にmackerelを導入し始めました! そして今年もいくつかのmackerel pluginを作成しています。

ログをメトリクスにするプラグイン

github.com

インターフェイスごとのエラーや送受信したパケットを可視化するプラグイン

github.com

100%上限のCPU使用率グラフ、ロードアベレージをコア数で割ったメトリックを作成するプラグイン

github.com

そのほか、mackerel-plugin-axslogにも新しい機能が増えています。

この記事は既存のサーバにこれらのmackerel pluginをansibleで導入していった際に出たエラーと回避策のお話です。

mkr plugin install時のrate limitエラー

次のようにAnsibleのplaybookを書き、mackerelプラグインのインストールを実行していたところ、

- name: install mkr plugins
  become: yes
  shell: "mkr plugin install --upgrade {{ item }}"
  with_items:
    - kazeburo/mackerel-plugin-linux-memory
    - kazeburo/mackerel-plugin-axslog
    - kazeburo/mackerel-plugin-linux-netdev
    - kazeburo/mackerel-plugin-linux-usage
    - kazeburo/mackerel-plugin-log-counter

GitHubAPIのrate limitに引っかかりました

failed: [192.168.0.1] (item=kazeburo/mackerel-plugin-axslog) => {"changed": true, "cmd": "mkr plugin install --upgrade kazeburo/mackerel-plugin-axslog", "delta": "0:00:00.071010", "end": "2021-11-01 17:12:53.402650", "item": 
"kazeburo/mackerel-plugin-axslog", "msg": "non-zero return code", "rc": 1, "start": "2021-11-01 17:12:53.331640", "stderr": "\u001b[0;31m     error\u001b[0m Failed to install plugin while making a download URL: GET 
https://api.github.com/repos/kazeburo/mackerel-plugin-maxcpu/releases/latest: 403 API rate limit exceeded for 203.0.113.147. (But here's the good news: Authenticated requests get a higher rate limit. Check out the
 documentation for more details.) [rate reset in 12m04s]", "stderr_lines": ["\u001b[0;31m     error\u001b[0m Failed to install plugin while making a download URL: GET https://api.github.com/repos/kazeburo/mackerel-plugin-maxcpu/releases/latest: 403 API 
rate limit exceeded for 203.0.113.147. (But here's the good news: Authenticated requests get a higher rate limit. Check out the documentation for more details.) [rate reset in 12m04s]"], "stdout": "", "stdout_lines": []}

これはmkrがプラグインの’最新のバージョンを調べるために、GitHubAPIにアクセスしているところで発生します。

回避策はmackerelのマニュアルで紹介されています。

mackerel.io

1つはGitHubのアクセストークンを設定する方法

mkr plugin installはGithubから最新のリリースを探すためにGithub APIを利用します。そのため、Githubの設定画面から取得できるアクセストークンを指定しておかなければ、Github APIのRate Limitの制限にあたり、インストールが失敗する可能性があります。

もうひとつは明示的にバージョンを指定する方法です

mkr plugin installではGithub Releasesのリリースタグが明示的に指定された場合、GithubAPIにアクセスしないため、Rate Limitの制限にかかることはありません。そのため、サーバプロビジョニングツールから利用するときは、リリースタグを明示的に指定することをおすすめします。

今回、セットアップしている環境ではすぐに用意できるアクセストークンはなかったため、前者の方法は取りにくく、後者を行うことになります。

- name: install mkr plugins
  become: yes
  shell: "mkr plugin install --upgrade {{ item }}"
  with_items:
    - kazeburo/mackerel-plugin-linux-memory@v0.0.6
    - kazeburo/mackerel-plugin-axslog@v0.3.1

ただ、pluginを作成した直後はバージョンアップ回数が増えるため、都度バージョンをあげるのは面倒です。(今回は自前のプラグインのため最新バージョンでも問題がないことがわかっている前提がありますが、安定した運用のためにはバージョン固定がベストプラクティスです)

そこで、releaseTagを取得してキャッシュするサーバを書きました

releaseTag キャッシュサーバ

readmeもないですが作成しました。

github.com

実行すると次のレスポンスが得られます。

%  curl -sSf 127.0.0.1:8080/kazeburo/chocon|jq .
{
  "release": "v0.12.5",
  "has_error": false,
  "erorr": "",
  "assets": [
    {
      "name": "chocon_0.12.5_checksums.txt",
      "download_url": "https://github.com/kazeburo/chocon/releases/download/v0.12.5/chocon_0.12.5_checksums.txt"
    },
    {
      "name": "chocon_darwin_amd64.zip",
      "download_url": "https://github.com/kazeburo/chocon/releases/download/v0.12.5/chocon_darwin_amd64.zip"
    },
    {
      "name": "chocon_linux_amd64.zip",
      "download_url": "https://github.com/kazeburo/chocon/releases/download/v0.12.5/chocon_linux_amd64.zip"
    },
    {
      "name": "chocon_linux_arm.zip",
      "download_url": "https://github.com/kazeburo/chocon/releases/download/v0.12.5/chocon_linux_arm.zip"
    },
    {
      "name": "chocon_linux_arm64.zip",
      "download_url": "https://github.com/kazeburo/chocon/releases/download/v0.12.5/chocon_linux_arm64.zip"
    }
  ]
}

結果は5分キャッシュされるように作り、mkrのソースコードを参考にGITHUB_TOKENの環境変数がセットされていれば使うようにしています。

サーバは趣味全開で作り、フレームワークgithub.com/gofiber/fiber、キャッシュの有効活用のために golang.org/x/sync/singleflight を使ってます。

gofiber.io

pkg.go.dev

これをさくらのクラウドの Hacobune にデプロイし、Ansibleのplaybookを

- name: install latest mkr plugins
  become: yes
  shell: "mkr plugin install --upgrade {{ item }}@$(curl -fs 'https://example.com/{{ item }}?plain')"
  with_items:
    - kazeburo/mackerel-plugin-linux-memory
    - kazeburo/mackerel-plugin-linux-netdev
    - kazeburo/mackerel-plugin-linux-usage
    - kazeburo/mackerel-plugin-log-counter
    - kazeburo/mackerel-plugin-maxcpu

のようにしました。

これでRate Limitエラーは避けられ、常に新しいバージョンをいれることができました。

まとめ

今後も必要なpluginを揃え、メトリクスを充実させながら、mackerelを使ってクラウドの安定運用やっていきます。

HAProxyにコントリビュートした話

さくらインターネット Advent Calendar 2021 10日目の記事です。

日頃、運用や新機能の開発を行っているさくらのクラウドの「エンハンスドロードバランサ」はL7のロードバランサのソフトウェアとしてHAProxyを使っています。

こちらの記事でシステム構成について紹介しております。

qiita.com

また、本blogにてlibslzによるHTTPレスポンスのGZIP圧縮の紹介もしています。

kazeburo.hatenablog.com

この記事はHAProxyの運用で問題を発見し解決した話と、HAProxyにissue報告した話になります。

発見から問題特定まで

とある作業後、エンハンスドロードバランサのL7ロードバランサであるHAProxyのうちの一つのプロセスが異常にCPUを使っているのを発見しました。

このHAProxyのプロセスはCPU 1コアを使い切っている状態になっておりました。

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                                                                              
28007 haproxy   20   0  570272  11612    924 S  99.0  0.2   0:31.57 /usr/local/sbin/haproxy

エンハンスドロードバランサでは、1つのロードバランサ設定ごとにhaproxyのプロセスが割り当てられます。他を確認したところ、特定の1つの設定でのみ起きている問題で、他のお客様の設定では発生しておりませんでした。

負荷の原因としてロードバランサへの攻撃や定期的な突発アクセスを想定し、アクセスログの調査をしましたが、そのような形跡はありませんでした。

次にtopコマンドで観察していると、CPUがbusyとなる状態は定期的に発生し、10秒程度継続して元にもどるように見えたので、同じ間隔で設定されている実サーバへのヘルスチェック時になにか起きていそうだと当たりをつけ、今度は strace でそのタイミングを捉えてみると、次のようなトレースが取得できました

[pid 28015] connect(31, {sa_family=AF_INET, sin_port=htons(443), sin_addr=inet_addr("198.51.100.123")}, 16) = -1 EINPROGRESS (Operation now in progress)
[pid 28015] epoll_ctl(30, EPOLL_CTL_ADD, 31, {EPOLLIN|EPOLLOUT|EPOLLRDHUP, {u32=31, u64=31}}) = 0
[pid 28015] clock_gettime(CLOCK_THREAD_CPUTIME_ID, {89, 485590665}) = 0
[pid 28015] epoll_wait(30, [{EPOLLOUT, {u32=31, u64=31}}], 200, 2556) = 1
[pid 28015] clock_gettime(CLOCK_THREAD_CPUTIME_ID, {89, 485637316}) = 0
[pid 28015] recvfrom(31, 0x7f14740342d0, 16320, 0, NULL, NULL) = -1 EAGAIN (Resource temporarily unavailable)
[pid 28015] sendto(31, "HEAD /health-check.html HTTP/1."..., 93, MSG_DONTWAIT|MSG_NOSIGNAL, NULL, 0) = 93
[pid 28015] epoll_ctl(30, EPOLL_CTL_MOD, 31, {EPOLLIN|EPOLLRDHUP, {u32=31, u64=31}}) = 0
[pid 28015] clock_gettime(CLOCK_THREAD_CPUTIME_ID, {89, 485774729}) = 0
[pid 28015] epoll_wait(30, [{EPOLLIN|EPOLLRDHUP, {u32=31, u64=31}}], 200, 2554) = 1
[pid 28015] clock_gettime(CLOCK_THREAD_CPUTIME_ID, {89, 485839265}) = 0
[pid 28015] recvfrom(31, "<!DOCTYPE HTML PUBLIC \"-//IETF//"..., 16320, 0, NULL, NULL) = 565
#ここで止まる

この結果から、ヘルスチェックのため実サーバである 198.51.100.123 のポート443に対してアクセスし、このタイミングでCPU負荷が上がる状態に陥っていることがわかり、また、(おそらく)SSL有効なポートに対して生TCPでアクセス(お客様の設定の間違いのようですが)してしまった結果、HTTPのレスポンスヘッダがなく、いきなりエラーを知らせるHTMLが返ってきていることもこのトレースからわかりました。

HTTPSのポートにHTTP通信を行った際に、HTTPレスポンスヘッダがなくコンテンツが返るのはイレギュラーのようで、手元にあるいくつかのWebサーバ調べましたが、Nginxなど大体のWebサーバはHTTPヘッダを返しています。

検証とパッチ作成

このHTTPヘッダを返さない実サーバが問題を引き起こしているのではないかということで、Go言語で同じ動きをするサーバを作成し、手元で動かして検証しました。

動かしたGoのサーバはこれです。Goは雑(すぐ)にかけていいですね

gist.github.com

問題が再現できるhaproxyの最小限の設定を作成し

global
        log stdout format raw local0

defaults
        timeout connect 5000ms
        timeout client 50000ms
        timeout server 50000ms

frontend 113300002882-163.43.241.14:80
        mode http

        bind 0.0.0.0:8080
        default_backend 113300002882-backend-default

backend 113300002882-backend-default
        mode http

        option httpchk GET /live
        server 127.0.0.1:12345 127.0.0.1:12345  check inter 10s

ヘルスチェックのコードにてprintf debugで問題箇所の特定を行い、以下のpatchを作成しました。

gist.github.com

1日がかりで結構時間かけた割には、変更は30文字にも満たないpatchとなりました。

問題の原因としては、通信が切れたにもかかわらず、HTTPヘッダを探すためヘルスチェックのタイムアウトまで次のパケットを読み込もうとしてループしてしまうことで、このpatchで通信が切れていた場合、次のデータをまたずに即時エラーとするようにしています。

このpatchを、エンハンスドロードバランサの開発環境に適用し、busy loopが解消していること、また他の問題のでないことを確認し、順次本番環境へも導入していきました。

f:id:kazeburo:20211209173759p:plain

勝利の瞬間です

haproxyへのコントリビュート

HAProxyはOSSですから、この問題についてissueをあげてコントリビュートをすることにしました。

登録したissueはこちら

github.com

送ったpatchは少し内容が変わりましたが、問題箇所の認識は間違ってなかったようで

github.com

取り込まれて、haproxy 2.4.8 に含まれる形でリリースされました。

http://www.haproxy.org/download/2.4/src/CHANGELOG

    - BUG/MEDIUM: tcpcheck: Properly catch early HTTP parsing errors

これが今回の修正にあたります。

非常にニッチなものではあり、感想も月並みではありますが、サービスの中で使用しているOSSに対するissue報告とコントリビュートができて良かったです。

OSSなソフトウェアの開発・運用上発見した問題があれば、今後とも積極的にコントリビュートしていきます。