nikkie-ftnextの日記

イベントレポートや読書メモを発信

2023-04-24から1日間の記事一覧

あ(U+3042)はどういう規則でb'\xe3\x81\x82'というバイト列に変換される? UTF-8の変換アルゴリズムを知りました

はじめに うにおん!ならぬ、うにこーど! nikkieです。 先日ChatGPTがどのように日本語テキストをトークン化するのか覗きました。 トークンのIDから対応するテキストを見ようとPythonのbytesを扱ったわけですが、その中で感じた疑問についてアウトプットで…