【プログラミング】今文字コードの自動判別機能のプログラム作ってんだけどさ

1 : 2025/06/12(木) 07:21:07.967 ID:b0HftQ7k0
euc-jpとshift-jisで被るとこあんじゃん!
2 : 2025/06/12(木) 07:21:29.170 ID:b0HftQ7k0
どうやって判別すべき?
3 : 2025/06/12(木) 07:21:57.631 ID:eHZCmpLl0
いい感じにやればいいよ!
5 : 2025/06/12(木) 07:22:05.008 ID:b0HftQ7k0
>>3
というと?
4 : 2025/06/12(木) 07:22:04.712 ID:PpVVA3Hhr
ライブラリないのん?
8 : 2025/06/12(木) 07:22:29.627 ID:b0HftQ7k0
>>4
あるけどそれをSIMD化しようと思って今別の方法で考えてる
6 : 2025/06/12(木) 07:22:07.127 ID:6565XINId
(´꒪ͧε꒪ͧ`) よくあるよ
9 : 2025/06/12(木) 07:22:42.263 ID:b0HftQ7k0
>>6
もう無視したほうがいいか
7 : 2025/06/12(木) 07:22:08.110 ID:zM2W7UK5r
四角い車輪の再発明
10 : 2025/06/12(木) 07:22:56.777 ID:b0HftQ7k0
>>7
SIMDと並列化で高速化
ハイ論破
11 : 2025/06/12(木) 07:23:25.176 ID:6rr5RG120
euc-jp使ってるやついるの?
15 : 2025/06/12(木) 07:28:54.378 ID:b0HftQ7k0
>>11
やっぱそういう使ってないだろってやつは除外したほうがいいのかな?
元々ある全世界の文字コード判別出来ますライブラリだとこの辺とかiso-2020系とかもゴリゴリ含んでるからあったほうがいいかなと思ったけど
16 : 2025/06/12(木) 07:29:54.487 ID:PpVVA3Hhr
>>15
そもそも要件どつなってんだよ
22 : 2025/06/12(木) 07:33:10.779 ID:b0HftQ7k0
>>16
参考にしてる(全く参考にならん)ライブラリはこの文字コードに対応してる
https://github.com/CharsetDetector/UTF-unknown?tab=readme-ov-file#the-following-charsets-are-supported

レス22番のリンク先のサムネイル画像
12 : 2025/06/12(木) 07:24:04.792 ID:UBEnr/0W0
そんな高速に文字コード判定したいシチュエーションあんのか
てかライブラリにしてもそんな厚くないからコード見れば分かるんじゃね
19 : 2025/06/12(木) 07:31:24.076 ID:b0HftQ7k0
>>12
いやなにやってんのかわからん
特にここ
https://github.com/CharsetDetector/UTF-unknown/blob/master/src/Core/Analyzers/MultiByte/Japanese/JapaneseContextAnalyser.cs
jp2charcontextってやつ何を示してるのか理解不能
13 : 2025/06/12(木) 07:26:46.086 ID:HEWqareOr
既存のライブラリでSIMD対応してるやつないの?
なかったとしても判別部分は流用でよくね
14 : 2025/06/12(木) 07:27:35.599 ID:b0HftQ7k0
SIMDで0x80以上のbyteの文字の場所を配列化します
あらかじめ文字コードごとに1文字目の範囲、2文字目の範囲、(UTF-8と仮定するなら→)3文字目の範囲、4文字目の範囲を定義します
SIMDで取得したインデックスを見てそれらの文字コードの1文字目の範囲に入ってるか確認、入ってたら次のbyteを確認して範囲に入ってるか確認

こういうアルゴで行こうかと思ってるけどeuc-jpとshift-jisで被るbyteの組み合わせあるからその組み合わせだけで作ってる場合どっちに判別するのかわからんってなると思う

17 : 2025/06/12(木) 07:31:01.969 ID:+OhJlujY0
2025年にやるような話題ではない
18 : 2025/06/12(木) 07:31:06.168 ID:6w/M6aLR0
サクラエディタの開発者にでも聞け
20 : 2025/06/12(木) 07:31:41.580 ID:wYPypk/+0
すげー今更でネットにいくらでも情報があることを
自分で調べて解決できずに5chで訊いてるような奴には無理だと思う
21 : 2025/06/12(木) 07:33:09.243 ID:PpVVA3Hhr
なんだC#の人か
とくに要件とか利用目的はない感じね
24 : 2025/06/12(木) 07:35:56.925 ID:b0HftQ7k0
>>21
利用目的は今テキストエディタ作っててそいつをbyte[]をMemoryにするため自動エンコード機能を作ろうとしてる
SIMDで高速化されたやつね
23 : 2025/06/12(木) 07:34:49.015 ID:b0HftQ7k0
いや大体がUTF-8かSHIFT-JISかの判定しかないじゃん
Shift-JISかeuc-jpか判別する方法載せてる記事ある???
25 : 2025/06/12(木) 07:37:34.639 ID:+OhJlujY0
>>1
はよ4ね
クソザコ知的障がい者

Unity|\.NET|ゲーム作

26 : 2025/06/12(木) 07:37:39.375 ID:QXcWkOzg0
お前ゲームはもう諦めたんか
27 : 2025/06/12(木) 07:38:00.593 ID:+OhJlujY0
>>1
はよ4ねゲェジ

クソザコ知的障がい者

Unity|\.NET|ゲーム作

28 : 2025/06/12(木) 07:38:25.184 ID:+OhJlujY0
>>1
はよ4ねゲェジ

クソザコ知的障がい者

Unity|\.NET|ゲーム作|文字コード

31 : 2025/06/12(木) 07:38:49.104 ID:b0HftQ7k0
あ~壊れちゃったw
34 : 2025/06/12(木) 07:39:12.225 ID:+OhJlujY0
>>1
はよ4ねゲェジ

クソザコ知的障がい者

Unity|\.NET|ゲーム作|文字コード

35 : 2025/06/12(木) 07:39:19.787 ID:b0HftQ7k0
正論言うと全員壊れてしまうねw
36 : 2025/06/12(木) 07:39:21.198 ID:+OhJlujY0
>>1
はよ4ねゲェジ

クソザコ知的障がい者

Unity|\.NET|ゲーム作|文字コード

37 : 2025/06/12(木) 07:39:29.833 ID:+OhJlujY0
>>1
はよ4ねゲェジ

クソザコ知的障がい者

Unity|\.NET|ゲーム作|文字コード

38 : 2025/06/12(木) 07:39:37.408 ID:QXcWkOzg0
結局ゲームは諦めたん?
41 : 2025/06/12(木) 07:39:53.158 ID:b0HftQ7k0
>>38
諦めてないけど?
45 : 2025/06/12(木) 07:40:34.102 ID:QXcWkOzg0
>>41
時間ないから作れないとか言ってたのに別のものに手出すんかよ
50 : 2025/06/12(木) 07:41:19.748 ID:b0HftQ7k0
>>45
別にお前に関係ないだろ
56 : 2025/06/12(木) 07:42:16.125 ID:QXcWkOzg0
>>50
別に良いんだけどさ
いつみても作成途中だなって
61 : 2025/06/12(木) 07:43:16.933 ID:b0HftQ7k0
>>56
そりゃ簡単に作れるゲーム作ってないからな
39 : 2025/06/12(木) 07:39:38.693 ID:+OhJlujY0
>>1
はよ4ねゲェジ

クソザコ知的障がい者

Unity|\.NET|ゲーム作|文字コード

40 : 2025/06/12(木) 07:39:46.559 ID:+OhJlujY0
>>1
はよ4ねゲェジ

クソザコ知的障がい者

Unity|\.NET|ゲーム作|文字コード

42 : 2025/06/12(木) 07:40:09.497 ID:b0HftQ7k0
そもそも諦めるってなに?
47 : 2025/06/12(木) 07:41:01.301 ID:b0HftQ7k0
やっぱとりあえずshift-jisとして優先させてやるしかないんかな?
55 : 2025/06/12(木) 07:42:08.768 ID:b0HftQ7k0
ゲーム作ってる合間に他のもんに手を出したら諦めたことになるって意味分からんか?
なら仕事してる時点で諦めることになるけどw
68 : 2025/06/12(木) 07:44:50.788 ID:+OhJlujY0
与野党8党で党首を務める国会議員の令和4年分の所得総額を比較すると、自民党総裁の岸田文雄首相が3864万円で他の7人を引き離しトップとなった。

2位は共産党の志位和夫委員長で2051万円。

立憲民主党の泉健太代表は1847万円で6位だった。

73 : 2025/06/12(木) 07:47:19.310 ID:+OhJlujY0
>>1

ぼく「岸田総理は増税した?」AI「した」Google「した」TikTok「した」
3 :以下、5ちゃんねるからVIPがお送りします[]:2025/06/12(木) 07:42:43.641 ID:b0HftQ7k0
いや岸田がやった

75 : 2025/06/12(木) 07:47:42.172 ID:+OhJlujY0

>>1

ぼく「岸田総理は増税した?」AI「した」Google「した」TikTok「した」
3 :以下、5ちゃんねるからVIPがお送りします[]:2025/06/12(木) 07:42:43.641 ID:b0HftQ7k0
いや岸田がやった

76 : 2025/06/12(木) 07:47:50.335 ID:+OhJlujY0

>>1

ぼく「岸田総理は増税した?」AI「した」Google「した」TikTok「した」
3 :以下、5ちゃんねるからVIPがお送りします[]:2025/06/12(木) 07:42:43.641 ID:b0HftQ7k0
いや岸田がやった

77 : 2025/06/12(木) 07:48:14.802 ID:+OhJlujY0

>>1

ぼく「岸田総理は増税した?」AI「した」Google「した」TikTok「した」
3 :以下、5ちゃんねるからVIPがお送りします[]:2025/06/12(木) 07:42:43.641 ID:b0HftQ7k0
いや岸田がやった

79 : 2025/06/12(木) 07:48:34.046 ID:+OhJlujY0

>>1

ぼく「岸田総理は増税した?」AI「した」Google「した」TikTok「した」
3 :以下、5ちゃんねるからVIPがお送りします[]:2025/06/12(木) 07:42:43.641 ID:b0HftQ7k0
いや岸田がやった

80 : 2025/06/12(木) 07:48:46.869 ID:+OhJlujY0

>>1

ぼく「岸田総理は増税した?」AI「した」Google「した」TikTok「した」
3 :以下、5ちゃんねるからVIPがお送りします[]:2025/06/12(木) 07:42:43.641 ID:b0HftQ7k0
いや岸田がやった

81 : 2025/06/12(木) 07:49:06.905 ID:+OhJlujY0

>>1

ぼく「岸田総理は増税した?」AI「した」Google「した」TikTok「した」
3 :以下、5ちゃんねるからVIPがお送りします[]:2025/06/12(木) 07:42:43.641 ID:b0HftQ7k0
いや岸田がやった

88 : 2025/06/12(木) 07:55:53.533 ID:NAk5tAL/0
>1
そうだよ!だからshift-jisから移行するのに楽だったわ
今はもう大体utf-8がそれ以降の文字コードしかほとんど使わないけど

コメント

タイトルとURLをコピーしました