- 1 : 2023/02/18(土) 15:04:18.01 ID:nIcVMiDr0
- 調べたらBeautifulSoup 使えばできるんやがスクレイピングは怖い
なんかいい方法ないか
- 2 : 2023/02/18(土) 15:05:25.66 ID:nIcVMiDr0
- スクレイピングは制約多いしなんか大げさな気がしている
- 3 : 2023/02/18(土) 15:05:52.51 ID:8ycmeGKU0
- chatGPTに頼めよ
- 4 : 2023/02/18(土) 15:06:20.17 ID:nIcVMiDr0
- >>3
BeautifulSoup 進められた - 10 : 2023/02/18(土) 15:08:28.03 ID:8ycmeGKU0
- >>4
それなしでってついか質問してみろよ - 5 : 2023/02/18(土) 15:06:36.09 ID:ztSIHPry0
- aiに聞けよ
- 6 : 2023/02/18(土) 15:07:02.49 ID:yezkyeSe0
- 全部aiに聞けばコードも出す
- 7 : 2023/02/18(土) 15:07:06.37 ID:AlB3Hnkaa
- タイトル教えてくれるサイトあるぞ
- 9 : 2023/02/18(土) 15:07:26.41 ID:nIcVMiDr0
- >>7
そういう感じの機能を自分で実装したい - 8 : 2023/02/18(土) 15:07:18.44 ID:ehVCKEl20
- urllibでできんか?
- 11 : 2023/02/18(土) 15:09:16.53 ID:KjoWWvTpd
- AIに逆らうなよアホ
- 12 : 2023/02/18(土) 15:10:52.83 ID:yhX6cCi5H
- ページにアクセスしてタイトル取ったらええやん
- 13 : 2023/02/18(土) 15:10:56.57 ID:AqhsI1AI0
- 任意のWebページのタイトルを取得するってスクレイピングそのものなんだからどんなやり方としてもそれはつまりスクレイピングだぞ
- 17 : 2023/02/18(土) 15:12:59.64 ID:nIcVMiDr0
- >>13
そうなん?
URLを入力したらページタイトルを取得してリストにしてくれる機能作りたいんやがこういう使い方で迷惑かかるやろか - 14 : 2023/02/18(土) 15:11:39.34 ID:CjdlJg3Ma
- BeautifulSoup使ってスクレイピングしかないやろ…
- 15 : 2023/02/18(土) 15:12:29.37 ID:2KsCIi6h0
- スクレイピングの何が怖いんや
短時間に大量のアクセスしたりしなければ普通の閲覧となんら変わらんやろ - 19 : 2023/02/18(土) 15:13:26.34 ID:nIcVMiDr0
- >>15
気にせなあかんこと多いやん - 16 : 2023/02/18(土) 15:12:37.20 ID:AnKv7LfPa
- いやそのリンクにアクセスしないとtitle要素を取得できないんだからスクレイピングするしかないだろ
- 18 : 2023/02/18(土) 15:13:04.17 ID:TjUbL2Lj0
- ページタイトルとかrequestsでhtmlダウンロードして読ませるだけやろ
スクレイピングの手前や - 20 : 2023/02/18(土) 15:13:34.65 ID:WMVwGSv8a
- 賢い奴はchatGPTに質問するプログラム組むよ
- 21 : 2023/02/18(土) 15:13:47.79 ID:qfnN96Po0
- Pythonあんまり触ったことないがSeleniumのスクレイピングは簡単だったぞ
- 22 : 2023/02/18(土) 15:14:57.08 ID:CjdlJg3Ma
- 利用規約見てスクレイピングのこと書いてないかよーく読んだらええ
一秒待てばええやろの精神やあーあとrobots.txt見てみるの面白いよな
- 25 : 2023/02/18(土) 15:15:29.53 ID:nIcVMiDr0
- >>22
その辺がよくわからんから怖いんよ - 23 : 2023/02/18(土) 15:15:14.83 ID:nIcVMiDr0
- request とurllibどっちがええんやろ
- 24 : 2023/02/18(土) 15:15:18.61 ID:TjUbL2Lj0
- 何回も高速に繰り返し取得するならアカンけど1個だけなら人がやってるのと変わら
- 26 : 2023/02/18(土) 15:15:30.84 ID:O55YO6RH0
- requestsかurllibでええやんけtitleタグとるだけやろ
- 27 : 2023/02/18(土) 15:15:54.95 ID:nIcVMiDr0
- chatGPT 様はurllibを勧めてきた
- 28 : 2023/02/18(土) 15:18:48.23 ID:nIcVMiDr0
- BeautifulSoup 使わない場合は正規表現必須なんかな
- 29 : 2023/02/18(土) 15:19:31.85 ID:H9hiF5gja
- BingAIに聞け
- 30 : 2023/02/18(土) 15:20:22.91 ID:R2fyjYeO0
- html読み込まないといけないんだから結局スクレイピングなんやないん?
- 31 : 2023/02/18(土) 15:21:44.32 ID:oU2limzlM
- seiki = re.compile('title.(.*)..title')
print(seiki.match(html)[1])ほい、コレ使ってええぞ
ライセンスはGPL3な - 32 : 2023/02/18(土) 15:23:15.45 ID:BQvLheZ60
- 学校の課題とかなんか?
車輪の再発明になりそうやけども - 33 : 2023/02/18(土) 15:24:01.61 ID:nIcVMiDr0
- >>32
いや個人で作ってるだけ
コメント