Pythonの使い方教えろカス

記事サムネイル
1 : 2024/05/09(木) 14:06:37.913 ID:DhVREreFa
PDFの本文だけ抽出したいんやけど
2 : 2024/05/09(木) 14:06:46.959 ID:DhVREreFa
import PyPDF2

def extract_text_from_pdf(pdf_path):
with open(pdf_path, ‘rb’) as file:
reader = PyPDF2.PdfFileReader(file)
text = ”
for page_num in range(reader.numPages):
page = reader.getPage(page_num)
text += page.extractText()
return text

# 本文を抽出したいPDFファイルのパスを指定してください
pdf_path = ‘example.pdf’
text = extract_text_from_pdf(pdf_path)
print(text)

24 : 2024/05/09(木) 14:10:38.936 ID:Wzi5CSJKO
まず>>2で動かしてみろよ
3 : 2024/05/09(木) 14:07:22.094 ID:DhVREreFa
example.pdfにファイルパス入れればええんか?
4 : 2024/05/09(木) 14:07:33.798 ID:DhVREreFa
さっさと教えろカス
5 : 2024/05/09(木) 14:07:43.572 ID:DhVREreFa
おいさっさと教えろカス
6 : 2024/05/09(木) 14:07:52.158 ID:DhVREreFa
おいのろまさっさと教えろカス
8 : 2024/05/09(木) 14:08:06.401 ID:DhVREreFa
おいのろま さっさと教えろカス
9 : 2024/05/09(木) 14:08:19.651 ID:DhVREreFa
使えねえなさっさと教えろカス
10 : 2024/05/09(木) 14:08:34.557 ID:DhVREreFa
はよしろやノロマ
11 : 2024/05/09(木) 14:08:47.145 ID:DhVREreFa
おせえんだよ
13 : 2024/05/09(木) 14:08:59.906 ID:DhVREreFa
さっさと教えろタコ
14 : 2024/05/09(木) 14:09:11.593 ID:DhVREreFa
使えねえなさっさとしろや
17 : 2024/05/09(木) 14:09:27.891 ID:DhVREreFa
おいのろまさっさと教えろカスが
18 : 2024/05/09(木) 14:09:47.235 ID:DhVREreFa
使えねえなボケのろま
20 : 2024/05/09(木) 14:09:59.276 ID:DhVREreFa
おせえんだよゴミ
21 : 2024/05/09(木) 14:10:07.269 ID:DhVREreFa
はよ教えろや
22 : 2024/05/09(木) 14:10:21.054 ID:DhVREreFa
さっさと使い方教えろカス
23 : 2024/05/09(木) 14:10:27.515 ID:pyA2bxrFL
c++で作れ
25 : 2024/05/09(木) 14:10:44.353 ID:s.YcPmS.w
お前には無理
27 : 2024/05/09(木) 14:10:47.313 ID:DhVREreFa
Cなんて知らねえよ
28 : 2024/05/09(木) 14:10:51.151 ID:UBu15Cvj8
GTPに聞け
29 : 2024/05/09(木) 14:10:54.646 ID:53M6L8EIa
まず服を脱ぎます
30 : 2024/05/09(木) 14:10:58.367 ID:DhVREreFa
さっさと教えろ低能
31 : 2024/05/09(木) 14:11:18.755 ID:DhVREreFa
使えねえなあさっさとおしえろや
できねえのかコラ
32 : 2024/05/09(木) 14:11:47.585 ID:HPYuZMZHH
お昼何食べた🍱?
33 : 2024/05/09(木) 14:11:48.994 ID:DhVREreFa
GPTにきいてんだよ
わからなかったからこっちに聞いてんだよ低能
34 : 2024/05/09(木) 14:12:04.271 ID:DhVREreFa
パン食べたけど
35 : 2024/05/09(木) 14:12:11.528 ID:Rgce/mjG9
ドーナツ食べたいなァ
36 : 2024/05/09(木) 14:12:15.322 ID:HPYuZMZHH
おいしかった?
37 : 2024/05/09(木) 14:12:39.527 ID:DhVREreFa
ヘッダーとフッターいらんから本文だけ抽出したいんやけど
38 : 2024/05/09(木) 14:12:57.193 ID:DhVREreFa
美味しくねえよカス
さっさと教えろ無能
39 : 2024/05/09(木) 14:13:00.073 ID:HPYuZMZHH
何パンなの?
40 : 2024/05/09(木) 14:13:03.135 ID:N6y7Cu8Bt
さっきミスドのポンデリング食ったわ
ミスドはポンデリングのために存在してるわ
42 : 2024/05/09(木) 14:13:26.971 ID:HPYuZMZHH
ポン・デ・リングええな
43 : 2024/05/09(木) 14:13:45.295 ID:HPYuZMZHH
ワイも今からミスド行こかな
44 : 2024/05/09(木) 14:14:28.652 ID:DhVREreFa
example.pdfのとこにフォルダパスいれたら

SyntaxError: (unicode error) ‘unicodeescape’ codec can’t decode bytes in position 2-3: truncated \UXXXXXXXX escape

エラーがでたんやけど

46 : 2024/05/09(木) 14:14:51.891 ID:9g9AtOR8v
>>44
まあいいじゃんそういうの
45 : 2024/05/09(木) 14:14:50.726 ID:DhVREreFa
使えねえな低能
さっさと教えろノロマ
48 : 2024/05/09(木) 14:15:11.662 ID:HPYuZMZHH
ポン・デ・ライオンってなんで消えてもうたん?
49 : 2024/05/09(木) 14:15:26.008 ID:DhVREreFa
フォルダパス入れればええんか
エラーになったんやけど
50 : 2024/05/09(木) 14:15:31.567 ID:XidTKmD/W
ドキュメント読めよバカが
51 : 2024/05/09(木) 14:16:17.246 ID:BvjamP6Lu
ラーメン食べに行こうか迷ってるんやが明日にしようか
52 : 2024/05/09(木) 14:16:23.634 ID:MvFjtwL7a
今日はマックやで
ベーコン入ってる方のサムライマックや
53 : 2024/05/09(木) 14:16:30.626 ID:s.YcPmS.w
お前にpdfは無理
htmlだけ抽出してろ
54 : 2024/05/09(木) 14:17:03.240 ID:DhVREreFa
本文抽出とか感嘆だろ
さっさと教えろノロマ
55 : 2024/05/09(木) 14:17:04.207 ID:36rUKUR8N
白痴って生きるのつらそうだな
56 : 2024/05/09(木) 14:17:08.160 ID:/vIatoT4G
煽ってなかったら教えてくれる人いたやろうに
立ち回り下手やなあ
57 : 2024/05/09(木) 14:17:50.045 ID:HPYuZMZHH
ミスドの話しとるんやからちょっと黙っててくれへんか?
59 : 2024/05/09(木) 14:18:24.232 ID:5OAfNsjDu
簡単なPythonもできねえくせに煽ってんのかこいつ
60 : 2024/05/09(木) 14:18:34.353 ID:DhVREreFa
example.pdfにファイル名でpdfpathにフォルダパスかこれ
61 : 2024/05/09(木) 14:18:52.131 ID:53M6L8EIa
簡単なこともできないの認めてて草
64 : 2024/05/09(木) 14:24:20.298 ID:DhVREreFa
SyntaxError: invalid syntax
>>> print(text)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
NameError: name ‘text’ is not defined. Did you mean: ‘next’?
65 : 2024/05/09(木) 14:24:55.945 ID:bClT4.3jA
chatgptに聞けば一発やのにほんま時代遅れやねえ
66 : 2024/05/09(木) 14:26:03.815 ID:DhVREreFa
このPythonスクリプトは、PyPDF2ライブラリを使用してPDFファイルからテキストを抽出するものです。スクリプトの各部分を詳しく説明します。

import PyPDF2: PyPDF2ライブラリをインポートします。このライブラリは、PDFファイルを操作するための機能を提供します。
def extract_text_from_pdf(pdf_path): extract_text_from_pdfという名前の関数を定義します。この関数は、PDFファイルからテキストを抽出します。引数としてpdf_path(PDFファイルのパス)を取ります。
with open(pdf_path, ‘rb’) as file:: Pythonのopen関数を使用して、PDFファイルをバイナリモードで開きます。with文を使うことで、ファイルが自動的に閉じられることが保証されます。
reader = PyPDF2.PdfFileReader(file): PdfFileReaderオブジェクトを作成し、PDFファイルを読み込みます。
text = ”: 抽出したテキストを格納するための空の文字列textを初期化します。
for page_num in range(reader.numPages):: PDFファイル内の各ページについてループを実行します。reader.numPagesは、PDFファイル内のページ数を返します。
page = reader.getPage(page_num): getPageメソッドを使用して、指定されたページの内容を取得します。
text += page.extractText(): extractTextメソッドを使用して、ページからテキストを抽出し、text変数に追加します。
return text: 抽出されたテキストを返します。
pdf_path = ‘example.pdf’: 本文を抽出したいPDFファイルのパスを指定します。この部分を、実際のPDFファイルのパスに置き換えてください。
text = extract_text_from_pdf(pdf_path): extract_text_from_pdf関数を呼び出して、PDFファイルからテキストを抽出します。
print(text): 抽出されたテキストをコンソールに出力します。
これで、指定したPDFファイルからテキストを抽出するPythonスクリプトの使い方がわかりました。必要に応じて、pdf_path変数を適切なPDFファイルのパスに変更してください。

67 : 2024/05/09(木) 14:26:17.063 ID:n9LQwMNJy
エラーでてんだからエラー読めよ
68 : 2024/05/09(木) 14:28:46.903 ID:DhVREreFa
SyntaxError: invalid syntax
>>> print(text)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
NameError: name ‘text’ is not defined. Did you mean: ‘next’?

コメント

タイトルとURLをコピーしました