- 1 : 2024/05/09(木) 14:06:37.913 ID:DhVREreFa
- PDFの本文だけ抽出したいんやけど
- 2 : 2024/05/09(木) 14:06:46.959 ID:DhVREreFa
- import PyPDF2
def extract_text_from_pdf(pdf_path):
with open(pdf_path, ‘rb’) as file:
reader = PyPDF2.PdfFileReader(file)
text = ”
for page_num in range(reader.numPages):
page = reader.getPage(page_num)
text += page.extractText()
return text# 本文を抽出したいPDFファイルのパスを指定してください
pdf_path = ‘example.pdf’
text = extract_text_from_pdf(pdf_path)
print(text) - 24 : 2024/05/09(木) 14:10:38.936 ID:Wzi5CSJKO
- まず>>2で動かしてみろよ
- 3 : 2024/05/09(木) 14:07:22.094 ID:DhVREreFa
- example.pdfにファイルパス入れればええんか?
- 4 : 2024/05/09(木) 14:07:33.798 ID:DhVREreFa
- さっさと教えろカス
- 5 : 2024/05/09(木) 14:07:43.572 ID:DhVREreFa
- おいさっさと教えろカス
- 6 : 2024/05/09(木) 14:07:52.158 ID:DhVREreFa
- おいのろまさっさと教えろカス
- 8 : 2024/05/09(木) 14:08:06.401 ID:DhVREreFa
- おいのろま さっさと教えろカス
- 9 : 2024/05/09(木) 14:08:19.651 ID:DhVREreFa
- 使えねえなさっさと教えろカス
- 10 : 2024/05/09(木) 14:08:34.557 ID:DhVREreFa
- はよしろやノロマ
- 11 : 2024/05/09(木) 14:08:47.145 ID:DhVREreFa
- おせえんだよ
- 13 : 2024/05/09(木) 14:08:59.906 ID:DhVREreFa
- さっさと教えろタコ
- 14 : 2024/05/09(木) 14:09:11.593 ID:DhVREreFa
- 使えねえなさっさとしろや
- 17 : 2024/05/09(木) 14:09:27.891 ID:DhVREreFa
- おいのろまさっさと教えろカスが
- 18 : 2024/05/09(木) 14:09:47.235 ID:DhVREreFa
- 使えねえなボケのろま
- 20 : 2024/05/09(木) 14:09:59.276 ID:DhVREreFa
- おせえんだよゴミ
- 21 : 2024/05/09(木) 14:10:07.269 ID:DhVREreFa
- はよ教えろや
- 22 : 2024/05/09(木) 14:10:21.054 ID:DhVREreFa
- さっさと使い方教えろカス
- 23 : 2024/05/09(木) 14:10:27.515 ID:pyA2bxrFL
- c++で作れ
- 25 : 2024/05/09(木) 14:10:44.353 ID:s.YcPmS.w
- お前には無理
- 27 : 2024/05/09(木) 14:10:47.313 ID:DhVREreFa
- Cなんて知らねえよ
- 28 : 2024/05/09(木) 14:10:51.151 ID:UBu15Cvj8
- GTPに聞け
- 29 : 2024/05/09(木) 14:10:54.646 ID:53M6L8EIa
- まず服を脱ぎます
- 30 : 2024/05/09(木) 14:10:58.367 ID:DhVREreFa
- さっさと教えろ低能
- 31 : 2024/05/09(木) 14:11:18.755 ID:DhVREreFa
- 使えねえなあさっさとおしえろや
できねえのかコラ - 32 : 2024/05/09(木) 14:11:47.585 ID:HPYuZMZHH
- お昼何食べた🍱?
- 33 : 2024/05/09(木) 14:11:48.994 ID:DhVREreFa
- GPTにきいてんだよ
わからなかったからこっちに聞いてんだよ低能 - 34 : 2024/05/09(木) 14:12:04.271 ID:DhVREreFa
- パン食べたけど
- 35 : 2024/05/09(木) 14:12:11.528 ID:Rgce/mjG9
- ドーナツ食べたいなァ
- 36 : 2024/05/09(木) 14:12:15.322 ID:HPYuZMZHH
- おいしかった?
- 37 : 2024/05/09(木) 14:12:39.527 ID:DhVREreFa
- ヘッダーとフッターいらんから本文だけ抽出したいんやけど
- 38 : 2024/05/09(木) 14:12:57.193 ID:DhVREreFa
- 美味しくねえよカス
さっさと教えろ無能 - 39 : 2024/05/09(木) 14:13:00.073 ID:HPYuZMZHH
- 何パンなの?
- 40 : 2024/05/09(木) 14:13:03.135 ID:N6y7Cu8Bt
- さっきミスドのポンデリング食ったわ
ミスドはポンデリングのために存在してるわ - 42 : 2024/05/09(木) 14:13:26.971 ID:HPYuZMZHH
- ポン・デ・リングええな
- 43 : 2024/05/09(木) 14:13:45.295 ID:HPYuZMZHH
- ワイも今からミスド行こかな
- 44 : 2024/05/09(木) 14:14:28.652 ID:DhVREreFa
- example.pdfのとこにフォルダパスいれたら
SyntaxError: (unicode error) ‘unicodeescape’ codec can’t decode bytes in position 2-3: truncated \UXXXXXXXX escape
エラーがでたんやけど
- 46 : 2024/05/09(木) 14:14:51.891 ID:9g9AtOR8v
- >>44
まあいいじゃんそういうの - 45 : 2024/05/09(木) 14:14:50.726 ID:DhVREreFa
- 使えねえな低能
さっさと教えろノロマ - 48 : 2024/05/09(木) 14:15:11.662 ID:HPYuZMZHH
- ポン・デ・ライオンってなんで消えてもうたん?
- 49 : 2024/05/09(木) 14:15:26.008 ID:DhVREreFa
- フォルダパス入れればええんか
エラーになったんやけど - 50 : 2024/05/09(木) 14:15:31.567 ID:XidTKmD/W
- ドキュメント読めよバカが
- 51 : 2024/05/09(木) 14:16:17.246 ID:BvjamP6Lu
- ラーメン食べに行こうか迷ってるんやが明日にしようか
- 52 : 2024/05/09(木) 14:16:23.634 ID:MvFjtwL7a
- 今日はマックやで
ベーコン入ってる方のサムライマックや - 53 : 2024/05/09(木) 14:16:30.626 ID:s.YcPmS.w
- お前にpdfは無理
htmlだけ抽出してろ - 54 : 2024/05/09(木) 14:17:03.240 ID:DhVREreFa
- 本文抽出とか感嘆だろ
さっさと教えろノロマ - 55 : 2024/05/09(木) 14:17:04.207 ID:36rUKUR8N
- 白痴って生きるのつらそうだな
- 56 : 2024/05/09(木) 14:17:08.160 ID:/vIatoT4G
- 煽ってなかったら教えてくれる人いたやろうに
立ち回り下手やなあ - 57 : 2024/05/09(木) 14:17:50.045 ID:HPYuZMZHH
- ミスドの話しとるんやからちょっと黙っててくれへんか?
- 59 : 2024/05/09(木) 14:18:24.232 ID:5OAfNsjDu
- 簡単なPythonもできねえくせに煽ってんのかこいつ
- 60 : 2024/05/09(木) 14:18:34.353 ID:DhVREreFa
- example.pdfにファイル名でpdfpathにフォルダパスかこれ
- 61 : 2024/05/09(木) 14:18:52.131 ID:53M6L8EIa
- 簡単なこともできないの認めてて草
- 64 : 2024/05/09(木) 14:24:20.298 ID:DhVREreFa
- SyntaxError: invalid syntax
>>> print(text)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
NameError: name ‘text’ is not defined. Did you mean: ‘next’? - 65 : 2024/05/09(木) 14:24:55.945 ID:bClT4.3jA
- chatgptに聞けば一発やのにほんま時代遅れやねえ
- 66 : 2024/05/09(木) 14:26:03.815 ID:DhVREreFa
- このPythonスクリプトは、PyPDF2ライブラリを使用してPDFファイルからテキストを抽出するものです。スクリプトの各部分を詳しく説明します。
import PyPDF2: PyPDF2ライブラリをインポートします。このライブラリは、PDFファイルを操作するための機能を提供します。
def extract_text_from_pdf(pdf_path): extract_text_from_pdfという名前の関数を定義します。この関数は、PDFファイルからテキストを抽出します。引数としてpdf_path(PDFファイルのパス)を取ります。
with open(pdf_path, ‘rb’) as file:: Pythonのopen関数を使用して、PDFファイルをバイナリモードで開きます。with文を使うことで、ファイルが自動的に閉じられることが保証されます。
reader = PyPDF2.PdfFileReader(file): PdfFileReaderオブジェクトを作成し、PDFファイルを読み込みます。
text = ”: 抽出したテキストを格納するための空の文字列textを初期化します。
for page_num in range(reader.numPages):: PDFファイル内の各ページについてループを実行します。reader.numPagesは、PDFファイル内のページ数を返します。
page = reader.getPage(page_num): getPageメソッドを使用して、指定されたページの内容を取得します。
text += page.extractText(): extractTextメソッドを使用して、ページからテキストを抽出し、text変数に追加します。
return text: 抽出されたテキストを返します。
pdf_path = ‘example.pdf’: 本文を抽出したいPDFファイルのパスを指定します。この部分を、実際のPDFファイルのパスに置き換えてください。
text = extract_text_from_pdf(pdf_path): extract_text_from_pdf関数を呼び出して、PDFファイルからテキストを抽出します。
print(text): 抽出されたテキストをコンソールに出力します。
これで、指定したPDFファイルからテキストを抽出するPythonスクリプトの使い方がわかりました。必要に応じて、pdf_path変数を適切なPDFファイルのパスに変更してください。 - 67 : 2024/05/09(木) 14:26:17.063 ID:n9LQwMNJy
- エラーでてんだからエラー読めよ
- 68 : 2024/05/09(木) 14:28:46.903 ID:DhVREreFa
- SyntaxError: invalid syntax
>>> print(text)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
NameError: name ‘text’ is not defined. Did you mean: ‘next’?
コメント