勉強を続けようにも、ながらなので、明らかに基礎的能力が足りていない。
時間ばかりかかって、よろしくない。
どうすれば効率化できるか。Chat君に相談してみた。
OCRのフリーソフトはいくつかありますが、以下は代表的なもののアドレスです。
- Tesseract OCR: https://github.com/tesseract-ocr/tesseract
- GOCR: https://sourceforge.net/projects/gocr/
- FreeOCR: https://www.paperfile.net/
なお、これらのソフトを使用するには、ある程度の技術的知識や設定が必要になる場合があります。
—Tesseract OCR使い方
Tesseract OCRはコマンドラインツールであり、以下の手順に従って使用できます。
- Tesseract OCRをインストールする
Tesseract OCRをインストールするには、次の手順を実行します。
- Windowsの場合:https://github.com/UB-Mannheim/tesseract/wiki
- Macの場合:https://formulae.brew.sh/formula/tesseract
- Linuxの場合:Tesseractパッケージをインストールします。例えば、Ubuntuであれば、以下のコマンドを使用します。
sudo apt-get install tesseract-ocr
- Tesseract OCRを実行する
Tesseract OCRを使用するには、以下のコマンドを使用します。
tesseract image.png output.txt
このコマンドは、"image.png"という名前の画像ファイルからテキストを抽出し、"output.txt"という名前のテキストファイルに保存します。ファイル名は必要に応じて変更してください。
また、以下のようにオプションを使用して、認識言語やファイル形式を指定することもできます。
tesseract -l eng image.png output --psm 6 txt
この例では、"eng"を認識言語として使用し、"psm 6"をページ分割モードとして使用しています。出力ファイル形式として、"txt"を指定しています。
以上の手順に従うことで、Tesseract OCRを使用してテキストを抽出できます。
—Tesseract OCRを使用するには、以下のコマンドを使用します。 コマンドプロンプトに打ち込めばいいですか
(回答省略 インストール後の”Console”にコマンドを打ち込む)
—仏語のOCRを実行する場合は、次のように入力します。
フランス語のOCRを実行する場合は、以下のように入力します。
tesseract image_path output_file -l fra
ここで、image_pathはOCRを実行したい画像ファイルのパス、output_fileはOCRの結果を出力するファイル名を指定します。-lオプションによって、OCRの言語を指定します。フランス語の場合はfraを指定します。
—画像ファイルのパスとはナニデスカ
画像ファイルのパスとは、その画像が保存されている場所を示すファイルのアドレスのことです。例えば、Windowsの場合、CドライブのDocumentsフォルダ内にあるimage.jpgというファイルの場合、パスは「C:\Users\ユーザー名\Documents\image.jpg」となります。
#ファイル右クリックでプロパティを開く
—output_pathとはナニデスカ
output_pathを指定することで、保存先の場所を指定することができます。たとえば、以下のように入力することで、保存先をデスクトップに指定することができます。
--output_path C:\Users\ユーザー名\Desktop\output.txt
ここで、ユーザー名の部分は、自分のPCでログインしているユーザー名に置き換えてください。また、もしデスクトップ以外に保存したい場合は、適宜パスを変更してください。
—フランス語に対応してません。どうすればいいですか
Tesseract OCRには、言語データが必要です。言語データはTesseract OCRの公式サイトからダウンロードすることができます。
以下の手順に従って、フランス語の言語データをダウンロードしてください。
-
Tesseract OCRの公式サイト(https://github.com/tesseract-ocr/tessdata)にアクセスします。
-
「tessdata」フォルダを開きます。
-
「fra.traineddata」をダウンロードします。
-
ダウンロードした「fra.traineddata」ファイルを、Tesseract OCRを実行するディレクトリに保存します。
これで、Tesseract OCRでフランス語のOCRを実行することができます。
—ダウンロードした「fra.traineddata」ファイルを、Tesseract OCRを実行するディレクトリに保存します。 どうすればいいですか
まず、Tesseract OCRを実行するディレクトリを決定します。例えば、Desktop直下に新しいディレクトリ「tesseract_ocr」を作成するとします。
次に、ダウンロードした「fra.traineddata」ファイルを、作成した「tesseract_ocr」ディレクトリに移動します。移動後のファイルパスは、「~/Desktop/tesseract_ocr/fra.traineddata」となります。
これで、Tesseract OCRを実行するディレクトリに言語データをインストールすることができました。
#新規フォルダを作成してダウンロードしたファイルを移動する
こうして、デスクトップ上に準備したファイル”image.png”をOCRしてデスクトップ上にテキストドキュメント”result.text”を作成することができた。
[準備したファイル]
[作成されたテキストドキュメント(仏語)]
3
à New—York, et, regardant les buildings, de—
1 a,— -—y ; »qqn«£’, v Ekï4:æf l’«,
n4— æLr n»u#5 « B&üt
mandè à sa petite—fille:
"'/"‘ 7 ‘? 7"4l» 74—a
5na+r=fio —> au
5 6
—Quelle sont ces tours qu1 n’en fimssent plus?
'fW '/y “: l‘y-W “' ‘)'—, 74=Z 19;—
W/näh ch- 50 9301 acao<-*r Lou—»
—Ce sont des gratte—cie].
1 99 ; ÿ'7 l’— ‘/Sk
:un T?— lxlfiü
7 8 9
—T1ens. txens! Je voudras b1en les voir
’4"'7 7'4"':« ÿ: '7— PV E"'v V Ü:V—W
«i. —— «72. but fina «the»: Eëo&
fonctionner.
71.9? V:?—
0— ”(DE
[作成されたテキストドキュメント(英語)]
3
a New-York, et, regardant les buildings, de-
J. sa BF = Mh Kae he Fv v UNFEVS Fo
Ke LC MYR, — RAs &
mande a sa petite-fille :
wer FTF HAPRah 74-2
Bans<- kr Ko > RH
5 6
— Quelle sont ces tours qui n’en finissent plus?
ad Yu te bork # Ty FAM FI¥an=
(A ti Ch EO ~ HI LCAZD<—RILOKW
— Ce sont des gratte-ciel.
* ay ¥# FFP vr
tHe the RGR
7 8 9
— Tiens, tiens! Je voudrais bien les voir
Favy Fave Va we Fu Uy vv Va Ir
SE oh SE. bLIA, KTS khbEH Hooke
fonctionner,
Fav Vat
—- B{( oer
[作成されたテキストドキュメント(日本語)]
璽
轟 N6W・Y0rk, et, re鹸幽nt ー鶴 bu囁din醜, d僻
プ 轟}ー _ーク 轟 ル\ャルクン レ ピルヂ(ング }'ゥ
腱ゃ そして 賞め〟がら ゎ 驚豪鰻壷
(
幟nde 蟲 艶 膿bte皿e:
ヾ~ド ア サ プ'々卜 74__
蕁ねる G に積の 髏 凛薫
5 G
ーQue囁e 艶nt C鶴 加囁rS q… n'en 竈mS艶nt pー囁$?
ヶル ソン 臀 ト”_~ * ナシ フ(轟ス プ〕;~
何んだね これらのゃ椿は ところのゃ寡て し。ない
ーCe 鱒nt des 群a仕魄ieL
ス ”シ デ グ ' ト シ轟~
これ〟 でナ_ 鸞天翼彙彌
7 震 g
ーTー印sー t】飢s! ]e v。udrms b]en 】es v。ir
尹ィヤン ティヤ〟 ヅゝ ヴードレ ピヤン レヴ*ヮ-ル
`ぇ 今 へぇ ゎしは 歓ナろ それらが兄ろの遷
f。ncd。nne【.
7ーシクシ・*
鱒 鸞(の甕
聞いてみた。
4.Des gratte—def. En“Amérique une provinciale française arrive à New—York, et, regardant les buildings, de—mandè à sa petite—fille: —Quelle sont ces tours qu1 n’en fimssent plus? —Ce sont des gratte—cie]. —T1ens. txens! Je voudras b1en les voir fonctionner.
を正しいフランス語に
Des gratte-ciel.
En Amérique, une provinciale française arrive à New-York et, en regardant les buildings, demande à sa petite-fille :
- Quelles sont ces tours qui n'en finissent plus ?
- Ce sont des gratte-ciel.
- Tiens, tiens ! Je voudrais bien les voir fonctionner.
日本語に
高層ビル。
アメリカに、フランスの地方出身の女性がニューヨークに到着し、ビルを見ながら孫娘に尋ねます。
- あの建物は何ですか?もう終わりが見えませんね。
- あれは高層ビルです。
- ほう、ほう!稼働するところを見てみたいものですね。
3
à New—York, et, regardant les buildings, de—
1 a,— -—y ; »qqn«£’, v Ekï4:æf l’«,
n4— æLr n»u#5 « B&üt
mandè à sa petite—fille:
"'/"‘ 7 ‘? 7"4l» 74—a
5na+r=fio —> au
5 6
—Quelle sont ces tours qu1 n’en fimssent plus?
'fW '/y “: l‘y-W “' ‘)'—, 74=Z 19;—
W/näh ch- 50 9301 acao<-*r Lou—»
—Ce sont des gratte—cie].
1 99 ; ÿ'7 l’— ‘/Sk
:un T?— lxlfiü
7 8 9
—T1ens. txens! Je voudras b1en les voir
’4"'7 7'4"':« ÿ: '7— PV E"'v V Ü:V—W
«i. —— «72. but fina «the»: Eëo&
fonctionner.
71.9? V:?—
0— ”(DE
正しいフランス語にしてください
3. À New-York, en regardant les buildings, de-
mande à sa petite-fille :
— Quelles sont ces tours qui n'en finissent plus ?
— Ce sont des gratte-ciels.
5.6.
7.8.9.
— Tiens, tiens ! Je voudrais bien les voir fonctionner.
10.
1ページ丸ごと浄書させると、大分整理される。