シェルである文章内からある単語の登場回数を調べる
はじめに
文章内から特定の単語の登場回数を調べる方法について紹介します。
検証環境
サンプル文章の用意
サンプル文章を用意します。
Wikipedia の「ONE_PIECE」のページをサンプルとして利用したいと思います。
HTMLのタグが混ざり込んでいますが、特定の検索キーワードを探す分には問題ないでしょう。
grep
を使って「特定の単語」の登場回数を調べる方法
はじめに断っておくと、 grep -c
を使う方法はおすすめしません。
grep -c
で検索対象の単語の登場回数を調べることができます。
ただし、注意が必要です。 grep -c
の検索結果数は、 「単語の登場回数」 ではなく 「単語が1文字以上見つかった行数」 になっています。
grep -o ... | wc -l
を使う方法
行数ではなく単語の登場回数を知りたい場合には、 grep -o
の結果を wc -l
にパイプで繋いでやるほうが良いでしょう。
"ワンピース" の単語は 173回 登場していることがわかります。
2020-01-18現在、該当ページのHTMLソースをChromeで開き、検索すると同様の結果となっていることがわかります。
view-source:https://ja.wikipedia.org/wiki/ONE_PIECE
ひとこと
grep -o .
ですべての文字を行に分割したりできますし、 grep -o
は重宝します。
ディスカッション
コメント一覧
まだ、コメントがありません