Google 透明性レポート RequestsをJupyterで解析

データ容量は年々増えていくばかりで、データサイエンティストが求められている時代です。データはあるのですが有効性を見つけるのが難しい。Google透明性レポートのデータ量はドメインデータだけで10GBになってました。2017年10月ドメインデータは約6GBです。

著作権問題によるコンテンツの除外レポートデータ

google-websearch-copyright-removals,.zip 4GB
CSVファイルは3点とREDME.txtです。 (〜2017年10月)のデータ容量です。
macOSデフォルトの解凍ではエラーになる場合があります。

  • domains.csv
    10.25 GB (6.36 GB)
  • requests.csv
    1.23 GB (710 MB)
  • urls-no-action-taken.csv
    14.66 GB (11.36 GB)
このデータはエクセルで開けるわけもなく。
行数を知るのも嫌になる程ですがそんな時はJupyter

容量の少ないrequests.csvから

このデータは削除リクエストされた情報です。Lumenのリンクから著作権者・代理業者、件数のデータです。Jupyterを使ってデータを見ていきます。
  • Lumen URL
  • Copyright owner ID
  • Copyright owner name
  • Reporting organization ID
  • Reporting organization name
  • URLs removed
  • URLs that were not in Google's search index
  • URLs for which we took no action
  • URLs pending review
  • From Abuser
import pandas as pd
import numpy as np

CSVを読み込みます。

要約データ 著作権者
df_requests['Copyright owner name'].describe()
count                      8893336
unique                      184693
top       BPI LTD MEMBER COMPANIES
freq                        304847
Name: Copyright owner name, dtype: object

要約データ 申請者
df_requests['Reporting organization name'].describe()
count           8893363
unique           154001
top       AudioLock.NET
freq            1874529
Name: Reporting organization name, dtype: object

Date
2011-12-31 00:00:00+00:00      3197789
2012-12-31 00:00:00+00:00     54334051
2013-12-31 00:00:00+00:00    221953070
2014-12-31 00:00:00+00:00    321708463
2015-12-31 00:00:00+00:00    519966272
2016-12-31 00:00:00+00:00    914786076
2017-12-31 00:00:00+00:00    695231476
2018-12-31 00:00:00+00:00    226595146
2019-12-31 00:00:00+00:00    186488673
2020-12-31 00:00:00+00:00     43851505
Freq: A-DEC, Name: URLs removed, dtype: int64

import matplotlib.pyplot as plt
グラフにしてみます。
2020-03 Request Plot Graph
〜2019年3月
2017年9月ごろから急に減っています。
2017-10 Request Plot Graph
〜2017年10月
  1.  2017年9月頃から減っている原因は絞り込んでチェックする必要がありそうです。
  2.  URLs for which we took no actionが2016年から多いので、この頃から著作権に関係ない悪用があるのかもしれないですね。
3つのファイルは紐付きされているわけではなくちょっと面倒です。



関連記事

リンク






WordPressDeath