悉皆調査の妥当性はどこにあるのか

国学力テスト 全員参加方式を続け検証せよ(9月7日付・読売社説)

 社説では,

 どういう環境の下でどんな勉強をしてきた子どもが、学力を伸ばせるのか。その手がかりをつかむには、調査の継続と分析・検証が不可欠だ。

 来年度は、小6時にテストを受けた子どもが初めて中3として受ける。過去の結果と比べ、わかることは多いはずだ。全員参加方式で続けるのが妥当ではないか。

と述べている。これが悉皆調査が妥当であるという根拠であると考えているのだと思う。けれど,抽出調査でもこれらと同じことができる。もし,抽出調査ではなく悉皆調査でなければこれらのことができないというのであれば,その根拠を教えてもらいたい。
 提灯と釣り鐘を比較するようなことを平気でしたり,調査項目が限られたりする悉皆調査を続けるべきという主張にはどうしても同意できない。
 http://benesse.jp/berd/center/open/berd/backnumber/2005_04/fea_ikeda_01.htmlで池田央氏が紹介しているアメリカのNAEPは,

 NAEPには「メインNAEP」と「トレンドNAEP」の二つの調査があります。
 メインNAEPは、社会や時代の変化に応じた教育課題に焦点を合わせた学力調査で、問題はその都度変わります(図表1参照)。全米から抽出された公私立学校4、8、12学年の生徒を対象に、読解、数学、理科、作文、合衆国史、公民、地理、芸術といった教科の中からNAGBが調査教科を決め、フレームワークをつくり、その中でそれぞれの専門家が問題を考えます。その時々の社会の要請を反映して、例えば1973〜74年には「生涯設計、職業観の発達」、1986年には「コンピュータ・コンピテンス」が調査対象に取り上げられました。
 トレンドNAEPでは、スペルや四則演算のように、時代の変化にかかわらず不変に求められる基礎学力(スペルや四則演算など)を測定します。9、13、 17歳の生徒に対して、数学、理科、読解、作文(ときに公民)の学力調査が行われ、毎回、同様の問題が使われます。継続的な傾向から学力の変化を探る目的なので、「変化を測定するときには測定尺度を変えてはならない」という原則が守られているのです。測るものさしを変えては統計指標の年次変化の比較はできません。つまり、尋ねる質問は同じものか、少なくとも内容的にも答えやすさの点でも同等のものでなければ、以前の結果と比較して学力が上がったか下がったか判断はできないわけです。
 学力の変化を本質的に見るためには、二つの矛盾する要求に応えなければなりません。一つは、年を追うに従って同じ学力の変化の仕方を探ること。その一方で、社会や時代の変化によって、教えられる教科の内容も強調される学力の側面も変化していること。NAEPは2種類の調査を用意することによって、こうした「変化」(メインNAEPが対応)と「連続性」(トレンドNAEPが対応)という互いに矛盾する調査目的の課題を解決しています。調査結果は公開され、一部はインターネットで閲覧可能です。

という仕組みになっている。また,池田氏

 そして重要な点は、同じ問題をすべての被験者が一斉に受ける形式ではないこと。例えば1〜2時間で全国一斉に同じ問題を出せば、1人に出せる問題はせいぜい30〜50問程度。それだけで果たして本来幅広い学力が正確に測定できるのでしょうか。原理的に不可能です。被験者の生徒が仮に300万人いたとして、問題がわずか30問というのでは、人に対して問題数があまりにアンバランスです。問題の方も300問くらいはなければいけないでしょう。あるいは何千問と必要かもしれない。極端な話、書店で売っているおびただしい数の問題集すべてが試験の対象になるわけですから、そこから30問だけピックアップしても全体が分かるはずがありません。だからといって、1人が限られた時間に何百問も何千問も1度に解答するのは無理です。

ということを述べている。特に強調したいのは

 例えば1〜2時間で全国一斉に同じ問題を出せば、1人に出せる問題はせいぜい30〜50問程度。それだけで果たして本来幅広い学力が正確に測定できるのでしょうか。原理的に不可能です。被験者の生徒が仮に300万人いたとして、問題がわずか30問というのでは、人に対して問題数があまりにアンバランスです。

というところ。現行の悉皆調査の継続ではこの問題に対処できない。そうした問題を軽視したり無視してでも悉皆調査の継続を主張する妥当性はどこにあるのか。